Optimising the data-collection time of a large-scale data-acquisition system

Colombo, Tommaso

Preview

PDF, English
Download (23MB) | Terms of use

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

DOI: 10.11588/heidok.00024682
URN: urn:nbn:de:bsz:16-heidok-246829

Abstract

Data-acquisition systems are a fundamental component of modern scientific experiments. Large-scale experiments, particularly in the field of particle physics, comprise millions of sensors and produce petabytes of data per day. Their data-acquisition systems digitise, collect, filter, and store experimental signals for later analysis. The performance and reliability of these systems are critical to the operation of the experiment: insufficient performance and failures result in the loss of valuable scientific data.

By its very nature, data acquisition is a synchronous many-to-one operation: every time a phenomenon is observed by the experiment, data from its various sensors must be assembled into a single coherent dataset. This characteristic yields a particularly challenging traffic pattern for computer networks dedicated to data acquisition. If no corrective measures are taken, this pattern, known as incast, results in a significant underutilisation of the network resources, with a direct impact on a data-acquisition systems' throughput.

This thesis presents effective and feasible approaches to maximising network utilisation in data-acquisition systems, avoiding the incast problem without sacrificing throughput. Rather than using abstract models, it focuses on an existing large-scale experiment, used as a case-study: the ATLAS detector at the Large Hadron Collider.

First, the impact of incast on data-acquisition performance is characterised through a series of measurements performed on the actual data-acquisition system of the ATLAS experiment. As the size of the data sent synchronously by multiple sources to the same destination grows past the size of the network buffers, the throughput falls. A simple but effective mitigation is proposed and tested: at the application-layer, the data-collection receivers can limit the number of senders they simultaneously collect data from. This solution recovers a large part of the throughput lost to incast, but introduces some performance losses of its own.

Further investigations are enabled by the development of a complete packet-level model of the ATLAS data-acquisition network in an event-based simulation framework. Comparing real-world measurements and simulation results, the model is shown to be accurate enough to be used for studying the incast phenomenon in a data-acquisition system.

Leveraging the simulation model, various optimisations are analysed. The focus is kept on practical software changes, that can realistically be deployed on otherwise unmodified existing systems. Receiver-side traffic-shaping, incast- and traffic-shaping-aware work scheduling policies, tuning of TCP's timeouts, and centralised network packet injection scheduling are evaluated alone and in combination. Used together, the first three techniques result in a very significant increase of the system's throughput, which gets within 10% of the ideal maximum performance, even with a high network traffic load.

Translation of abstract (German)

Datenerfassungssysteme sind fundamentale Komponenten moderner wissenschaftlicher Experimente. Großexperimente der Elementarteilchenphysik nutzen Millionen von Sensoren und erzeugen Petabyte Daten pro Tag. Deren Datenerfassungssysteme digitalisieren, sammeln, filtern und speichern die Daten zur späteren Analyse. Die Funktion und Zuverlässigkeit dieser Systeme sind kritisch für den Betrieb des Experiments. Schlechte Funktionalität führt zum Verlust von wertvollen wissenschaftlichen Daten.

Bei Datenerfassungssystemen kommunizieren viele Systeme synchron mit einem einzelnen System: so werden bei interessanten Ereignissen die Daten vieler Sensoren zu einem kohärenten Datensatz zusammengefügt. Diese Charakteristik führt zu einem herausfordernden Datentransferschema für Computer Netzwerke, die an Datenerfassungssystemen angeschlossen sind. Werden keine geeigneten Maßnahmen ergriffen, kommt es zum Incast. Was zu einer Unterauslastung des Netzwerkes führt, welche den Datendurchsatz im Datenerfassungssystem reduziert.

Diese Arbeit präsentiert effektive und machbare Ansätze die Netzwerkausnutzung in Datenerfassungssystemen zu maximieren, indem der Incast reduziert wird bei gleichzeitiger Erhaltung des Datendurchsatzes. Anstatt an abstrakten Modellen dies zu beschreiben, wird die Studie an dem existierenden ATLAS Detektor am Large Hadron Collider durchgeführt.

Erst wird der Einfluss vom Incast auf die Datenerfassungsleistung durch eine Reihe von Messungen an dem Datenerfassungssystem des ATLAS-Experiments charakterisiert. Wenn die Größe der Daten, welche synchron von mehreren Quellen an das gleiche Ziel gesendet werden, wächst, so sinkt der Datendurchsatz abhängig von der Größe der Netzwerkpuffer. Eine einfache aber wirksame Verbesserung wird vorgeschlagen und getestet: auf der Anwendungsebene können die Empfänger die Anzahl der Absender beschränken, von denen sie gleichzeitig Daten sammeln. Diese Lösung kann einen Großteil des durch Incast verloren gegangenen Datendurchsatzes wiederherstellen, führt jedoch auch zu eigenen Leistungseinbußen.

Weitere Untersuchungen wurden durch die Entwicklung eines vollständigen Paket-Level-Modells des ATLAS-Datenerfassungsnetzwerkes in einem ereignisbasierten Simulationsframeworks ermöglicht. Vergleiche von realen Messungen und Simulationsergebnissen zeigen, dass das Modell genau genug ist, um zur Untersuchung des Incast-Phänomens in einem Datenerfassungssystem verwendet zu werden.

Mithilfe des Simulationsmodells werden verschiedene Optimierungen analysiert. Der Fokus liegt auf praktischen Softwareänderungen, die realistisch auf ansonst unmodifiziert bestehenden Systemen implementiert werden können. Dazu gehören empfängerseitigen Traffic-Shaping, Incast- und Traffic-Shaping-bewusste Arbeitsplanung, Abstimmung der Timeouts von TCP und zentralisierte Netzwerkpaket Injektionsplanung. Diese werden alleine und in Kombination ausgewertet. Zusammen benutzt ergeben die ersten drei Techniken, selbst bei hoher Netzwerkauslastung, eine sehr signifikante Erhöhung des Datendurchsatzes, der innerhalb von 10% um den Idealwert nahe der maximalen Leistung liegt.

Document type:	Dissertation
Supervisor:	Fröning, Prof. Dr. Holger
Date of thesis defense:	7 June 2018
Date Deposited:	26 Jul 2018 12:11
Date:	2018
Faculties / Institutes:	The Faculty of Mathematics and Computer Science > Department of Computer Science
DDC-classification:	004 Data processing Computer science