eprintid: 8930 rev_number: 8 eprint_status: archive userid: 1 dir: disk0/00/00/89/30 datestamp: 2009-01-19 11:39:58 lastmod: 2014-04-03 21:04:23 status_changed: 2012-08-14 15:27:38 type: doctoralThesis metadata_visibility: show creators_name: Biardzki, Christoph title: Analyzing Metadata Performance in Distributed File Systems title_de: Untersuchung der Metadatenleistung in verteilten Dateisystemen ispublished: pub subjects: 004 divisions: 110300 adv_faculty: af-11 keywords: storage , distributed filesystem cterms_swd: Dateisystem cterms_swd: Verteiltes Dateiverwaltungssystem cterms_swd: Metadaten cterms_swd: Speicher abstract: Distributed file systems are important building blocks in modern computing environments. The challenge of increasing I/O bandwidth to files has been largely resolved by the use of parallel file systems and sufficient hardware. However, determining the best means by which to manage large amounts of metadata, which contains information about files and directories stored in a distributed file system, has proved a more difficult challenge. The objective of this thesis is to analyze the role of metadata and present past and current implementations and access semantics. Understanding the development of the current file system interfaces and functionality is a key to understanding their performance limitations. Based on this analysis, a distributed metadata benchmark termed DMetabench is presented. DMetabench significantly improves on existing benchmarks and allows stress on metadata operations in a distributed file system in a parallelized manner. Both intranode and inter-node parallelity, current trends in computer architecture, can be explicitly tested with DMetabench. This is due to the fact that a distributed file system can have different semantics inside a client node rather than semantics between multiple nodes. As measurements in larger distributed environments may exhibit performance artifacts difficult to explain by reference to average numbers, DMetabench uses a time-logging technique to record time-related changes in the performance of metadata operations and also protocols additional details of the runtime environment for post-benchmark analysis. Using the large production file systems at the Leibniz Supercomputing Center (LRZ) in Munich, the functionality of DMetabench is evaluated by means of measurements on different distributed file systems. The results not only demonstrate the effectiveness of the methods proposed but also provide unique insight into the current state of metadata performance in modern file systems. abstract_translated_text: Verteilte Dateisysteme sind wichtige Bausteine moderner IT-Umgebungen. Während parallele Dateisysteme und verbesserte Hardware die Geschwindigkeit des Datenzugriffs bereits erfolgreich verbessert haben, bleibt eine optimale Verwaltung von Metadaten, also den Informationen über Dateien, Verzeichnisse und deren Organisation, eine schwierige Herausforderung. Das Ziel dieser Dissertation ist es zunächst, die Rolle der Metadaten in Dateisystemen zu erörtern und sowohl historische als auch aktuelle Implementierungen sowie Zugriffssemantiken darzustellen. Ein genaues Verständnis der Entwicklung von Dateisystemen und ihren Schnittstellen ist notwendig, um ihre Leistungsbeschränkungen im Bereich der Metadaten zu ergründen. Auf Basis dieser Untersuchungen wird der verteilte Metadaten-Benchmark DMetabench präsentiert. DMetabench verbessert bereits existierende Benchmarks und ermöglicht eine gezielte, parallele Erzeugung von Metadaten-Operationen in verteilten Dateisystemen. Sowohl die Parallelität innerhalb, auch auch zwischen Rechenknoten – beides aktuelle Trends bei Rechner- und Systemarchitekturen – können gezielt getestet werden. Dies ist insofern wichtig, als dass verteilte Dateisysteme zwischen unterschiedlichen Knoten oft eine andere Semantik anbieten, als innerhalb einer Betriebssysteminstanz. Da Messungen in verteilten Umgebungen Performanceartefakte verursachen können, die mit Durchschnittswerten schwer zu erklären sind, bietet DMetabench eine Zeitintervall-basierte Protokollfunktion, die zeitabhängige Änderungen der Geschwindigkeit von Metadaten-Operationen aufzeichnet. Weiterhin werden auch Details der Systemkonfiguration automatisch protokolliert. Die Funktionalität von DMetabench wurde mit Hilfe von Messungen an großen, verteilten Produktions-Dateisystemen am Leibniz-Rechenzentrum (LRZ) in München überprüft. Die Ergebnisse zeigen nicht nur die Wirksamkeit der vorgestellten Techniken, sondern geben auch einzigartige Einblicke in den Stand der Technik bei der Metadatenleistung von verteilten Dateisystemen. abstract_translated_lang: ger date: 2008 date_type: published id_scheme: DOI id_number: 10.11588/heidok.00008930 ppn_swb: 1647657091 own_urn: urn:nbn:de:bsz:16-opus-89304 date_accepted: 2009-01-19 advisor: HASH(0x5561209169f0) language: eng bibsort: BIARDZKICHANALYZINGM2008 full_text_status: public citation: Biardzki, Christoph (2008) Analyzing Metadata Performance in Distributed File Systems. [Dissertation] document_url: https://archiv.ub.uni-heidelberg.de/volltextserver/8930/1/dissertation_Jan09.pdf