Directly to content
  1. Publishing |
  2. Search |
  3. Browse |
  4. Recent items rss |
  5. Open Access |
  6. Jur. Issues |
  7. DeutschClear Cookie - decide language by browser settings

Analyzing Metadata Performance in Distributed File Systems

Biardzki, Christoph

German Title: Untersuchung der Metadatenleistung in verteilten Dateisystemen

[img]
Preview
PDF, English Print-on-Demand-Kopie (epubli)
Download (2797Kb) | Lizenz: Print on Demand

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the persistent URL or the URN below, as we can guarantee their long-time accessibility.

Abstract

Distributed file systems are important building blocks in modern computing environments. The challenge of increasing I/O bandwidth to files has been largely resolved by the use of parallel file systems and sufficient hardware. However, determining the best means by which to manage large amounts of metadata, which contains information about files and directories stored in a distributed file system, has proved a more difficult challenge. The objective of this thesis is to analyze the role of metadata and present past and current implementations and access semantics. Understanding the development of the current file system interfaces and functionality is a key to understanding their performance limitations. Based on this analysis, a distributed metadata benchmark termed DMetabench is presented. DMetabench significantly improves on existing benchmarks and allows stress on metadata operations in a distributed file system in a parallelized manner. Both intranode and inter-node parallelity, current trends in computer architecture, can be explicitly tested with DMetabench. This is due to the fact that a distributed file system can have different semantics inside a client node rather than semantics between multiple nodes. As measurements in larger distributed environments may exhibit performance artifacts difficult to explain by reference to average numbers, DMetabench uses a time-logging technique to record time-related changes in the performance of metadata operations and also protocols additional details of the runtime environment for post-benchmark analysis. Using the large production file systems at the Leibniz Supercomputing Center (LRZ) in Munich, the functionality of DMetabench is evaluated by means of measurements on different distributed file systems. The results not only demonstrate the effectiveness of the methods proposed but also provide unique insight into the current state of metadata performance in modern file systems.

Translation of abstract (German)

Verteilte Dateisysteme sind wichtige Bausteine moderner IT-Umgebungen. Während parallele Dateisysteme und verbesserte Hardware die Geschwindigkeit des Datenzugriffs bereits erfolgreich verbessert haben, bleibt eine optimale Verwaltung von Metadaten, also den Informationen über Dateien, Verzeichnisse und deren Organisation, eine schwierige Herausforderung. Das Ziel dieser Dissertation ist es zunächst, die Rolle der Metadaten in Dateisystemen zu erörtern und sowohl historische als auch aktuelle Implementierungen sowie Zugriffssemantiken darzustellen. Ein genaues Verständnis der Entwicklung von Dateisystemen und ihren Schnittstellen ist notwendig, um ihre Leistungsbeschränkungen im Bereich der Metadaten zu ergründen. Auf Basis dieser Untersuchungen wird der verteilte Metadaten-Benchmark DMetabench präsentiert. DMetabench verbessert bereits existierende Benchmarks und ermöglicht eine gezielte, parallele Erzeugung von Metadaten-Operationen in verteilten Dateisystemen. Sowohl die Parallelität innerhalb, auch auch zwischen Rechenknoten – beides aktuelle Trends bei Rechner- und Systemarchitekturen – können gezielt getestet werden. Dies ist insofern wichtig, als dass verteilte Dateisysteme zwischen unterschiedlichen Knoten oft eine andere Semantik anbieten, als innerhalb einer Betriebssysteminstanz. Da Messungen in verteilten Umgebungen Performanceartefakte verursachen können, die mit Durchschnittswerten schwer zu erklären sind, bietet DMetabench eine Zeitintervall-basierte Protokollfunktion, die zeitabhängige Änderungen der Geschwindigkeit von Metadaten-Operationen aufzeichnet. Weiterhin werden auch Details der Systemkonfiguration automatisch protokolliert. Die Funktionalität von DMetabench wurde mit Hilfe von Messungen an großen, verteilten Produktions-Dateisystemen am Leibniz-Rechenzentrum (LRZ) in München überprüft. Die Ergebnisse zeigen nicht nur die Wirksamkeit der vorgestellten Techniken, sondern geben auch einzigartige Einblicke in den Stand der Technik bei der Metadatenleistung von verteilten Dateisystemen.

Item Type: Dissertation
Supervisor: Ludwig, Prof. Dr. Thomas
Date of thesis defense: 19 January 2009
Date Deposited: 19 Jan 2009 11:39
Date: 2008
Faculties / Institutes: The Faculty of Mathematics and Computer Science > Department of Computer Science
Subjects: 004 Data processing Computer science
Controlled Keywords: Dateisystem, Verteiltes Dateiverwaltungssystem, Metadaten, Speicher <Informatik>
Uncontrolled Keywords: storage , distributed filesystem
About | FAQ | Contact | Imprint |
OA-LogoLogo der Open-Archives-Initiative