Efficient Management of Huge Data Sets on Cluster Computers

Vasquez Lucas, Hipolito

German Title: Effiziente Handhabung von größeren Datensätzen auf Clusterrechnern

[thumbnail of HVasquezLucasPhD04072011.pdf]

Preview

PDF, English
Download (1MB) | Terms of use

Citation of documents: Please do not cite the URL that is displayed in your browser location input, instead use the DOI, URN or the persistent URL below, as we can guarantee their long-time accessibility.

DOI: 10.11588/heidok.00013149
URN: urn:nbn:de:bsz:16-opus-131491

Abstract

In a cluster computer a parallel file system is encharged to spread one single parallel file on the different computer's I/O nodes using a determined distribution function. In file I/O intensive parallel scientific applications with "semi-random temporal parallel file I/O acess patterns", this file is accessed at different addresses at the sametime by a number of processes that may vary between two consecutive iterations. In this thesis a set of "semi-random temporal parallel file I/O access patterns" generated by a phylogenetical application is categorized. For these patterns a partitioning function is proposed that guarantees at any time during execution access to the parallel file. This thesis shows the correlation existing between the type of I/O access patterns and the type and setting of two round robin based distribution functions so that the overall application's execution time can be reduced.

Translation of abstract (German)

Auf einem Clusterrechner dient ein paralleles Dateisystem dazu, eine einzelne parallele Datei den verschiedenen E/A-Knoten des Rechners mittels einer bestimmten Verteilungsfunktion zuzuweisen. In parallelen wissenschaftlichen Anwendungen mit intensiven "zeitlich semi-zufälligen parallelen E/A-Zugriffen" wird auf mehrere Addressen einer solchen parallelen Datei aus unteschiedlichen Prozessen gleichzeitig zugegriffen, wobei sich die Anzahl dieser Prozesse zwischen zwei nacheinander folgenden Iterationen ändern kann. In dieser Dissertation wurde ein Satz von "zeitlich semi-zufälligen parallelen E/A-Zugriffen" kategorisiert, der von einer Stammbaumberechnungsanwendung erzeugt wird. Für diesen Satz von Zugriffen wurde eine Partitionierungsfunktion konzipiert, die der Anwendung jederzeit das Schreiben ihrer Daten in die parallele Datei unabhängig vom E/A-Zugriffstyp ermöglicht. In Dieser Dissertation wird die existierende Korrelation zwischen den E/A-Zugriffstypen und den Einstellungen zweier Round-Robin-basierter Verteilungsfunktionen gezeigt, unter denen die Anwendungsausführungszeit reduziert wird.

Document type:	Dissertation
Supervisor:	Ludwig, Prof. Dr. Thomas
Date of thesis defense:	4 July 2011
Date Deposited:	06 Mar 2012 11:59
Date:	2012
Faculties / Institutes:	The Faculty of Mathematics and Computer Science > Department of Computer Science
DDC-classification:	004 Data processing Computer science
Uncontrolled Keywords:	Parallele E/A , Phylogenie , Parallele Dateisysteme , Bioinformatik , Cluster RechnenParallel I/O , Phylogeny , Parallel File Systems , Bioinformatics , Cluster Computing