eprintid: 13149 rev_number: 4 eprint_status: archive userid: 1 dir: disk0/00/01/31/49 datestamp: 2012-03-06 11:59:48 lastmod: 2014-04-03 23:43:42 status_changed: 2012-08-15 09:04:48 type: doctoralThesis metadata_visibility: show creators_name: Vasquez Lucas, Hipolito title: Efficient Management of Huge Data Sets on Cluster Computers title_de: Effiziente Handhabung von größeren Datensätzen auf Clusterrechnern ispublished: pub subjects: ddc-004 divisions: i-110300 adv_faculty: af-11 keywords: Parallele E/A , Phylogenie , Parallele Dateisysteme , Bioinformatik , Cluster RechnenParallel I/O , Phylogeny , Parallel File Systems , Bioinformatics , Cluster Computing abstract: In a cluster computer a parallel file system is encharged to spread one single parallel file on the different computer's I/O nodes using a determined distribution function. In file I/O intensive parallel scientific applications with "semi-random temporal parallel file I/O acess patterns", this file is accessed at different addresses at the sametime by a number of processes that may vary between two consecutive iterations. In this thesis a set of "semi-random temporal parallel file I/O access patterns" generated by a phylogenetical application is categorized. For these patterns a partitioning function is proposed that guarantees at any time during execution access to the parallel file. This thesis shows the correlation existing between the type of I/O access patterns and the type and setting of two round robin based distribution functions so that the overall application's execution time can be reduced. abstract_translated_text: Auf einem Clusterrechner dient ein paralleles Dateisystem dazu, eine einzelne parallele Datei den verschiedenen E/A-Knoten des Rechners mittels einer bestimmten Verteilungsfunktion zuzuweisen. In parallelen wissenschaftlichen Anwendungen mit intensiven "zeitlich semi-zufälligen parallelen E/A-Zugriffen" wird auf mehrere Addressen einer solchen parallelen Datei aus unteschiedlichen Prozessen gleichzeitig zugegriffen, wobei sich die Anzahl dieser Prozesse zwischen zwei nacheinander folgenden Iterationen ändern kann. In dieser Dissertation wurde ein Satz von "zeitlich semi-zufälligen parallelen E/A-Zugriffen" kategorisiert, der von einer Stammbaumberechnungsanwendung erzeugt wird. Für diesen Satz von Zugriffen wurde eine Partitionierungsfunktion konzipiert, die der Anwendung jederzeit das Schreiben ihrer Daten in die parallele Datei unabhängig vom E/A-Zugriffstyp ermöglicht. In Dieser Dissertation wird die existierende Korrelation zwischen den E/A-Zugriffstypen und den Einstellungen zweier Round-Robin-basierter Verteilungsfunktionen gezeigt, unter denen die Anwendungsausführungszeit reduziert wird. abstract_translated_lang: ger class_scheme: ccs class_labels: C.1.4, C.4, D.1.3, E.1, J.3 date: 2012 date_type: published id_scheme: DOI id_number: 10.11588/heidok.00013149 ppn_swb: 1651337799 own_urn: urn:nbn:de:bsz:16-opus-131491 date_accepted: 2011-07-04 advisor: HASH(0x561a62a08538) language: eng bibsort: VASQUEZLUCEFFICIENTM2012 full_text_status: public citation: Vasquez Lucas, Hipolito (2012) Efficient Management of Huge Data Sets on Cluster Computers. [Dissertation] document_url: https://archiv.ub.uni-heidelberg.de/volltextserver/13149/1/HVasquezLucasPhD04072011.pdf