eprintid: 13149
rev_number: 4
eprint_status: archive
userid: 1
dir: disk0/00/01/31/49
datestamp: 2012-03-06 11:59:48
lastmod: 2014-04-03 23:43:42
status_changed: 2012-08-15 09:04:48
type: doctoralThesis
metadata_visibility: show
creators_name: Vasquez Lucas, Hipolito
title: Efficient Management of Huge Data Sets on Cluster Computers
title_de: Effiziente Handhabung von größeren Datensätzen auf Clusterrechnern
ispublished: pub
subjects: ddc-004
divisions: i-110300
adv_faculty: af-11
keywords: Parallele E/A , Phylogenie , Parallele Dateisysteme , Bioinformatik , Cluster RechnenParallel I/O , Phylogeny , Parallel File Systems , Bioinformatics , Cluster Computing
abstract: In a cluster computer a parallel file system is encharged to spread one single parallel file on the different computer's I/O nodes using a determined distribution function. In file I/O intensive parallel scientific applications with "semi-random temporal parallel file I/O acess patterns", this file is accessed at different addresses at the sametime by a number of processes that may vary between two consecutive iterations.  In this thesis a set of "semi-random temporal parallel file I/O access patterns" generated by a phylogenetical application is categorized. For these patterns a partitioning function is proposed that guarantees at any time during execution access to the parallel file. This thesis shows the correlation existing between the type of I/O access patterns and the type and setting of two round robin based distribution functions so that the overall application's execution time can be reduced. 
abstract_translated_text: Auf einem Clusterrechner dient ein paralleles Dateisystem dazu, eine einzelne parallele Datei den verschiedenen E/A-Knoten des Rechners mittels einer bestimmten Verteilungsfunktion zuzuweisen. In parallelen wissenschaftlichen Anwendungen mit intensiven "zeitlich semi-zufälligen parallelen E/A-Zugriffen" wird auf mehrere Addressen einer solchen parallelen Datei aus unteschiedlichen Prozessen gleichzeitig zugegriffen, wobei sich die Anzahl dieser Prozesse zwischen zwei nacheinander folgenden Iterationen ändern kann. In dieser Dissertation wurde ein Satz von "zeitlich semi-zufälligen parallelen E/A-Zugriffen" kategorisiert, der von einer Stammbaumberechnungsanwendung erzeugt wird. Für diesen Satz von Zugriffen wurde eine Partitionierungsfunktion konzipiert, die der Anwendung jederzeit das Schreiben ihrer Daten in die parallele Datei unabhängig vom E/A-Zugriffstyp ermöglicht. In Dieser Dissertation wird die existierende Korrelation zwischen den E/A-Zugriffstypen und den Einstellungen zweier Round-Robin-basierter Verteilungsfunktionen gezeigt, unter denen die Anwendungsausführungszeit reduziert wird.
abstract_translated_lang: ger
class_scheme: ccs
class_labels: C.1.4, C.4, D.1.3, E.1, J.3
date: 2012
date_type: published
id_scheme: DOI
id_number: 10.11588/heidok.00013149
ppn_swb: 1651337799
own_urn: urn:nbn:de:bsz:16-opus-131491
date_accepted: 2011-07-04
advisor: HASH(0x561a62a08538)
language: eng
bibsort: VASQUEZLUCEFFICIENTM2012
full_text_status: public
citation:   Vasquez Lucas, Hipolito  (2012) Efficient Management of Huge Data Sets on Cluster Computers.  [Dissertation]     
document_url: https://archiv.ub.uni-heidelberg.de/volltextserver/13149/1/HVasquezLucasPhD04072011.pdf