TY - GEN UR - https://archiv.ub.uni-heidelberg.de/volltextserver/24044/ ID - heidok24044 TI - GENERIC AND ADAPTIVE METADATA MANAGEMENT FRAMEWORK FOR SCIENTIFIC DATA REPOSITORIES Y1 - 2018/// AV - public A1 - Prabhune, Ajinkya N2 - Der rapide technologische Fortschritt hat in verschiedenen Forschungsdisziplinen zu vielfa?ltigen Weiterentwicklungen in Datenakquise und -verarbeitung gefu?hrt. Hi- eraus wiederum resultiert ein immenses Wachstum an Daten und Metadaten, gener- iert durch wissenschaftliche Experimente. Unabha?ngig vom konkreten Forschungs- gebiet ist die wissenschaftliche Praxis immer sta?rker durch Daten und Metadaten gekennzeichnet. In der Folge intensivieren Universita?ten, Forschungsgemeinschaften und Fo?rderagenturen ihre Bemu?hungen, wissenschaftliche Daten effizient zu sichten, zu speichern und auszuwerten. Die wesentlichen Ziele wissenschaftlicher Daten- Repositorien sind die Etablierung von Langzeitspeicher, der Zugriff auf Daten, die Bereitstellung von Daten fu?r die Wiederverwendung und deren Referenzierung, die Erfassung der Datenquelle zur Reproduzierbarkeit sowie die Bereitstellung von Meta- daten, Anmerkungen oder Verweisen zur Vermittlung doma?nenspezifischen Wis- sens, das zur Interpretation der Daten notwendig ist. Wissenschaftliche Datenspe- icher sind hochkomplexe Systeme, bestehend aus Elementen aus unterschiedlichen Forschungsfeldern, wie z. B. Algorithmen fu?r Datenkompression und Langzeit- datenarchivierung, Frameworks fu?r das Metadaten- und Annotations-management, Workflow-Provenance und Provenance-Interoperabilita?t zwischen heterogenen Work- flowsystemen, Autorisierungs und Authentifizierungsinfrastrukturen sowie Visual- isierungswerkzeuge fu?r die Dateninterpretation. Die vorliegende Arbeit beschreibt eine modulare Architektur fu?r ein wis- senschaftliches Datenarchiv, die Forschungsgemeinschaften darin unterstu?tzt, ihre Daten und Metadaten gezielt u?ber den jeweiligen Lebenszyklus hinweg zu orchestri- eren. Diese Architektur besteht aus Komponenten, die vier Forschungsfelder repra?sen- tieren. Die erste Komponente ist ein Client zur Datenu?bertragung (?data transfer client?). Er bietet eine generische Schnittstelle fu?r die Erfassung von Daten und den Zugriff auf Daten aus wissenschaftlichen Datenakquisesystemen. Die zweite Komponente ist das MetaStore-Framework, ein adaptives Metadaten- Management-Framework, das die Handhabung sowohl statischer als auch dynamis- cher Metadatenmodelle ermo?glicht. Um beliebige Metadatenschemata behandeln zu ko?nnen, basiert die Entwicklung des MetaStore-Frameworks auf dem komponen- tenbasierten dynamischen Kompositions-Entwurfsmuster (component-based dynamic composition design pattern). Der MetaStore ist außerdem mit einem Annotations- framework fu?r die Handhabung von dynamischen Metadaten ausgestattet. Die dritte Komponente ist eine Erweiterung des MetaStore-Frameworks zur au- tomatisierten Behandlung von Provenance-Metadaten fu?r BPEL-basierte Workflow- Management-Systeme. Der von uns entworfene und implementierte Prov2ONE Al- gorithmus u?bersetzt dafu?r die Struktur und Ausfu?hrungstraces von BPEL-Workflow- Definitionen automatisch in das Provenance-Modell ProvONE. Hierbei ermo?glicht die Verfu?gbarkeit der vollsta?ndigen BPEL-Provenance-Daten in ProvONE nicht nur eine aggregierte Analyse der Workflow-Definition mit ihrem Ausfu?hrungstrace, sondern gewa?hrleistet auch die Kompatibilita?t von Provenance-Daten aus unterschiedlichen Spezifikationssprachen. Die vierte Komponente unseres wissenschaftlichen Datenarchives ist das Provenance-Interoperabilita?tsframework ProvONE - Provenance Interoperability Framework (P-PIF). Dieses gewa?hrleistet die Interoperabilita?t von Provenance-Daten heterogener Provenance-Modelle aus unterschiedlichen Workflowmanagementsyste- men. P-PIF besteht aus zwei Komponenten: dem Prov2ONE-Algorithmus fu?r SCUFL und MoML Workflow-Spezifikationen und Workflow-Management-System- spezifischen Adaptern zur Extraktion, U?bersetzung und Modellierung retrospektiver Provenance-Daten in das ProvONE-Provenance-Modell. P-PIF kann sowohl Kon- trollfluss als auch Datenfluss nach ProvONE u?bersetzen. Die Verfu?gbarkeit hetero- gener Provenance-Traces in ProvONE ermo?glicht das Vergleichen, Analysieren und Anfragen von Provenance-Daten aus unterschiedlichen Workflowsystemen. Wir haben die Komponenten des in dieser Arbeit vorgestellten wissenschaftlichen Datenarchives wie folgt evaluiert: fu?r den Client zum Datentrasfer haben wir die Daten-u?bertragungsleistung mit dem Standard-Protokoll fu?r Nanoskopie-Datensa?tze untersucht. Das MetaStore-Framework haben wir hinsichtlich der folgenden bei- den Aspekte evaluiert. Zum einen haben wir die Metadatenaufnahme und Voll- textsuchleistung unter verschiedenen Datenbankkonfigurationen getestet. Zum an- deren zeigen wir die umfassende Abdeckung der Funktionalita?ten von MetaStore durch einen funktionsbasierten Vergleich von MetaStore mit bestehenden Metadaten- Management-Systemen. Fu?r die Evaluation von P-PIF haben wir zuna?chst die Korrek- theit und Vollsta?ndigkeit unseres Prov2ONE-Algorithmus bewiesen und daru?ber hin- aus die vom Prov2ONE BPEL-Algorithmus generierten Prognose-Graphpattern aus ProvONE gegen bestehende BPEL-Kontrollflussmuster ausgewertet. Um zu zeigen, dass P-PIF ein nachhaltiges Framework ist, das sich an Standards ha?lt, vergle- ichen wir außerdem die Funktionen von P-PIF mit denen bestehender Provenance- Interoperabilita?tsframeworks. Diese Auswertungen zeigen die U?berlegenheit und die Vorteile der einzelnen in dieser Arbeit entwickelten Komponenten gegenu?ber ex- istierenden Systemen. ER -