Der Bedarf an Personal im Bereich des Forschungsdatenmanagements (FDM) wächst stetig; eine Entwicklung, die nicht zuletzt durch die Nationale Forschungsdateninfrastruktur (NFDI) beflügelt wird; im Kontrast dazu sind formale Qualifikationsmöglichkeiten kaum vorhanden. Dies ändert sich ab Herbst 2021 mit dem Start des ersten berufsbegleitenden FDM-Zertifikatskurs in Nordrhein-Westfalen (NRW). Hiermit leisten die Technische Hochschule Köln, das Zentrum für Bibliotheks- und Informationswissenschaftliche Weiterbildung (ZBIW), das Infrastruktur- und Forschungszentrum für lebenswissenschaftliche Informationen und Daten (ZB MED) sowie die Landesinitiative für Forschungsdatenmanagement in NRW (fdm.nrw) Pionierarbeit in Deutschland. Mit dem Zertifikatskurs wird eine heterogene Zielgruppe angesprochen, die sich aus den Beschäftigten der Infrastruktur-Einrichtungen der Hochschulen (mit unterschiedlichen beruflichen bzw. studienbezogenen Abschlüssen) sowie Vertreter*innen aus der Forschung zusammensetzt. Dabei spiegeln die mit ausgewiesenen Expert*innen entwickelten Modul-Inhalte das facettenreiche FDM-Feld wider, bieten eine fundierte Grundausbildung und ermöglichen eine individuelle Spezialisierung, wie beispielsweise im Bereich der Datennachnutzung. Mittels eines Posters wird die Struktur des Zertifikatskurses vorgestellt, die als Grundlage für Adaptionen in anderen Aus- und Weiterbildungskontexten dienen kann. In der Besprechung des Posters können konkrete Rückfragen zu den Inhalten und der Organisation geklärt werden.
Die Digitalisierung verändert die Bedingungen für die Produktion, Distribution, Rezeption und Erforschung von Literatur. Die veränderten medialen Bedingungen führen nicht nur zur Übersetzung von gedruckten Texten in digitale Objekte, sondern bringen selbst produktiv neue Literaturformen und -gattungen hervor. Hierzu zählen etwa literarische Hypertexte, Blog-Formate, literarische Tweets, aber auch Texte und Textgeneratoren, die auf computerlinguistische Methoden setzen. Zum einem scheinen sich diese Texte zur Anwendung computergestützter Analysemethoden besonders anzubieten, da sie genuin in elektronischer Form vorliegen. Zum anderen bringt diese Form für ihre Archivierung und Bereitstellung eine Reihe von besonderen Anforderungen mit sich. So führen die hochfrequenten Erneuerungszyklen digitaler Technik dazu, dass die ursprünglichen Darbietungsformen historischer elektronischer Texte teils aufwendig rekonstruiert werden müssen, da die entsprechende Hard- oder Software schnell veraltet ist. Das Science Data Center for Literature (SDC4Lit) hat sich das Ziel gesetzt, die Anforderungen, die Digitale Literatur an ihre Archivierung, Erforschung und Vermittlung stellt, systematisch zu reflektieren und entsprechende Lösungen für einen nachhaltigen Datenlebenszyklus für Literaturforschung und -vermittlung langfristig umzusetzen. Im Zentrum stehen dabei der Aufbau verteilter langzeitverfügbarer Repositories für (Digitale) Literatur und die Entwicklung einer Forschungsplattform. Die Repositories bilden den zentralen Speicher für das Harvesting von elektronischer Literatur im künftigen Betrieb des SDC4Lit. Die Forschungsplattform bietet die Möglichkeit zum computergestützten Arbeiten mit den Beständen der Repositories. Da eine solche Repository-Struktur, die Sammeln, Archivierung und Analyse miteinander verzahnt, nur in der interdisziplinären Zusammenarbeit zu bewerkstelligen ist, sind im Projekt Partner mit Expertisen in den Bereichen Archiv, Höchstleistungsrechnen, Maschinelle Sprachverarbeitung und Digital Humanities vereint. Eine wichtige Aufgabe des Projekts ist die Modellierung von Formen digitaler Literatur, die zunächst beispielorientiert anhand des bereits vorhandenen Korpus digitaler Literatur erfolgt. Daraus entstehen sowohl technische als auch gattungspoetologische Herausforderungen, etwa bei der medienbezogenen Abgrenzung von digitaler, nicht-digitaler und post-digitaler Literatur oder in Bezug auf gattungspoetologische und literaturgeschichtliche Fragen. Neben digitalen Objekten und entsprechenden Metadaten werden auch Forschungsdaten nachvollziehbar und nachhaltig gespeichert. Dazu zählen einerseits die bei der Arbeit des Projekts anfallenden Forschungsdaten, insbesondere solche, die für das Anbieten von Diensten auf der Plattform notwendig sind. Andererseits soll das Repository die Möglichkeit bieten, die von Nutzer*innen der Forschungsplattform generierten Forschungsdaten strukturiert zu speichern und zur Verfügung zu stellen.
Research in modern life science increasingly depends on the exchange of interdisciplinary expertise and collaboration and the reuse and integration of large data sets. The advancing digitization in particular, opens up new possibilities for scientific knowledge acquisition, especially for the fundamental plant research community. However, challenges exist specifically in capturing the entire research cycle, including contextualization of data according to the FAIR and linked open data principles for the DataPLANT (https://nfdi4plants.de/) community and beyond. Here, we propose a data structure dubbed Annotated Research Context (ARC - https://github.com/nfdi4plants/ARC) which captures the complete research cycle in a structured way, meeting the FAIR requirements with low friction for the individual researcher. ARCs are self-contained and include assay and measurement data, workflows, and computation results, accompanied by metadata in one package. Their structure allows full user-control over all metadata and facilitates usability, access, publication, and sharing of the research. Thereby, ARCs are a practical implementation of existing standards leveraging the advantages of the ISA model, research crates, and the Common Workflow Language. The ARC concept relies on a structure that partitions assay, workflow and results for granular reuse and development. Assays cover biological, experimental, and instrumental data including its self-contained description using the ISA model. Similarly, workflows describe all digital steps of a study and contain application code, scripts and/or any other executable description of an analysis providing the highest degree of flexibility for the scientists. Further, to ensure persistence and reproducibility, workflows include their own containerized running environment. The result data is linked to the workflows by a minimal Common Workflow Language file specifying the workflow input and output. The suggested structure for ARCs is a starting point for individual research projects and defines a framework for the organization, sharing, versioning, reuse (clone), and evolution (fork/pull request) of research projects in a manner familiar from open-source software development. ARCs will form the basis of our collaborative research platform, the DataPLANT Hub, but will also provide an interface with existing infrastructure aiming at compatibility with public services and existing repositories due to its decentralized conception. Additionally, it will be possible for the DataPLANT community to handle ARCs on the de.NBI Cloud and the Storage-for-Science RDM system and to compute on the bwForCluster BinAC, the de.NBI Cloud, and on Galaxy resources. In the future, we envision ARC publications as a central component of knowledge/data communication and sharing, which can be referenced by classical journal publication. As part of the ARC vision, we will discuss mechanisms for measuring data and metadata quality.
Im vom MWK Baden-Württemberg geförderten Science Data Center für Molekulare Material-wissenschaften (MoMaF) wird eine Infrastruktur aufgebaut, die Forschende aus der Chemie und den Materialwissenschaften in ihrer täglichen Arbeit unterstützt und ein effizientes Forschungsdatenmanagement (FDM) ermöglicht. Diese virtuelle Arbeitsumgebung besteht aus flexibel an die Bedürfnisse der Forschenden anpassbaren Modulen, Datenanalysetools sowie Schnittstellen zu (Fach)repositorien und wird ergänzt durch Aspekte der Metadaten- beschreibung, Langzeitarchivierung und rechtliche Hilfestellungen im Umgang mit Daten. Die entwickelten Tools und Dienstleistungen werden Anwendung in unterschiedlichen Aspekten des gesamten Forschungsdatenzyklus finden und insbesondere die Ziele verfolgen, ein FAIRes Forschungsdatenmanagement zu gewährleisten und eine Verbesserung der Forschungsqualität zu ermöglichen. Ausgehend von Chemotion*1 , einem elektronischen Laborbuch (ELN) und Repositorium, das für kleine Moleküle und ihre Reaktionen optimiert ist und Kadi4Mat*2 , einem ELN für die computergestützten Materialwissenschaften, wird eine funktionell und fachlich erweiterte Infrastruktur aufgebaut. Eine ans ELN gekoppelte Feature Toolbox liefert die Möglichkeit die jeweiligen Forschungstätigkeiten digital einzufangen, wodurch signifikante Mehrwerte für den Forschungsablauf entstehen. Dabei liegt der Fokus einerseits auf dem Ausbau von Analysefunktionalitäten, andererseits wird der Forschungsgegenstand auf die makromolekulare Chemie / Oberflächenchemie und die Materialwissenschaften erweitert. Die Arbeit mit Makromolekülen erfordert eigene Tools, so muss z. B. der vorhandene Struktureditor (geeignet für kleinere Moleküle) erweitert werden. In den beiden Fachdisziplinen der Chemie und Materialwissenschaften werden umfangreiche Datenvolumina aus realen Experimenten im Labor und aus Simulationsrechnungen erzeugt und sollen vielseitig durch Datenanalyse und Datenprozessierabläufe ausgewertet und interpretiert werden. Als gemeinsame fachübergreifende Entwicklung wird die Arbeitsumgebung so aufgebaut, dass basierend auf experimentellen und computergenerierten Daten automatisierbare Simulationsabläufe realisierbar sind und durch programmatische Schnittstellen Anknüpfpunkte für weitere Analysewerkzeuge vorliegen. Die in MoMaF betrachteten Forschungsabläufe und -daten unterscheiden sich aufgrund ihrer fachspezifischen Herkunft in wesentlichen Gesichtspunkten, wie z. B. in spezifischen Workflows und Analysemethoden. Dennoch bestehen gemeinsame Nachnutzungsszenarien die eine Interoperabilität von Daten und Ergebnisse zwischen den Fachbereichen über Programmierschnittstellen erfordern. Die hieraus resultierenden Synergien liefern eine besondere Motivation zur Nutzung der entstehenden Infrastruktur. Eine Nachnutzung der in MoMaF entwickelten Softwareprodukte wird durch Open Source Lizenzen und eine enge Einbindung der Fachcommunites in die Produktentwicklung befördert, während die Nachnutzung der Forschungsdaten durch rechtliche Analysen und Empfehlungen permanent vorangetrieben wird.
*1: https://chemotion.net/ *2: https://kadi4mat.iam-cms.kit.edu/
The National Research Data Infrastructure (NFDI) paves the way for community-driven, closely connected RDM measures in all areas of science. Microscopy is a versatile research technique widely used throughout the natural and biomedical sciences. Bioimaging data generated by modern microscopes ranging from conventional, confocal, and super-resolution light microscopes to high-resolution electron microscopes are of vital importance to gain insight into the microverse of cells, tissues, and materials. The acquired data is often stored only locally, not systematically annotated, and comparability is hampered by proprietary software and heterogeneous file formats. These issues demand better harmonized practices of image data management and extensive training and education of users. At the same time, bioimaging is an active research area in itself, leading to advancements in instrumentation and data acquisition speed that has not been achieved before. Microscopy has long changed from an observational qualitative method to a big-data quantitative approach used, e.g., in automated high-content and high-throughput screenings. Huge amounts of data from increased acquisition speed and increased information density per image file demand coordinated measures to handle and preserve data and require strategies for future-proof secure storage and re-usability. Integration with multimodal data sets and subject-specific (meta)data standards and formats are further issues to be addressed. Leveraging on our extensive experience within German Bioimaging – Society for Microscopy and Image Analysis in bringing together researchers, IT-service and –infrastructure providers, image analysts, and application specialists at core facilities in Germany, we aim to tackle these challenges. We intend to submit our proposal for a consortium for microcopy data within the NFDI in September 2021. Our network builds on experience and best practices in image data management, including the installation of OMERO-instances at local institutions as well as extending metadata annotation tools and usability standards. We have established and further seek collaborations with international activities in the field of bioimage analysis and data management, e.g., the Open Microscopy Environment (OME) community, the Network of European BioImage Analysts (NEUBIAS), the BioImage Archive (BIA), and more. In this fertile environment, we aim at becoming the national reference entity for FAIR management of microscopy data in Germany. RDM strategies need to remain adaptable, as future advancements in computing, storage solutions, machine learning methods, and more will demand novel measures so that today can comply with tomorrow without slowing innovation and progress. We aim to promote sustainable RDM throughout every step of the image data life cycle, engage in training and education, and closely connect with all interested user groups, consortia, and national as well as international RDM initiatives.
Forschungsdaten sind die Grundlage für wissenschaftliches Arbeiten aller Disziplinen und garantieren gleichzeitig deren Nachvollziehbarkeit und Qualität. Eine langfristige Sicherung und nachhaltige Bereitstellung von Forschungsdaten stellt daher eine Notwendigkeit für Forschung und Wissenschaft dar. In zahlreichen regionalen wie überregionalen und nationalen Projekten werden hierzu aktuell Lösungen entwickelt. Aufgrund der Heterogenität der Daten in den unterschiedlichen Wissenschaftsdisziplinen ist dabei die Ausrichtung an den jeweiligen wissenschaftlichen Bedürfnissen und Anforderungen und damit der Austausch zwischen Forschenden und Infrastruktur- bzw. Diensteanbietern eine Voraussetzung. Seit Sommer 2019 entwickeln vier Science Data Center in Baden-Württemberg im Rahmen der Landesdigitalisierungsstrategie Forschungsdateninfrastrukturen, spezifische Workflows und Analysemethoden für die Fächer Bioinformatik, irtschaftswissenschaften, Chemie, makromolekulare Forschung und Materialwissenschaften sowie Literaturwissenschaft/Digital Humanities. Begleitet werden die wissenschaftlichen Datenzentren von dem Landesprojekt bw2FDM, das eine abgestimmte und arbeitsteilige Bearbeitung von Querschnittsthemen in Form von sechs Arbeitsgruppen zu den Themen Geschäftsmodelle, IT-Infrastruktur, Metadaten, Recht, Schulungen und Qualitätsmanagement koordiniert. In diesen Austausch- und Informationsforen werden disziplinspezifische wie generische Fragen zur nachhaltigen und qualitätsgesicherten Datenbereitstellung, zu Interoperabilität und rechtlichen Aspekten beim Teilen vom Forschungsdaten sowie der Bewusstseinsbildung der Wissenschaftlerinnen und Wissenschaftler für Forschungsdatenmanagement diskutiert, Problemstellungen formuliert und Lösungsansätze erarbeitet. Erste Empfehlungen oder Handreichungen sind bereits entstanden und werden den Forschungsdaten- und Fachcommunities über verschiedene Open-Access-Plattformen und eine projekteigene Website bereitgestellt. Darüber hinaus stehen die Datenzentren und Arbeitsgruppen in Austausch mit überregionalen und nationalen Netzwerken und Initiativen und bringen ihre Expertise und Erfahrung dort ein. Das Poster gibt einen Überblick über die vier Science Data Center und das Begleitprojekt bw2FDM sowie deren Netzwerke und Austausch zu den genannten Querschnittsthemen.
Das Speichersystem bwSFS (Storage-for-Science) bildet die georedundant verteilte technische Plattform für Basis-Speicherdienste, Forschungsdatenmanagement und das Teilen von Daten sowohl während laufender Forschungen als auch durch Datenveröffentlichung nach Projektabschluss. Die zentralen Speicherkomponenten befinden sich an den Standorten Tübingen und Freiburg, zusätzlich kommen Cache-Systeme an den Universitäten Konstanz und Stuttgart zum Einsatz. bwSFS stellt insgesamt knapp 20 Petabyte nutzbare Speicherkapazität in Form von Netzwerkdateisystemen (NFS/SMB) und Objektspeicher (S3) auf Basis von NetApp-Komponenten bereit. Das System verfügt über eine solide Hardwarebasis mit moderner Überwachung und verschiedenen, teilweise über die Standortgrenzen hinweg reichenden Redundanzen. bwSFS ist einerseits ein zentraler Baustein für das Data Intensive Computing der BinAC- und NEMO-Communities und stellt andererseits darüberhinaus Kapazitäten und Dienste für die Forschenden der beteiligten Universitäten sowie dem Science Data Center BioDATEN und der NFDI DataPLANT bereit. Um die vorgesehene breite Nutzerbasis des Systems vernünftig verwalten zu können und eine nahtlose Integration in die BaWü-Datenföderation zu erreichen, ist ein föderiertes Management der Projekt-, User- und Gruppendaten notwendig. Hierbei wird auf etablierte Strukturen aus dem HPC-Umfeld aufgesetzt, wo ein Teil der Nutzerbasis beheimatet ist. Schon in der Implementierungsphase der Software und Dienste, die die Fachwissenschaften einbezieht, zeichnet sich ab, dass die vorhandenen Methoden zum Identitäsmanagement nicht genügen. Im Vergleich zu HPC-Diensten erfordern die Speicherdienste eine wesentlich tiefere Integration bestehender Infrastrukturen und ein flexibleres Nutzermanagement. Zur Unterstützung des Forschungsdatenmanagements wird innerhalb von bwSFS auf die Verwendung von InvenioRDM gesetzt, welches ein komfortables Userinterface und die OAI-PMH-Schnittstelle bereits beinhaltet. In diese Entscheidung wurden frühzeitig alle am FDM Prozess beteiligten zentralen Einrichtungen und Projekte einbezogen. In Tübingen sind das die Universitätsbibliothek und die Core-Facility eScience-Center. In Freiburg erfolgt die Koordination mit zentralen Einrichtungen und die Communities durch die Research Data Management Group. In Freiburg wird ein Gitlab für Versionierung, Kollaboration und Teilen von Daten laufender Projekte zum Einsatz kommen. Für die DOI-Vergabe in Invenio wird auf etablierte Dienste der UBs zurückgegriffen, für die persistente Identifikation von Forschenden auf ORCID. Damit werden die Resourcen für FDM gebündelt, um bessere Unterstützung für die Fachwissenschaften in der Umsetzung spezifischer FDM-Anforderungen zu verbesseren und eine besserer Beratung der Forschenden zu gewährleisten. Zur Durchsetzung der FAIR und OpenAccess Prinzipien wird auf DMPs gesetzt, die durch Vorgaben der Fachkommunities mit Richtlinien für Metadatenmanagement, Archivierung und Lizenzmodelle unterstützen.
When publishing scientific artifacts, such as recorded files from an experiment, generated files from a software, or developed application components, researchers are encouraged to provide additional structured meta information about certain characteristics of these scientific datasets, as these are normally not self-descriptive. For that purpose, several proposed metadata standards and schemas already exist. Such a meta data description nowadays commonly comprises a title, some information about the author and institution, some other administrative or citational metadata, some simple and maybe ambiguous keywords and an unstructured free-text description of the main content. However, especially for early-career researchers, it is an obstacle to start with research data publishing because they are not aware of relevant existing standards,are bored to fill out extensive, static, text input-orientedsubmission forms in well-established research data repository applications, or see it as a time-consuming activity without support or interaction. Chatbot-like user interfaces are a promising approach that were already successfullyapplied in other knowledge domains to request structured information from a user and guide the userthrough a set of relevant questions in an adaptive fashion. In the particular domain of scientific metadata management, the number of existing approaches is still limited. We investigate opportunities and challenges of such a conversational UI-based approach tobuild the prototype of a dialog system based on the Raza framework and the OpenAIRE guidelines for research dataset publishing which will generate a semantically enriched JSON-LD file result.This export file can then beused as a structured datasource in a consecutive application or tool chain, or simply be published as microdata together with the corresponding dataset on web platforms, in order to improve the controlled description and discoverability of the shared research data according to the FAIR principles.
Im Projekt BERD@BW* (Business and Economic Research Data Center) entwickeln wir einen Interaktiven Virtuellen Assistenten (IVA), der dabei helfen soll, einen Zugang zu den grundlegenden rechtlichen Regelungen zu finden. Durch einen aus den Datenschutzgesetzen entwickelten Entscheidungsbaum leitet der Assistent die Anwender/innen schrittweise mit konkreten Fragen durch das Dickicht der datenschutzrechtlichen Gesetzgebung. Durch die Beantwortung der Fragen können die Teilnehmenden beispielsweise herausfinden, ob die DSGVO auf ihr Projekt Anwendung findet oder nicht und auf welche Rechtsgrundlage sie ihre Verarbeitung stützen können. Die Fragen sind dabei so aufbereitet, dass sie auch ohne zusätzliches rechtliches Hintergrundwissen beantwortet werden können. Darüber hinaus werden über Tooltipps und passende Hilfstexte Informationen zielgenau zur Verfügung gestellt, um die Beantwortung der Fragen zu erleichtern. Mit dem Ergebnis, in das die Frageserie des Assistenten mündet, wird zudem eine speicherbare Übersicht der gestellten Fragen und gegebenen Antworten bereitgestellt. Dies ermöglicht den Nutzer/innen einerseits die Nachvollziehbarkeit des individuell eingeschlagenen Pfades und dient andererseits als Grundlage zur obligatorischen Erörterung fraglicher Bereiche mit den zuständigen Datenschutzbeauftragten. Aufgrund des niedrigschwelligen Zugangs und seines Workshop-Charakters können durch die Selbstreflektion des eigenen Anwendungsfalls mit IVA direkte Lerneffekte erwartet werden. Neben der Schaffung eines ersten inhaltlichen Zugangs soll der Assistent darüber hinaus dazu dienen, eine tiefergehende Auseinandersetzung mit dem Thema zu fördern. Auf den E-Science-Tagen 2021 möchten wir unseren Interaktiven Virtuellen Assistenten auf einem Poster vorstellen. Dabei soll neben der Präsentation von Funktionsweise und visuellem Aufbau auch im Mittelpunkt stehen, wie ein solcher Assistent durch seine individualisierte Informationsvermittlung einen Beitrag zur Förderung von Open Science und dem Austausch von (Forschungs-)Daten leisten kann.
*:https://www.berd-bw.de
Als eines der vier vom Ministerium für Wissenschaft, Forschung und Kunst im Zuge der Landesdigitalisierungsstrategie „digital@bw“ geförderten Science Data Center entwickelt und betreibt das „Center for Business, Economic and Related Data“ (BERD@BW) Services für das Forschungsdatenmanagement in den Wirtschafts- und Sozialwissenschaften. Diese zielen darauf ab, das Teilen, Auffinden und Nachnutzen von Forschungsdaten zu vereinfachen. Aufgebaut wird das BERD@BW-Center gemeinsam von der Universität Mannheim und dem Zentrum für Europäische Wirtschaftsforschung (ZEW), die beide in den empirischen Wirtschafts- und Sozialwissenschaften etabliert und renommiert sind. Hervorzuheben ist hierbei insbesondere die Kooperation von Infrastruktureinrichtungen – den Forschungsdatenzentren der Universitätsbibliothek Mannheim und des ZEW sowie der Universitäts-IT Mannheim – und Forschenden der Betriebswirtschaftslehre, Volkswirtschaftslehre und den Sozialwissenschaften aus dem Mannheim Center for Data Science (MCDS) sowie dem ZEW, um die spezifischen Kompetenzen der beteiligten Einrichtungen für eine offenere Wissenschaft zusammenzubringen. Die geplanten und bereits umgesetzten Dienste erstrecken sich auf vier Bereiche. Zunächst wird die Tiefenerschließung, Datenverlinkung und semantische Annotation durch den Aufbau einer domänenspezifischen Ontologie und eines Wissensgraphen vorangetrieben. Darüber hinaus werden neue Datenquellen, insbesondere aus dem unstrukturierten (Big Data-) Bereich, beispielsweise via Webscraping erschlossen, verknüpft und zur Verfügung gestellt. Ein weiteres Anliegen ist die bedarfsorientierte Anpassung der technischen Infrastruktur. In diesem Rahmen wird ein sicherer Remote Access zu sensiblen Daten der BERD@BW-Mitglieder eingerichtet, die aktuell nur direkt bei den Institutionen vor Ort am Gastarbeitsplatz nutzbar sind. Der letzte Themenkomplex ist schließlich die Information und Weiterbildung zu FDM-Fragen. Neben zielgruppenorientierten Informationen zur Cloud- und HPC-Infrastruktur in Baden-Württemberg, stehen hier vor allem rechtliche Informationen zu Datenschutz und Urheberrecht im Mittelpunkt. Der Interaktive Virtuelle Assistent (IVA) etwa führt Forschende anhand von Fragen zum (geplanten) Forschungsprojekt durch die relevanten Punkte des Datenschutzrechts, wodurch eine datenschutzrechtliche Einschätzung möglich und Wissen anhand von Tooltips vermittelt wird. Im Bereich Weiterbildung sind niedrigschwellige (Micro-) Workshops zu Themen wie Reproduzierbarkeit von Forschung, Verknüpfung von Forschungsdaten und Visualisierung von Daten in Planung, die als Onlineangebot eine große Reichweite erwarten lassen. Um die Nachnutzbarkeit der in BERD@BW entwickelten Tools und Materialien zu erreichen, werden diese unter möglichst offenen Lizenzen auf der Webseite https://www.berd-bw.de bereitgestellt.
Der offene Austausch von Forschungsdaten ist essentiell für die Kollaboration von Forschenden und steigert den Erkenntnisgewinn. Im Unterschied zu Plattformen für die Datenpublikation oder für kollaborative Zusammenarbeit ermöglichen Science Gateways eine umfänglichere Integration von Storage, Repositorien und HPC-Infrastrukturen und bieten darüber hinaus Module zur Interaktion und Dokumentation. Sie bieten damit der wissenschaftlichen Community webbasierten Zugang zu Analysewerkzeugen, Speicher und erleichtern das Projekt- und Wissensmanagement. Bisher erfolgt die Publikation von Forschungsdaten begleitend zu einer Publikation gegen Ende des Lebenszyklus von Forschungsdaten. In der Zeit zwischen Erstellung und Veröffentlichung der Forschungsdaten dürften die meisten Forschenden bei nationalen und internationalen Kollaborationen auf Dienste wie Google Drive, Dropbox oder von Rechenzentren bereitgestellte Infrastrukturen wie bwSync&Share sowie auf Wiki-Systeme zurückgreifen. Als primäres Kommunikationsmedium werden dabei E-Mail und Messengerdienste verwendet. Die Erfassung von disziplinspezifischen Metadaten während der Erstellung und Analyse von Daten im Sinne von untersuchter Spezies, untersuchtem Gewebe, Probenaufbereitung, verwendeten Workflows etc. erfolgt primär mittels verbreiteter Software für Tabellenkalkulation und über die bereits genannten Austausch- und Kommunikationskanäle. Gerade größere Projekte und Projekte mit hoher Personalfluktuation profitieren bei ihrer Arbeit von Wissensmanagement durch Wiki-Artikel oder bereitgestelltes Schulungsmaterial. HUBzero als open-source Framework für ein Science Gateway bietet zum einen ein Content Management System zum Aufbau einer zentralen, öffentlichen Webpage, zum anderen ein Framework zur Integration verschiedener Module, um Funktionen für die nutzende Community zu integrieren beziehungsweise dieser anzubieten. Ein Science Gateway auf Basis von HUBzero dient dem SDC BioDATEN als zentraler Einstiegspunkt für die wissenschaftliche Fachcommunity und ermöglicht dieser eine effektive Kommunikation, den Austausch von Daten, die Annotation von forschungsspezifischen Metadaten und Projekt- beziehungsweise Wissensmanagement. Gleichzeitig wird Forschenden der webbasierte Zugang zu HPC-Infrastrukturen für Analyse und Speicherung ermöglicht. Durch die Anbindung der Elixir AAI wird der Community ein etabliertes und verbreitetes single sign-on System für die Authentifizierung und Autorisierung angeboten. Forschende können selbstständig Projekte und Gruppen anlegen, um beispielsweise nur mit bestimmten Forschenden oder Gutachtern Daten auszutauschen oder die Projektarbeit durch interne To-do-Listen zu erleichtern. Ein Science Gateway auf Basis von HUBzero wird momentan im Rahmen von BioDATEN aufgebaut und aktuelle Entwicklungen wie die Integration der Elixir AAI und die Bereitstellung von Speicher sollen neben allgemeinen Funktionen des Science Gateways vorgestellt werden.
The slow adoption and dissemination of common standards, concepts of research data management and workflow services is still a hindrance to collaboration, data sharing and reuse as well as open science in many scientific communities. The NFDI consortium DataPLANT (https://nfdi4plants.de/) focusing on fundamental plant research envisions data stewards as a core element of its strategy for managing research data. Research groups will profit from direct support in their daily tasks ranging from data organization to the selection of the proper tools, workflows and standards. Data stewards play a special hinge role between service providers, individual researchers, groups and the wider community. They also help bridging the gap between researchers and technical systems. The coordinated deployment of data stewards supports the adherence to good scientific practice among the research community. DataPLANT came up with a dispatch model that initially focuses on the major research groups and prioritizes their demand through an initial survey. The approximately 10.000 available data steward hours - equivalent to 8 FTE - will be provided by eight experts recruited specifically for this purpose. For initial startup, each group or individual gets time equivalent to the amount of data. An application submitted through a survey, giving information on data, quantity, type and objectives of the research project, is gathered through a simple web form. The median of expected initial support is 100 hours per request. In the first assignment, the data stewards will help to implement the relevant organisational and computational workflows. To ensure quality standards and fair distribution of support, evaluation criteria for data steward requests will be applied: Initially for the first call comparably low hurdles are set. After a ramp up period, followed by an evaluation of the process, an adjustment of the distribution will get implemented if necessary. In further phases, the delivered, annotated and published data sets entitle participants for additional allowance for further support by data stewards. To ensure productivity, the applications will be evaluated according to a community agreed distribution. To grow with the demand from new participants and a broader adaptation of DataPLANT within the community, requests can be supported by co-funding from participants, new members or own personnel. Individuals with similar workplace descriptions are welcome to participate in the data steward team and board. They provide the research groups with the necessary expertise and can help to acquire newly funded projects as well as junior scientists. If future collaborative research centres and similar project proposals plan for personnel and infrastructure services directly contributing to the NFDI, a sustainable financing and reimbursement model can be created, beneficial for the broader community. Small projects can then receive qualified support from a range of experts according to their contribution. Data stewards in large projects do not work on their own, but get integrated into a broadly qualified team working on cutting-edge research of the field.
Sharing research data in order to enable research synthesis, re-analysis or other methods of secondary data use are central for the ever-growing open science movement. In the context of replication crisis and ongoing efforts towards greater research integrity and standardization, this is particularly true for psychological science. Even though standards exist they are often tailored to the needs of the more data-intensive sub disciplines, scarcely used, and remain largely unknown to a more general population of researchers. To address these issues presented project aims at the empirically driven development of a discipline-specific standard that does not only facilitate curation and reuse of psychological research data, but is also representative for all sub-disciplines. Initial steps were concerned with aggregating existing standards, gauging their potential as enablers for psychological research curation, as well as first studies querying the nature of necessary information and as to how existing standards meet those requirements. Based on these findings, we developed a content specification for a curation standard that embraces three levels reflecting the central decisions in a prototypical research process, namely the description of the research design on a construct level and an operational level, as well as detailed description of the data collection and analysis process. The first documentation level represents, for instance, researchers’ decision on the concrete hypotheses, inclusion/exclusion criteria and the number of measurement points as well as a conceptual presentation of all substantial variables included in the design. On the second level these variables are described within an extended codebook. The codebook includes besides the rather classical information of a given variable’s name, label and value range also information on the procedure or paradigm with which it has been realized during the data collection process. Finally, the third level includes all materials, data preparation and analyses scripts as well as a detailed procedure graphic that allows the data user to link the information from all three documentation levels. The prototype will be discussed regarding its potential to further data sharing practices in psychology.
Today’s computer assisted research relies heavily on appropriate infrastructure such as storage and data management services as well as (high performance) computing infrastructure. Of at least similar importance is scientific software, often found as customized software-based setups for processing data or to create novel (software-based) models or simulations. Hence, in order to adapt FAIR data principles to software-based research methods and to ensure re-usability of a wide variety of digital research outputs, not only preservation of these software methods is an important ingredient of a sustainable research management strategy, but also facilitating access to data associated with suitable processing software.
Within the CiTAR (Citing and Archving Research)1, an e-Science project, we have developed infrastructure to preserve and to cite software methods and to ensure scalable long-term access and re-use. The service allows researchers to ingest their configured software setup, e.g., in the form of a container or a virtual machine and to re-run these setups without any special knowledge using a web browser or web API. While the service provides convenient APIs and web-based workflows to orchestrate their execution, provisioning of data - e.g., make a data set accessible as an HTTP data stream; if necessary, authenticate the user - remains an open issue.
As part of a newly formed science data center (SDC) BioDATEN2 we have addressed this challenge, by developing technology to simplify the publication of preserved software together with a published data-set, and in general, to orchestrate the reproduction of an experiment from different sources, e.g., data-set, metadata and runtime data, with the main focus on vendor-neutral integration into existing infrastructure wherever possible. Authors are then able to link a previously preserved software environment with published data, such that the software may then either reproduce their results from their input data, visualize data such, e.g., through plots or allow interactive exploration of data and results.
The main challenge for the integration is to orchestrate the interaction between two services and infrastructures as well as a proper encapsulation of the user interface components, e.g., the data publication platform must embed a connection to the software preservation infrastructure, as well as preparing the research data-set as an input for the desired software process. In context of the aforementioned SDC, an InvenioRDM instance is used as a web-based data publication platform and KeyCloak as an OAuth 2.0 authentication and authorization provider. InvenioRDM stores data in an S3-compatible object storage, but provides its own front-end APIs to access saved objects. Unfortunately, this user-facing API may change over time, such that third-party elements may break. Furthermore, the creation of rich data publications should be as simple as possible, to allow any user to create and maintain them themselves.
For this, we have extended the access to preserved scientific software by wrapping it into a standard Web Component. This Web Component is a self-contained HTML element and can be embedded as a Custom Element into the data publication platform’s user interface, a process very similar to embedding a YouTube video. Like any built-in HTML element, it provides a stable interface, e.g., specifies its input data as defined attributes and is able to accept listeners for (lifecycle) events such as start and end of execution. Its stable interface can also be used by the embedding platform to pass OAuth 2.0 compatible access tokens from the publication platform to the preservation infrastructure. By using Shadow DOM, it does not interfere with surrounding user interface/web-page elements even if these change over time.
The presented approach is not limited just to bioinformatics, but is designed to cater any scientific community relying on software-based workflows and digital resources. The cloud-based approach allows other services to re-use the proposed solution as a “drop-in”, independently of their technological infrastructure.
In the last years, research data management moved into the spotlight of the scientific community. Organizations like the DFG and projects like FDMentor updated their guidelines to include current research software and data developments, while concepts like FAIR publishing gained traction interdisciplinarily. However, research guidelines often either take an abstract policy-driven perspective or solely focus on practices that, by omitting the underlying principles, become obsolete as the state-of-the-art advances. When looking at quality and evaluation methods in the industry, especially in systems and software development, models like CMMI, SPICE, or Six Sigma take a holistic approach by combining a process or life cycle perspective, clear goals and, target-oriented practices. These models were created with industrial processes in mind, and applying them to research projects directly is counterintuitive. We developed a Lean Process Assessment Model (LPAM) for research software and data that adheres to the CMMI framework. Following the lifecycles for research software and data, guideline practices from existing literature were analyzed and grouped into processes and goals. LPAM was developed with regular researcher feedback to ensure suitability for research projects. This procedure resulted in a discipline-agnostic model to manage and assess research projects, chairs, or organizations. The different processes were assigned to CMMI's Maturity Levels, which rank each process's priority and give a clear improvement path. CMMI follows the idea that unplanned processes are chaotic so that one project's success may not be repeated in another. While one project may follow agreed-upon community practices such as FAIR publishing, the next project could fail to meet quality standards due to time pressure while overachieving in other areas. With clear priorities, the model helps researchers in balancing goals and practices in their work. For assessing the state of a research project with LPAM, we propose a peer-review based procedure that is intuitive and well-established for researchers. CMMI knows three assessment method levels, which reflect different granularities of reliability, correctness, and effort. Researchers can choose a suitable assessment class based on assessment frequency. LPAM consists of three process areas: software, data, and project management/support, each with specific goals and practices. Goals and practices contain extensive hints that refer to published materials and guidelines. It also contains comments on maturity levels, generic goals, and assessments. CMMI allows individual practices to be replaced by equivalent ones if they are suitable for achieving the overall objective. The framework allows LPAM to stay up-to-date, even when the state-of-the-art advances. We are convinced that LPAM narrows the gap between goals, principles, and practices and is a suitable tool to safeguard good research data management transparently.
Die Datenaufbereitung für (umwelt-)wissenschaftliche Analysen stellt oftmals eine große Herausforderung dar, da Daten verschiedenster Quellen erst aufwändig umformatiert und präprozessiert werden müssen, um einen kohärenten Datensatz zu erhalten. Ziel der Forschungsumgebung von V-FOR-WaTer ist es, den Zugang zu Daten aus den terrestrischen Umweltwissenschaften zu vereinfachen, die Publikation von Daten zu unterstützen und die Datenaufbereitung sowie die Analyse von Daten mithilfe einer umfangreichen Auswahl von Werkzeugen zu erleichtern. Durch diesen einfachen Zugriff auf Daten und Werkzeuge, und deren Verknüpfung in ‚Workflows‘ für Wissenschaftler aus Universitäten und Landesämtern, wird die wissenschaftliche Arbeit beschleunigt, und die Reproduzierbarkeit von Analysen wird gefördert. Das Rückgrat des Prototyps der Forschungsumgebung bildet eine Datenbank mit einer detaillierten Metadatenbeschreibung, die auf die Anforderungen von Wasser- und terrestrischen Umweltdaten zugeschnitten ist. Die bisher integrierten Daten stammen aus Universitätsprojekten und von Landesämtern. Weiter wird an einer Verbindung zu den ‚GFZ Data Services‘, dem etablierten Repositorium für geowissenschaftliche Daten des Geoforschungszentrums Potsdam, gearbeitet. Dadurch wird zum einen die Publikation von Daten aus der Forschungsumgebung heraus vereinfacht und zum anderen der Zugriff auf externe Daten im Portal des GFZ ermöglicht. Der Grundlage, um mit den GFZ Data Services und anderen Systemen kompatibel zu sein, ist die Konformität unseres Metadatenschemas mit internationalen Standards (INSPIRE, ISO19115). Durch die Berücksichtigung der gängigen Standards kann das Portal - nach entsprechenden Anpassungen - auch von anderen Geo- und Umweltwissenschaftlichen Disziplinen genutzt werden. Das Design der Forschungsumgebung ist an typischen Arbeitsabläufen in den Umweltwissenschaften ausgerichtet. Über eine Karte und einen Filter können Daten einfach ausgewählt werden, während ein eigener Arbeitsbereich Werkzeuge für die Präprozessierung, Skalierung und häufige hydrologische Anwendungen bereithält. Darüber hinaus sind auch spezifischere Werkzeuge wie z.B. für die Geostatistik, und demnächst auch für Berechnungen zur Evapotranspiration verfügbar. Die Auswahl an Werkzeugen kann flexibel erweitert werden und wird letztendlich auch Werkzeuge enthalten, die von Nutzern entwickelt wurden, wodurch die aktuellen Forschungsthemen und ‑methoden der hydrologischen Gemeinschaft widergespiegelt werden. Die Werkzeuge sind als ‚Web Processing Services‘ (WPS) angebunden, die als ‚Workflows‘ verknüpft und gespeichert werden können. Dies ermöglicht auch komplexere Analysen und erhöht die Reproduzierbarkeit der Forschung.
Neurowissenschaftliche Forschungsprojekte umfassen oft große Mengen an heterogenen Daten, die mit speziellen Methoden verarbeitet werden. Für das Management dieser Daten ist dabei die Verwendung von effizienten Ordnerbaumstrukturen unvermeidbar und notwendig, und die Forschenden verbringen Tag für Tag Zeit mit der Verwaltung von Dateien und Ordnern auf ihren Computern (Erstellen, Herunterladen, Benennen, Verschieben, Speichern, Löschen, etc.). Während sowohl Verfechter der reproduzierbaren Forschung als auch Datenmanagement-Experten den Forschenden empfehlen, eine angemessene Ordner-Organisationsstruktur zu verwenden, liefern nur wenige tatsächlich Beispiele oder Versuche, eine solche Struktur zu homogenisieren. Die auf diesem Poster vorgestellten Ergebnisse basieren auf einem gemeinsamen Projekt von drei neurowissenschaftlichen Sonderforschungsbereichen (SFBs) der DFG, das im Rahmen der Initiative NFDI Neuroscience durchgeführt wurde mit dem Ziel, Forschenden ein wiederverwendbares und anpassbares Template für eine Ordnerstruktur zur Verfügung zu stellen, mit der alle digitalen Dokumente eines Forschungsprojektes effizient organisiert werden können. In einem ersten Schritt wurden auf Basis von Interviews mit den Fachprojekten der beteiligten SFBs zwei initiale Templates entworfen und ihre Eignung, Präferenz und Akzeptanz in der Community in einer Online-Umfrage evaluiert. Der einleitende Teil des Posters fasst die Ergebnisse der Analyse der Umfrage zusammen, diskutiert die Vor- und Nachteile des Ansatzes und präsentiert ein gemäß dem erhaltenen Feedback angepasstes, aggregiertes und somit optimiertes Template. Der größte Teile des Posters präsentiert die technische Unterstützung für die Forschenden basierend auf einer Adaption von Techniken aus der Domäne der Softwareentwicklung. Grundlage ist hier, dass in den letzten Jahrzehnten die – aufgrund der immer steigenden Komplexität der zu entwickelnden Software kollaborative – Softwareentwicklung durch die tägliche Verwendung von GitHub-ähnlichen Plattformen erheblich erleichtert wurde. Ohne Features wie Issues, Pull- oder Merge Requests wäre eine effektive und effiziente Entwicklung nahezu unmöglich. Das Poster präsentiert somit ein Toolkit, das den Forschenden die Leistungsfähigkeit von GitHub-ähnlichen Plattformen in Bezug auf das zuvor vorgestellte Ordnerstrukturkonzept für das digitale Management von Forschungsprojekten verdeutlicht. Das Toolkit trennt dabei Daten und Code, ermöglicht jedoch einen experimentellen Workflow. Hinter den Kulissen verwendet das Toolkit fortschrittliche Technologien: git-annex und/oder Git LFS verarbeiten große Dateien wie fMRI-Daten, Sub-Module ermöglichen unterschiedliche Zugriffsrechte auf Unterordnerebene, GitLab und GIN repräsentieren Github-ähnliche Plattformen für die kollaborative Zusammenarbeit und ein zusätzlicher Dienst erleichtert und automatisiert komplexe Verwaltungsaufgaben wie die Erstellung des Forschungs-Repositorien mit Hilfe einer anpassbaren Ordnerstruktur. Zusammenfassend hoffen wir, der Forschungsgemeinschaft ein nützliches Template für die Struktur von Projektordnern zur Verfügung zu stellen, das seine volle Leistung entfaltet, wenn es in einer git-basierten Kollaborations-Infrastruktur in Kombination mit speziell zu diesem Zweck entwickelten Services für das Projektstrukturmanagement verwendet wird.
In materials science, the understanding of new materials is becoming increasingly complex. Without suitable analytical methods, the ever-increasing amounts of data from simulations and experiments will no longer be graspable. An important aspect to be able to perform corresponding data analyses smoothly is the structured retrieval of research data and corresponding metadata. In addition to uniform data storage, such systems can overcome inter-institutional hurdles, compare theoretical and experimental data and offer reproducible workflows for data analysis. Furthermore, linking data with persistent identifiers enables other researchers to reference them in their work. In order to support researchers in meeting the above-mentioned requirements, we conceptualize and develop the research data infrastructure Kadi4Mat, the Karlsruhe Data Infrastructure for Materials Science. This infrastructure is to be used in particular in the materials sciences and is being advanced within the framework of several research projects. The aim is to combine the possibility of structured data storage and exchange with documented and reproducible data analysis and visualization. These features can be split into the two components repository and electronic lab notebook (ELN). The focus on the repository component is on the handling of warm data, i.e. unpublished data that is yet to be analysed further. It can therefore be best described as a community repository. Sharing of data within the own working group or with cooperation partners is easily possible, while integrations are offered to directly publish data on an external repository focused on long term storage and on providing persistent identifiers, which make the data usable by the whole scientific community. A central part of the ELN component are the so called workflows, which describe a set of highly user- and application-specific tools that are executed in a well-defined order. Workflows offer a documented and reproducible way to automate different scientific steps, including running analysis tools or fetching data from an experimental device. Because the focus is in a different direction than classic ELNs, we refer to this component as an ELN 2.0. In general, the development of the research data infrastructure follows a bottom-up approach. Instead of developing concepts in advance, to cover as many use cases as possible, a basic technical infrastructure is established first. Due to the heterogeneous nature of materials science, most features are kept very generic. As a positive side effect, an extension of the research data infrastructure to other disciplines is possible in the future. The eventual goal includes covering the entire scientific workflow of daily research work, by allowing all kinds of different workflows to be represented and exchanged in our framework.
heiARCHIVE is a new institutional service for long-term data preservation at Heidelberg University. It offers researchers an easy-to-use end-user platform for archival of their research data as well as the possibility to do a OAIS compatible long-term preservation containing features like format recognition, validation and conversion of files of appropriate file formats. heiARCHIVE is developed and will be operated by the Competence Center Research Data - a joint service facility of the University Computing Center and Heidelberg University Library. The poster presents the concept and status of the project."