Enabling research data management for non IT-professionals

Schiff, Simon

Enabling research data management for non IT-professionals

dc.affiliation.institute	Institut für Informationssysteme
dc.contributor.author	Schiff, Simon
dc.contributor.referee	Möller, Ralf
dc.contributor.referee	Zinsmeister, Heike
dc.date.accepted	2024-11-25
dc.date.accessioned	2025-02-20T10:43:13Z
dc.date.available	2025-02-20T10:43:13Z
dc.date.issued	2025-02-16
dc.description	In nahezu allen Forschungsgebieten werden Ergebnisse aus gefundenen Belegen wie zum Beispiel aus Digitalisaten von Objekten, Fallstudien, Beobachtungen, Experimenten oder Forschungsdaten abgeleitet. Im Idealfall sind Ergebnisse mit Belegen verlinkt, um Data Governance und Reproduzierbarkeit von Ergebnissen zu erleichtern, und öffentlich in einem Forschungsdaten-Repositorium gespeichert, um selbst als Beleg mit neuen Ergebnissen verlinkt werden zu können. Durch diese Verlinkung entstand im Laufe der Jahre ein riesiges Datengeflecht. Die Suche nach Informationen, die Entscheidung über deren Relevanz und die Verwendung der als für relevant befundenen Ergebnisse kostet in solch einem Datengeflecht sehr viel Zeit. Aufgrund dessen, dass ein hoher Zeitaufwand stets mit hohen Kosten verbunden ist, fordern Finanzierungsagenturen wie die deutsche Forschungsgemeinschaft (DFG) oder das Bundesministerium für Bildung und Forschung (BMBF) einen Datenmanagementplan (DMP). Ein DMP wird entworfen, um Kosten bei einem bei einer Finanzierungsagentur eingereichtem Projekt zu reduzieren und um zukünftige Kosten zu vermeiden, die bei der Wiederverwendung von Forschungsdaten-Repositorien entstehen können. Jedoch wird ein DMP aufgrund der hohen Kosten häufig nicht umgesetzt, was langfristig zu einem Datengeflecht führt. In dieser Arbeit präsentieren wir Lösungen, um nicht-IT-Spezialisten dabei zu unterstützen, weniger Zeit zum Lösen von Problemen sowohl bei der Umsetzung eines DMP lokal bei jedem Repositorium als auch bei der Bewältigung des Datengeflechts über viele Repositorien hinweg zu verschwenden. Nach unseren Beobachtungen produzieren Geisteswissenschaftler Forschungsdaten, die dazu gedacht sind, später gedruckt oder in einem Repositorium hochgeladen zu werden. Potentielle Probleme, die innerhalb eines Repositoriums entstehen können, sind vielfältig. Zu druckende Daten sind, wenn diese mit einer Markupsprache kodiert wurden, für Illustrationszwecke und nicht maschineninterpretierbar formatiert. Wir zeigen nicht nur, dass auf diese Art formatierte Daten mit einem Parser strukturiert werden können, um von Maschinen interpretiert zu werden, sondern auch welche Möglichkeiten sich aus den strukturierten Daten eröffnen. Strukturierte Daten können automatisch kombiniert, verlinkt, in andere Formate transformiert und im Web visualisiert werden. Visualisierte Daten können zitiert und annotiert werden und damit bei der Abschätzung der Relevanz helfen. Sobald die Probleme bei jedem Repositorium behoben sind, zeigen wir wie große Datenmengen, die über Grenzen von Repositierien hinweg verlinkt sind, bewältigt werden können. Dies geschieht durch den Entwurf eines Human-Aware Information Retrieval Agenten, welcher in einem Datengeflecht nach relevanten Informationen suchen kann. Wir diskutieren, wie die Interaktion eines Benutzers mit solch einem Agenten mithilfe von Human-Aware kollaborativen Planungs-Strategien optimiert werden kann.
dc.description.abstract	In almost all academic fields, results are derived from found evidence such as objects to be digitized, case studies, observations, experiments, or research data. Ideally, results are linked to its evidence to ease data governance and reproducibility of results, and publicly stored in a research data repository to be themselves linked as evidence for new results. This linking has created a huge mesh of data over the years. Searching for information, deciding whether found information is relevant, and then using relevant information for producing results costs a lot of time in such a mesh of data. Due to the fact that a high investment of time is associated with high costs, funding agencies such as the German Research Foundation (Deutsche Forschungsgemeinschaft; DFG) or the Federal Ministry of Education and Research (Bundesministerium für Bildung und Forschung; BMBF) demand a data management plan (DMP). A DMP is designed to reduce the costs of projects submitted to a funding agency and to avoid future costs when data repositories are to be reused. Nevertheless, a DMP is often not fully implemented because it is too costly, which in the long run leads to a mesh of data. In this thesis, we identify problems and present solutions usable by non-IT-experts to spend less time on solving problems that arise at implementing a DMP at each project’s repository and coping with a huge mesh of data across many repositories. According to our observations, humanities scholars produce research data that are meant to be printed later or uploaded at a repository. Potential problems that arise at a repository, independent of other repositories, to be solved are manifold. Data to be printed is encoded with a markup language for illustration purposes and not machine interpretable formatted. We not only show that such formatted data can be structured with a parser to be interpreted by machines, but also what possibilities open up from the structured data. Structured data is automatically combined, linked, transformed into other formats, and visualized on the web. Visualized data can be cited and annotated to help others assess relevance. Once, problems are solved at each repository, we show how we cope with data linked across repositories. This is achieved by designing a human-aware information retrieval (IR) agent, that can search in a mesh of data for relevant information. We discuss in what way the interaction of a user with such an IR agent can be optimized with human-aware collaborative planning strategies.
dc.identifier.uri	https://epub.uni-luebeck.de/handle/zhb_hl/3381
dc.identifier.urn	urn:nbn:de:gbv:841-202502201
dc.language.iso	en
dc.subject	Datenmanagement
dc.subject	Digitalisierung
dc.subject	Forschungsdaten
dc.subject	Forschungsdatenmanagement
dc.subject	Repositories
dc.subject	Verlinkung
dc.subject.ddc	004
dc.title	Enabling research data management for non IT-professionals
dc.type	thesis.doctoral

Dateien

Originalbündel

Gerade angezeigt 1 - 1 von 1

Name:: main_digital.pdf
Größe:: 5.29 MB
Format:: Adobe Portable Document Format

Herunterladen

Lizenzbündel

Gerade angezeigt 1 - 1 von 1

Name:: license.txt
Größe:: 5.07 KB
Format:: Item-specific license agreed to upon submission
Beschreibung:

Herunterladen

Sektion

Informatik/Technik