Heterogene wissenschaftliche Dateistrukturen FAIR gestalten: Eine flexible, robuste Open-Source-Lösung mit dem CaosDB Crawler

Alexander Schlemmer1,2, Henrik tom Wörden2,
Ulrich Parlitz1, Stefan Luther1

Max-Planck-Institut für Dynamik und Selbstorganisation (1), IndiScale GmbH (2)

Was ist CaosDB?

  • Semantisches Forschungsdatenmanagementsystem (RDMS)
    Fitschen et.al., Data 2019, 10.3390/data4020083
  • Entwickelt seit 2010 am MPI für Dynamik und Selbstorganisation (Göttingen)
  • Open Source-Projekt seit 2018: gitlab.com/caosdb
  • Kommerzieller Support verfügbar durch IndiScale GmbH (seit 2019)
  • Aktuell 15 (mir bekannte) Instanzen in sehr verschiedenen Forschungsbereichen

Beispiele für Einsatzbereiche

  • MPIDS: Biomedizinische Physik
  • MPDL-gefördertes Projekt am MPIDS: CaosDB für Cloud-Kite http://www.bmp.ds.mpg.de/software/mpdlproject/
  • Heart&Brain-Database, UMG Göttingen
  • Wissensbasis Pandemie-App-Entwicklung https://num.umg.eu/
  • Gletscherforschung, Alfred-Wegener-Institut Bremerhaven
  • Juristische Datenbank für Richtlinien und Handbücher
  • Weitere physikalische Anwendungen über NFDI4Phys

CaosDB

layer001.png

layer002.png

layer003.png

layer004.png

layer005.png

layer006.png

Flexibles Semantisches Datenmodell

layer001.png

layer002.png

layer003.png

layer004.png

Entstehung des Crawlers

  • Gruppen-Fileserver für experimentelle Daten
    • Dateistruktur sollte erhalten bleiben
    • Parallele Nutzung von CaosDB und der Dateistruktur
    • Jederzeit Möglichkeit zum alten System zurückzukehren
  • Zunächst Python-Skript mit hartgecodeten Regeln
  • Später Entwicklung des Crawlers
    • modularer Aufbau
    • Synchronsierungsfunktion
    • Nutzerfeedback
    • deklarative Programmierung

Designkonzepte des Crawlers

  • Modulares Framework, Python
  • Nutzung etablierter Dateistrukturen
  • Datenerfassungssoftware, Datenanalysesoftware usw. anbinden
  • Verwendung von existierenden Packages für Dateiformate
  • Automatisiertes Einfügen und Aktualisieren von Daten
  • Individualisierte Datenintegration über Crawler-Plugins (CFoods)
  • Referenzierung von Dateien in CaosDB als File-Records
  • Integritätsprüfung mit Hashsums

Crawler

layer001.png

layer002.png

layer003.png

layer004.png

layer005.png

Beispiel: Simulation CFood

layer001.png

layer002.png

layer003.png

layer004.png

layer005.png

Inkrementelles Entwicklungskonzept

layer001.png

layer002.png

layer003.png

layer004.png

layer005.png

Zusammenfassung

  • Crawler synchronisiert Dateisystem mit semantischen Daten in CaosDB
  • Beliebige Informationen aus Dateien nutzbar
  • Individualisierbar über CFoods
  • Parallele Nutzung von CaosDB und der Dateistruktur möglich
  • Unterstützt Standardisierung und Dokumentation der Dateistrukturen

Ausblick und Projektinformationen

Work in Progress:

  • Einfache alternative Spezifikation von CFoods über Textdateien
  • Community-Repositorium für CFoods
  • Anbindung an Software/ELNs/Repositorien (z.B. menoci, Labfolder, PANGAEA)

Weitere Informationen: