Rückblick 2023

FAIRe Daten in der Verwaltung (Findable, Accessible, Interoperable and Reusable): Strukturen und Prozesse für qualitativ hochwertige (Meta)-Daten in der öffentlichen Verwaltung

von Gabriele Goldacker

05. Februar 2024

An dem von Felicitas Löffler (Thüringer Finanzministerium), Marco Holz (FITKO), Marianne Mauch (Friedrich-Schiller-Universität Jena) und Thomas Tursics (FITKO) gemeinsam vorbereiteten und moderierten Workshop beteiligten sich 19 Interessierte aus öffentlicher Verwaltung, Wissenschaft und Unternehmen, um sowohl aus der Sicht Datenbereitstellender als auch aus der Sicht Datennutzender intensiv über Anforderungen, (Unterstützungs-)Bedarfe, Good Practices und bestehende Defizite im Zusammenhang mit FAIRen Daten zu diskutieren. Dabei wurden viele Gemeinsamkeiten festgestellt – auch, dass das an vielen Stellen vorhandene, nützliche Detailwissen noch viel zu wenig genutzt werden kann, weil auch für derartige Daten zentral zugängliche und niedrigschwellig nutzbare Strukturen fehlen.

Der Workshop begann mit einer Selbsteinordnung der Teilnehmenden in ein Koordinatensystem aus „Erfahrung mit Datenmanagement“ und „Wissen über Datenmanagement“, wobei sich die meisten Teilnehmenden sowohl wenig Wissen als auch wenig Erfahrung bescheinigten.

Darauf folgte ein durch einen Foliensatz unterstützter Impuls der Organisator:innen zu den „FAIR“-Kriterien (findable – accessible – interoperable – reusable, zu deutsch: auffindbar – zugänglich – kompatibel – wiederverwendbar), der von mehreren Teilnehmenden als sehr informativ kommentiert wurde.

Anhang 1: FAIRe Daten in der Verwaltung Herunterladen

Metadaten eines verwaltungstypischen Datensatzes

Im nächsten Schritt war es Aufgabe aller Teilnehmenden, in moderierten Kleingruppen grundlegende Metadaten eines verwaltungstypischen Datensatzes zu ermitteln (wie z.B. Titel, Beschreibung, Lizenz und Schlagworte) und nach Möglichkeit in einem vorgegebenen, üblichen Metadatenformat (verwendet wurde das ebenfalls auf EU-Ebene und von GovData.de verwendete Format DCAT-AP) abzubilden. Die aufkommenden Fragen und die zum Teil sehr unterschiedlichen Ergebnisse zeigten deutlich, dass es selbst bei klaren Vorgaben schwierig sein kann, einen Datensatz optimal zu beschreiben. So stellten sich z. B. Fragen zur Ausführlichkeit einzelner Angaben, zur Begriffswahl, zum Umgang mit fehlenden oder widersprüchlichen Informationen (z. B. hinsichtlich der geltenden Datenlizenz) sowie zu Detailgrad und Passgenauigkeit von Verschlagwortungs- und Kategorisierungshilfsmitteln.¹ Dabei konnten auch die Organisator:innen unmittelbare praktische Erkenntnisse der Teilnehmenden mitnehmen.

Zum Abschluss des ersten Workshopteils wurden die Schwierigkeiten beim Erstellen von Metadaten gesammelt. Diese reichten von der allgemeinen Verständlichkeit einzelner Arten von Metadaten über das Auffinden der relevanten Metadaten und fehlendes Wissen zur Bedeutung bestimmter Metadaten – z. B. Lizenzarten – bis zum Finden und der korrekten Nutzung geeigneter Kataloge für Metadatenwerte.

Als Überleitung zum zweiten Workshopteil wurden Werkzeuge (https://www.f-uji.net/ und https://fair-checker.france-bioinformatique.fr/) vorgestellt, die die Bewertung vorhandener Metadaten und somit vor allem die Ersteller solcher Daten unterstützen.

Danach wurde nochmals in zwei kleineren Gruppen parallel gearbeitet und Ist- und Soll- Zustand sowie die eingesetzten bzw. benötigten Vorgehensweisen und Werkzeuge zum einen aus der Sicht von Datenbereitstellenden, zum anderen aus der Sicht von Datennutzenden zusammengetragen.

Ist- und Sollzustand aus der Perspektive der Datenbereitstellenden

Auf der Seite der Datenbereitstellenden wurde zunächst festgestellt, dass teilweise Wissen über die Daten selbst fehlt: In welcher Form sie vorliegen, ob sie offen bereitgestellt werden müss(t)en oder dürfen, ob und wenn ja, wo bereits Daten der eigenen Behörde verfügbar sind… Gleichzeitig wurden einige Beispiele für eine funktionierende Datenbereitstellung genannt, z. B. Geodaten oder Daten des Robert-Koch-Institutes. Auch wurde die Hoffnung geäußert, dass der in der Datenstrategie der Bundesregierung angekündigte Datenatlas der Bundesverwaltung zumindest für die Bundesverwaltung selbst deutliche Fortschritte und Vorteile bringen wird.

Als Soll- bzw. teilweise eher noch als Wunschzustand wurden – ganz in Analogie zu den Schwierigkeiten des Ist-Zustandes – vier Hauptpunkte genannt: ein „Single Point“ für die Erstellung und Pflege von Metadaten (z. B. der Datenatlas), ein zentrales Portal für die Bereitstellung öffentlicher Daten, einheitliche Strukturen und Formate und eine klare Rechtslage für die Veröffentlichung von Daten.

Konkreter wurde die Erwartung geäußert, dass der Datenatlas (wie bereits GDI-DE²) an GovData, das deutsche Portal für offene Verwaltungsdaten, angebunden wird und bestenfalls eine automatische Übernahme jener Metadaten, die offen verfügbar sein sollen, erfolgt. Auch wurde darauf hingewiesen, dass bei der Festlegung eines Soll-Zustandes der europäische Kontext mitgedacht werden sollte.

Als notwendig zur Erreichung des Soll-Zustandes wurden einerseits die üblichen technikbezogenen Maßnahmen genannt – wie Datenstrukturen und Validierungsregeln festlegen, Schnittstellen bereitstellen und Tools zur Datenvalidierung und -aufbereitung verfügbar machen –, andererseits aber auch politische und organisatorische Maßnahmen – wie die Bereitstellung eines angemessenen Budgets, das Etablieren einer (effizienten) Organisationsstruktur, die belastbare Festlegung von Rollen und Rechten sowie Weiterbildungsangebote und Möglichkeiten zum fachlichen Austausch.

Ist- und Sollzustand aus der Perspektive der Datennutzenden

Auf der Seite der Datennutzenden bzw. der an der Datennutzung Interessierten wurde zunächst eine nicht unerhebliche Menge von Hürden und Herausforderungen des Ist-Zustandes identifiziert. Diese betreffen die (Meta-)Datenportale und reichen dabei vom Auffinden von Datenportalen generell über das Ermitteln der für den eigenen Bedarf geeigneten Portale bis hin zu fehlenden, veralteten oder nicht öffentlichen Schnittstellen sowie solchen, die einen Login erfordern. Zum Teil wurde über den Einsatz von Daten-Scraping auf Webseiten als Notlösung berichtet. Aber auch die Daten selbst sind nicht immer leicht nutz- bzw. integrierbar: Mal müssen die Daten erst aus nicht unmittelbar maschinenlesbaren Formaten überführt werden, mal sind die Datenformate proprietär (z.B. Excel) bzw. veraltet oder die Daten liegen von unterschiedlichen Bereitstellern in (technisch oder semantisch) inkompatiblen Formaten vor. Auch die Vollständigkeit und Aktualität der Daten variiert von Bereitsteller zu Bereitsteller. Und manche (relevanten) Daten sind immer noch in Datensilos verborgen.

Der gewünschte Soll-Zustand lässt sich kurz beschreiben: Ein Meta-Portal, das Portal-übergreifendes Auffinden von Daten ermöglicht, sowie Daten, die frei, gut strukturiert, in hoher Qualität und in einem einfach nutzbaren Format vorliegen. Geht man mehr ins Detail, dann zeigt sich, dass für den Soll-Zustand (mehr) verbindliche Standards notwendig sein können, auch die Datenmodelle offener Daten expliziert sein sollten und Organisationen eine Open-Data-Richtlinie benötigen. Die Suche muss durch (standardisierte und) eindeutige Suchbegriffe sowie Themenbäume bzw. Themengraphen erleichtert werden und neben Portalen für offene Daten sind auch spezifische Datenarchive für die Verwaltung erforderlich. Die Datennutzung könnte effizienter erfolgen, wenn Fachverfahren für dieselben Daten einheitliche Formate unterstützen würden. Und: Internationale Standards sollten gegenüber deutschen Eigenentwicklungen bevorzugt werden.

Um den Soll-Zustand zu erreichen, müssen auch für die Nutzenden die notwendigen technischen Voraussetzungen geschaffen werden: Einheitliche Standards werden als Grundlage benötigt, eine (plattformunabhängige) Datenbankinfrastruktur und die erforderlichen Basisdienste und bedarfsgerechte, funktionstüchtige Schnittstellen müssen geschaffen und dauerhaft gepflegt werden, Sammelrepositories sollten bereitgestellt, Metakataloge geschaffen und die Daten selbst sorgfältig und umfassend – z. B. unter dem Gesichtspunkt der Nachvollziehbarkeit – beschrieben werden. Weitergehend ist auch eine Vereinheitlichung von Fachverfahren bezüglich der genutzten Daten und der an sie gestellten Anforderungen wünschenswert. Neben der technischen Basis sind politische und organisatorische Maßnahmen erforderlich: Datenkompetenz und Datensouveränität müssen gefördert, aber auch Datenablageregeln entwickelt und insgesamt mehr Personal für die Datenpflege und -aufbereitung eingesetzt werden.

Anhang 2: Datenqualität Herunterladen

Wesentlichste Punkte aus beiden Perspektiven

Die Perspektiven der Bereitstellenden und der Nutzenden übergreifend wurden anschließend gemeinsam besonders wesentliche Punkte herauskristallisiert:

Eine klare bzw. gegenüber dem Ist-Stand noch klarere Rechtslage ist essenziell.
Die Datenthematik benötigt mehr Aufmerksamkeit, Perspektiven und Nutzen müssen deutlicher aufgezeigt werden.
Es bedarf noch detaillierterer Vorgaben, z. B. zu Standards. Diese sollten vom Bund bzw. Bund und Ländern, zumindest aber vom Land kommen. Internationale Standards sind dabei zu bevorzugen.
Technische und personelle Voraussetzungen müssen flächendeckend geschaffen werden.
Überall sollten „Datenstewards“ als unterstützende Ansprechpartner, aber auch als Verantwortliche für die Durchsetzung von Standards, Richtlinien und Regeln sowie als zentrale Personen für die behördenübergreifende Kommunikation und Abstimmung zu Datenthemen etabliert werden.
Einheitliche, rechtssichere Musterklauseln – z. B. für Datenlizenzen – sollten verfügbar gemacht werden.
Die Datensouveränität (z. B. die Verfügbarkeit eigener Nutzungsdaten für behördeninterne Zwecke) muss ausgebaut werden.
Im Sinne konsequenter Datenkonsolidierung sollte auch die Datennutzung der Fachverfahren vereinheitlicht werden.

Dabei wurde betont, dass effiziente Verfügbarkeit von Daten und Datennutzung sich gegenseitig unterstützen und eine positive Aufwärtsspirale in Gang setzen können.

Vergleich der Ergebnisse mit einer wissenschaftlichen Perspektive der Organisator:innen

Zum Abschluss stellten die Organisator:innen ergänzend zur Herangehensweise und den Ergebnissen der Teilnehmenden die Voraussetzungen für FAIRes Datenmanagement aus einer eher wissenschaftlichen Sicht vor. Dabei wurden weitgehende Übereinstimmungen bei den Kernelementen erkennbar.

Der Workshop war geprägt durch eine gut nachvollziehbare Struktur und eine konsequente Durchführung, die dabei Raum für den intensiven Austausch der engagierten Teilnehmenden und die Facettierung und Bereicherung durch deren individuelle Perspektiven bot. Mehrere Teilnehmende hoben am Ende einen großen persönlichen Lerneffekt hervor.

https://www.dcat-ap.de/def/dcatde/2.0/implRules/#angaben-zu-kategorien
https://www.wikidata.org/
https://op.europa.eu/en/web/eu-vocabularies ↩︎
GDI-DE: Geodateninfrastruktur Deutschland. ↩︎

Beitragsbild von Pexels auf Pixabay

Gabriele Goldacker

Gabriele Goldacker ist wissenschaftliche Mitarbeiterin am Kompetenzzentrum Öffentliche IT am Fraunhofer FOKUS.