Linked Open Data – Vernetzte Verwaltung für vernetzte Daten

Im PIAZZA-Workshop „Linked Open Data – Vernetzte Verwaltung für vernetzte Daten“ von Julia Schabos (Senatsverwaltung für Finanzen Berlin), Klemens Maget und Max Eckert (Open Data Informationsstelle Berlin – ODIS) diskutierten Teilnehmende aus Verwaltung, Zivilgesellschaft, Wissenschaft und Wirtschaft die Implementierung und Nutzung von Linked Open Data (LOD). Angesichts steigender Erwartungen an eine moderne, digitale und transparente Verwaltung steht die öffentliche Hand vor der Herausforderung, ihre Daten auf ein neues Qualitätsniveau zu heben. Eine Veröffentlichung gemäß den LOD-Prinzipien stellt dafür einen nachhaltigen und zukunftsweisenden Weg dar. 

Linked Open Data – über was sprechen wir? 

Nach einer kurzen Vorstellungsrunde, bei der sich die Teilnehmenden mit ihrem Wissen und ihrer Erfahrung über LOD breit auf einem Chart verorteten, wurde eine kurze Einführung in LOD gegeben:  

LOD basiert auf dem 5-Sterne-Datenstandard von Tim Berners-Lee. Dieses Modell beschreibt die Datenqualität ausgehend von der einfachen Online-Verfügbarkeit (ein Stern) bis zur Einbindung in das Semantic Web (fünf Sterne). LOD entsprechen der höchsten Stufe des Standards. Eine Veröffentlichung nach dem Standard erlaubt die Verknüpfung und Nutzbarmachung unterschiedlicher Datenquellen als verlässliche Informationsgrundlage. Ein solches „Netz an Informationen“ (auch als Wissensgraph oder Knowledge Graph bezeichnet) ermöglicht die organisations- und fachübergreifende Vernetzung von Daten. Somit werden die in den Verwaltungen noch üblichen Datensilos aufgebrochen. Gleichzeitig können Algorithmen die Beziehungen zwischen Datenpunkten automatisiert auslesen. 

Um zu LOD zu gelangen, müssen Daten so strukturiert werden, dass sie maschinenlesbar und miteinander verknüpfbar sind. Dies geschieht durch die Verwendung von Triples in der Form Subjekt – Prädikat – Objekt. Damit werden semantische Beziehungen darstellbar. Für die eindeutige Adressierung und Referenzierbarkeit aller Entitäten über mehrere Datensätze hinweg, werden Uniform Resource Identifiers (URIs) verwendet.

Durch Ontologien, also durch standardisierte Beschreibung und Klassifizierung, wird festgelegt, welche Beziehungen zwischen den Subjekten und Objekten bestehen. In Triple Stores, spezialisierten Datenbanken für die Speicherung und Abfrage von semantischen Daten, werden diese Informationen in Tripeln (Subjekt, Prädikat, Objekt) gespeichert. Diese Form ermöglicht dann semantische Abfragen, z.B. mit der Abfragesprache „SPARQL“. 

Beispiele machen Linked Open Data greifbar und verständlich  

Diese abstrakten Prinzipien von LOD wurden anschließend anhand von konkreten Beispielen greifbar und verständlich:

Aus der Berliner Verwaltung wurden zwei Projekte vorgestellt. Das „Organigramm-Tool“, ein gemeinschaftliches Datenprojekt der ODIS Berlin und der Berliner Open Data Beauftragten, erzeugt aus Abbildungen von Organigrammen der Berliner Verwaltung (in PDF, PowerPoint, oder anderen Formaten) standardisierte, maschinenlesbare Informationen im LOD-Format. Somit sind Verknüpfungen über Organisationseinheiten hinweg möglich. Im Projekt „Haushaltsdaten als Linked Open Data“ arbeiten die Senatsverwaltung für Finanzen, die Senatskanzlei Schleswig-Holstein sowie die Open Knowledge Foundation Deutschland gemeinsam an dem Ziel, die Berliner Haushaltsdaten 2024/2025 als LOD im Berliner Open Data Portal bereitzustellen und mit den Daten aus Schleswig-Holstein verknüpfbar zu machen. 

Ein weiteres Anwendungsbeispiel zeigt, dass LOD zentrale Datenportale für dezentrale Datenhaltung ermöglicht, was insbesondere über Verwaltungs- und Domänengrenzen hinweg sinnvoll ist. Während Daten dezentral gespeichert werden, sammelt ein zentrales Portal die Metadaten und erleichtert so die Auffindbarkeit und Nutzung ohne zentrale Speicherung. Das gemeinsame deutsche Metadatenmodell zum Austausch von offenen Verwaltungsdaten ist DCAT-AP.de.

Um Metadaten als LOD zu veröffentlichen, bedarf es einer klar definierten Semantik und Syntax, aber ebenso einer unterstützenden Community und etablierten Standards wie dem DCAT-AP, der vom IT-Planungsrat gefördert wird. Der Nutzen zeigt sich etwa im Datensatz „Doppelhaushalt 2020/2021“, dessen Metadaten geografische Informationen enthalten, z. B. verweist politicalGeocodingURI=“11″ auf das Bundesland Berlin. Dadurch sind die Daten für Menschen und Maschinen gleichermaßen verständlich und nutzbar. 

Knowledge Graphs als das Ergebnis und Ziel von Linked Open Data

„Ein Wissensgraph (Knowledge Graph), der auch als semantisches Netzwerk bezeichnet wird, stellt ein Netzwerk aus realen Entitäten – d. h. Objekten, Ereignissen, Situationen oder Konzepten – dar und veranschaulicht die Beziehungen zwischen ihnen“ (Wikipedia). 

Quelle: Open Data Informationsstelle Berlin  

Inspiriert von dieser Grafik aus Berlin wurden anschließend in zwei Gruppen fiktive Knowledge Graphs erstellt. Ziel war es, die grundlegenden Prinzipien der Vernetzung von Daten zu verstehen und anzuwenden. 

  • Gruppe 1 entwickelte einen Knowledge Graph zur Multimodalität in der Mobilität. Hier wird der Weg zur Arbeit skizziert, den man mit verschiedenen Verkehrsmitteln bewältigen kann. Relevante Datenpunkte sind Fahrtzeiten, Verfügbarkeiten und Verkehrsmittel. 
  • Gruppe 2 befasste sich mit der Messung von Umweltbelastungen in den Stadtteilen Lübecks. Die Gruppe verbindet Sensorikdaten zu Umweltmessungen (z.B. Feinstaub) mit den räumlichen Hierarchien der Stadtteile. 

Durch die Übung wurde deutlich, wie durch die Verwendung von Triples in der Form Subjekt – Prädikat – Objekt eine semantische Beziehung darstellbar und ein Knowledge Graph konzeptionell aufgebaut wird.

Linked Open Data – Wege und Herausforderungen

Wie kann ein LOD-Projekt sinnvoll in der Praxis umgesetzt werden? Der Übergang von der Theorie zur Praxis ist oft die größte Herausforderung, da es bisher nur wenige Best Practices gibt, die als direktes Vorbild dienen können. Und auch bei den bereits vorhandenen Beispielen, erfordert es zusätzliche Arbeit, diese auf die eigenen Rahmenbedingungen zu übertragen. 

In zwei Gruppen wurde diskutiert, welche Schritte gegangen werden müssen, wenn in einer Behörde die Einführung und Etablierung von LOD als Datenstandard angestrebt wird. Dafür bedarf es zunächst einer klaren Planung, bei der folgende Fragen im Fokus stehen: Welche Herausforderungen stellen sich in der Datenauswahl und -aufbereitung? Welche Kompetenzen gibt es schon und welche müssen noch aufgebaut werden? Was wird an Finanzierung und technischer Infrastruktur benötigt? Welche Legitimierung, also welchen konkreten, zukünftigen Nutzen, hat das Projekt? 

Zurück im Plenum wurden die Potenziale und Herausforderungen bei der Umsetzung von Linked-Open-Data-Projekten in Behörden diskutiert: 

  • Ein großes Potenzial wird in der Datenaufbereitung und Harmonisierung gesehen, da die Verknüpfung unterschiedlicher Datenquellen ein Projekt zum Erfolg führen kann. Die zentrale Herausforderung dabei stellt die Vielfalt an Fachverfahren sowie an Hardware und Software dar. Die Notwendigkeit einer Harmonisierung wurde als Schlüssel für den Erfolg hervorgehoben. 
  • Die Umsetzung von LOD bleibt die große Herausforderung, wenngleich eine gemeinsame Strategie und Vision ein wichtiges Fundament sind. Ein wichtiger Baustein der Umsetzung ist eine grundlegende Kultur des langfristigen kollaborativen Arbeitens. So wurden mangelnde Kontinuität, Wahlzyklen als Problem für nachhaltige Projekte und die Notwendigkeit bereichsübergreifender Entscheidungen als Herausforderungen identifiziert. Die Schaffung von Akzeptanz und die Hervorhebung des Mehrwerts von LOD sowie die notwendige Unterstützung durch die Leitungsebene wurden ebenfalls als wesentlich für die Umsetzung von LOD betont. 
  • Bei der technischen Infrastruktur wurde die Finanzierung als größte Herausforderung genannt. Zudem braucht es interne Expertise für die technische Umsetzung. Einfach zu bedienende (Eingabe-)Tools bieten großes Potenzial, da Daten bereits bei der Erhebung Standards folgen und somit leichter weiterverwendet werden können. Als konkretes Beispiel wurde hier die richtige Formatierung von Freitextfeldern genannt.  

Am Ende des Workshops wurden zwei zentrale Voraussetzungen für die erfolgreiche Implementierung und Nutzung von Linked Open Data besonders betont: Es braucht pragmatische Ansätze und Mitstreiter:innen.  

Wie geht es weiter?  

Dieser Workshop hat einmal mehr gezeigt: Vernetzung und Austausch sind immens wichtig – gerade bei einem Thema, zu dem es bisher nur wenige Praxisbeispiele aus der Verwaltung gibt. Es bedarf einer Community of Practice, um das Thema weiter voran zu bringen. 

Im Rahmen des Open Data Forums, einer Kooperation zwischen dem Kompetenzzentrum Open Data (CCOD) im Bundesverwaltungsamt und dem Zentrum für Digitale Souveränität (ZenDiS), gibt es nun eine neue Möglichkeit, sich zum Thema Linked Open Data zu vernetzen: 

Community of Practice: Linked Open Data – Open Data – Open CoDE Diskussion  


Beitragsbild von Mike Hindle auf Unsplash