Wer Künstliche Intelligenz will, muss sich um Daten kümmern

Blogbeitrag zum Workshop „FAIRe Daten in der Verwaltung (Findable, Accessible, Interoperable and Reusable): Strukturen und Prozesse für qualitativ hochwertige (Meta)-Daten in der öffentlichen Verwaltung“: https://piazza-konferenz.de/die-workshops/2023_faire-daten/  


Künstliche Intelligenz (KI) lebt von Daten – möglichst viel, qualitativ hochwertig und repräsentativ für die zu unterstützende Fachdomäne und den Einsatzzweck. Die Auswahl und Vorbereitung dieser Daten kostet Zeit und erfordert personellen Aufwand.  

Ob automatische Klassifikation von gültigen und ungültigen Studienbescheinigungen, die Entwicklung von Chat-Bots oder Systeme wie F-13, die beim Zusammenfassen von Texten unterstützen, KI ist in der Verwaltung angekommen. Damit die Systeme so funktionieren wie geplant, müssen passende Trainingsdaten bereitgestellt werden. Dafür haben große generative Sprachmodelle (Large Language Models), die in Anwendungen wie ChatGPT zum Einsatz kommen, bisher nach dem Prinzip „viel hilft viel“ gearbeitet und alle verfügbaren Daten eingesammelt und für das Training genutzt. Mit den neuen EU-Gesetzen und Verordnungen soll sich das zumindest für den europäischen Raum ändern. Qualität statt Quantität ist dann das Ziel. Die EU arbeitet zurzeit an einer Reihe von Gesetzen und Verordnungen für Künstliche Intelligenz, unter anderem an einem AI-Act, einem Data-Governance-Act und einem Data Act. Alle zielen darauf ab eine vertrauenswürdige Künstliche Intelligenz zu schaffen, deren Datengrundlage stärker reguliert, transparent und maschinenzugänglich ist. Auch die Bundesregierung hat den Wert von Daten erkannt und ihre Strategie erneut überarbeitet. Künftig soll mehr Wert auf die Datenqualität gelegt werden statt auf reine Informationsbereitstellung. 

Eine hohe Datenqualität ist auch für andere Digitalisierungsvorhaben in der Verwaltung entscheidend. Ohne abgestimmte Datenformate und Datenfelder ist eine Registermodernisierung kaum möglich, ebenso wenig wie für die medienbruchfreie Digitalisierung von öffentlichen Leistungen. Um die Verwaltung nachhaltig digitalisieren zu können, ist daher ein gutes Datenmanagement essentiell. Dafür müssen entsprechende Strukturen und Prozesse etabliert werden.  

Was heißt qualitativ hochwertig? Was sind FAIRe Daten? 

Qualitativ hochwertige Daten sind FAIRe Daten, die Findable (auffindbar), Accessible (zugänglich), Interoperable (kompatibel mit anderen Systemen) und Reusable (wiederverwendbar) sind. Diese vier Prinzipien kommen aus dem Forschungsdatenmanagement und geben die Richtung für gutes Datenmanagement vor. Die FAIR-Prinzipien zielen nicht nur auf eine höhere Qualität der Daten selbst ab, sondern auch auf eine umfassendere Beschreibung sowie den Abbau von Nutzungshürden und technische Nachhaltigkeit. In der Praxis heißt das, Daten in maschinenlesbaren und maschinenverständlichen Formaten über Schnittstellen (APIs) bereitzustellen. Strukturierte Datensätze wie eine Tabelle sollten möglichst in einem Format zur Verfügung stehen, welches unabhängig von einer speziellen Software ist (z. B. csv). Die Struktur und der Aufbau des Datensatzes sollte so gewählt sein, dass ein Nachnutzer sich schnell zurechtfindet, zum Beispiel durch eindeutige Beschreibungen oder Bezeichnungen von Datenreihen und Tabellenspalten, die möglichst einem festen Vokabular folgen. Ebenso essentiell ist die Bereitstellung von Metadaten in Ergänzung zu den primären Daten. Metadaten sind zusätzliche Informationen zu einem Datensatz und orientieren sich an den W-Fragen (Wer? Was? Wann? Wo? und Wie?). Um eine eindeutige Zuordnung zu ermöglichen und vor allem bei der Zusammenführung von Daten für die Anwendung Fehler und Redundanzen zu vermeiden, sollten eindeutige persistente Identifikatoren verwendet werden, damit Daten sich zuordnen, adressieren und verknüpfen lassen (Linked Data). Auch Lizenzangaben mit Informationen zur Weiternutzung gehören zu Metadaten und sind für eine rechtssichere Nachnutzung meist unabkömmlich. Datenportale (z.B. GovData oder das europäische Datenportal) basieren in ihren Suchsystemen maßgeblich auf Metadaten. Wenn Daten veröffentlicht werden und durchsuchbar sein sollen, lohnt es sich daher Metadaten besonders sorgfältig und umfassend bereitzustellen.  

Linked Data und Terminologien 

Linked Data ist eine Schlüsseltechnologie, unter Anderem zur Gewährleistung einer besseren Auffindbarkeit. Die Verwendung von präziseren Schlagworten aus abgestimmten Terminologien (einem fachlichen Vokabular) in Metadaten und primären Daten ist dabei ein entscheidender Baustein. So haben Anwendungen die Möglichkeit thematisch passende Filter bereitzustellen oder über inhaltliche Bezüge auf verknüpfte relevante Datensätze hinzuweisen. Terminologien ermöglichen semantische Interpretationen und schaffen Interoperabilität von Begriffen. So könnte das Wort „Bruttosozialprodukt“ mit einem Eintrag in einer Terminologie wie EuroVoc oder Wikidata verknüpft werden. Die Maschine ist dann in der Lage für eine bestimmte Sprache die passende Übersetzung anzuzeigen oder inhaltliche Kontextinformationen bereitzustellen, wie z. B. andere Wirtschaftsindikatoren über die untersuchte Region oder zuständige Institutionen. 

Large Language Models und unstrukturierte Daten 

Qualitativ hochwertige Daten werden auch im Nachtraining für Sprachmodelle (Fine-Tuning) benötigt. Abhängig von Fachdomäne, Datentyp und Zielfunktion müssen Daten unterschiedlich aufbereitet werden. Für die Klassifikation von Bilddaten muss dem System beispielsweise mitgeteilt werden, ob ein Dokument in eine bestimmte Kategorie fällt oder nicht. Für die Extraktion von Informationen aus einem Text müssen die entsprechenden Begriffe zuvor manuell gekennzeichnet werden. Diese manuell gekennzeichneten Informationen werden als Annotationen bezeichnet und müssen in bestimmten Formaten bereitgestellt werden, damit Maschinen sie auswerten und verwenden können. Terminologien werden auch hier künftig eine stärkere Rolle spielen. Statt Personen und Orte beispielsweise einfach nur als „Person“ oder „Ort“ zu kennzeichnen, gibt es bereits Ansätze, diese Annotation zusätzlich mit Einträgen aus Terminologien zu verknüpfen. Je vielfältiger die annotierten Daten sind und je größer die Menge ist, desto besser und genauer kann das Sprachmodell trainiert werden. Manuelle Annotationen zu erstellen ist daher sehr aufwendig und erfordert viel personelle Ressourcen. Für bestimmte Fachbereiche wie die Lebenswissenschaften oder Medizin gibt es bereits frei verfügbare gekennzeichnete Textkorpora. Für den Verwaltungsbereich sind frei verfügbare Trainingsdaten für Sprachmodelle bisher nur sehr wenig oder gar nicht vorhanden. 

Wo stehen wir und wie kommen wir in der Verwaltung zu FAIRen Daten? 

Die Grundlage vieler Prozesse in der Verwaltung sind bereits eindeutig definiert und beschrieben. Allerdings sind davon noch die wenigsten in einer Form verfügbar, die eine direkte Integration in moderne Datenmanagementstrukturen oder KI-Anwendungen erlauben. Ein Beispiel ist die standardisierte Erfassung der über 10.000 Einzelleistungen der öffentlichen Verwaltung im Föderalen Informationsmanagement (FIM). Nach der FIM-Methodik werden Informationen über Zuständigkeiten, harmonisierte Datenstrukturen und Prozessdefinitionen strukturiert erfasst und in einem maschinenlesbaren Format bereitgestellt. Datenqualität ist hier von entscheidender Bedeutung. Beispielsweise muss sichergestellt werden, dass Informationen über eine Verwaltungsleistung nicht doppelt erfasst werden. Die Verknüpfung (Verlinkung) von Daten aus verschiedenen Datensätzen ermöglicht dabei zusätzlich eine Auswertung über mehrere Datenquellen hinweg und kann neue Erkenntnisse hervorbringen. Offen ist hier noch, wie die Qualität der FIM-Bausteine verbessert werden kann und wie unerkannte Zusammenhänge zwischen Daten aus verschiedenen Quellen der öffentlichen Verwaltung erschlossen werden können.   

Ein Ziel für die Zukunft muss die Verfügbarmachung von Verwaltungsfachwissen in einer maschinenzugänglichen Art und Weise sein. Das ist eine Mammutaufgabe, die nicht allein IT-Dienstleistern überlassen werden kann. Daten „KI-fit“ oder sogar FAIR zu machen erfordert auch Anstrengungen in der Verwaltung. Daten müssen bereits da wo sie entstehen in entsprechender Qualität aufbereitet werden, dann ist eine Weiterverarbeitung für Digitalisierungsvorhaben und künstliche Intelligenz leichter möglich. Daneben gilt es auch herauszufinden, wie sich damit auch ein Mehrwert für die Datenbereitstellenden erzeugen lässt. Beispielsweise in dem Prozesse schlanker und Strukturen nachvollziehbarer werden.

In diesem Workshop wollen wir uns an konkreten Beispielen anschauen, was FAIRe Daten sind bzw. wie gute Datenqualität bereits von der Datenerstellung mitgedacht werden kann. An konkreten Szenarien wollen wir erarbeiten, welche Strukturen und Prozesse aufgesetzt oder angepasst werden müssen, um Daten in der Verwaltung FAIR und damit „KI-fit“ zu machen. Lassen Sie uns darüber in den Austausch kommen und melden Sie sich zum Piazza-Workshop an! Wir laden Sie als Organisations- oder IT-Verantwortliche in Behörden, interessierte Personen aus der Zivilgesellschaft sowie Unternehmen im öffentlichen Sektor ein, hier Ihr Fachwissen einzubringen.


Beitragsbild von Mauricio Gutiérrez auf Unsplash