Musterdatenkatalog

Seit knapp drei Wochen unterstützt das Open-Data-Portal den Musterdatenkatalog für offene Daten. Was hat es damit auf sich?

Gerade über Grenzen von Kommunen und Bundesländer ist es schwierig, Datensätze zu einem Thema zu finden. Die 13 Kategorien der EU bringen nichts, da sie zu ungenau sind. Die Titel der Datensätze sind meist ziemlich unterschiedlich geschrieben, z.B. “Baumkataster”, “Bäume”, “Baumverzeichnis”, “Bäume im Stadtgebiet”, “Straßenbäume der Stadt Elmshorn (GDIMRH)”.

Um hier Abhilfe zu schaffen, hat die Bertelsmann Stiftung den Musterdatenkatalog geschaffen. Ursprünglich sind sie mit Kommunen in NRW gestartet. Dann hat sich das Vorhaben aber regional vergrößert (ich war für Schleswig-Holstein auch schnell dabei). Mittlerweile wird die Verwendung des Musterdatenkatalogs im DCAT-AP.de Konventionenhandbuch empfohlen. Die Idee ist die, dass man Datensätze zu einem einem sogenannten “Musterdatensatz” zuordnen kann. Über diesen Musterdatensatz lassen sich dann alle zugeordneten Datensätze finden - egal wie sie benannt wurden. Für das eingangs erwähnte Beispiel wäre es der Musterdatensatz “Grünflächen – Baumkataster”.

Schleswig-Holstein hat das erste Open-Data-Portal, das die Angabe von Musterdatensätzen unterstützt. In der Weboberfläche gibt es im Metadatenformular eine Auswahlbox, über die man die verfügbaren Musterdatensätze auswählen kann.

Eingabefeld für Musterdatensatz

Bei der Ausgabe erscheinen sie dann links im Kasten mit den Metadaten, z.B. beim Datensatz Straßenbäume der Stadt Elmshorn (GDIMRH). Zusätzlich wird die Verknüpfung maschinenlesbar in den DCAT-AP.de Metadaten ausgegeben:

<dct:references rdf:resource="https://musterdatenkatalog.de/def/musterdatensatz/gruenflaechen/baumbestandBaumkataster"/>

Da die Verknüpfung eines Datensatzes mit einem Musterdatensatz DCAT-AP konform erfolgt, werden die Informationen auch entsprechen weitergegeben. So findet man mit dieser SPARQL-Abfrage die Daten auch bei GovData:

PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcat: <http://www.w3.org/ns/dcat#>

SELECT * WHERE {
  ?d a dcat:Dataset .
  ?d dct:references ?mds .
} 

Mit einem Klick auf diesen Link kann man die Abfrage direkt beim SPARQL-Endpunkt von GovData ausführen. Auf dem Weg zum Europäischen Datenportal gehen sie leider noch verloren, wie man mit dieser Abfrage bei SPARQL-Endpunkt von data.europa.eu sehen kann.

Die Bertelsmann-Stiftung ist an einer Weiterentwicklung des Musterdatenkatalog interessiert, sowohl was die Menge der Musterdatensätze betrifft, als auch in Hinblick auf die inhaltlichen Angaben zu den einzelnen Musterdatensätzen, z.B. Verknüpfungen zu anderen Normdaten und die Angabe von Beschreibungen. Auch in anderen Staaten ist man an der Nutzung des Musterdatenkatalogs interessiert, was die Nützlichkeit nochmal erhöhen würde, da man dann auch international und über Sprachgrenzen hinweg Daten zu einem Thema finden könnte.

Unter musterdatenkatalog.de kann man interaktiv im Musterdatenkatalog suchen und sich u.a. anzeigen lassen, welche Kommune welche Datensätze zu einem Musterdatensatz bereitstellt.

Die komplette Liste aller aktuell definierter Musterdatensätze findet man auf den Seiten der Bertersmannstiftung als HTML-Seite oder auch maschinenlesbar als skos:ConceptScheme in einem RDF-Dokument.