Kategorien

Es gibt verschiedene Systeme, um Daten zu kategorisieren. Ich möchte versuchen, einen Überblick über die im Bereich der offenen Verwaltungsdaten relevanten Systeme zu geben.

Dataset Theme Vocabulary

Das im Bereich offener Verwaltungsdaten am weitesten verbreitete System von Kategorien ist das Dataset Theme Vocabulary, auch als DCAT-AP-Kategorien bekannt. Es handelt sich dabei um 13 von der EU vorgegebene Kategorien, die verpflichtend für die Metadaten offener Verwaltungsdaten zu verwenden sind. Dieses sind die 13 Kategorien, das Kürzel ist jeweils mit dem URI verlinkt:

Kürzel deutscher Name
AGRI Landwirtschaft, Fischerei, Forstwirtschaft und Nahrungsmittel
ECON Wirtschaft und Finanzen
EDUC Bildung, Kultur und Sport
ENER Energie
ENVI Umwelt
GOVE Regierung und öffentlicher Sektor
HEAL Gesundheit
INTR Internationale Themen
JUST Justiz, Rechtssystem und öffentliche Sicherheit
REGI Regionen und Städte
SOCI Bevölkerung und Gesellschaft
TECH Wissenschaft und Technologie
TRAN Verkehr

Quasi alle Open-Data-Portale kategorisieren nach diesem System. Im Open-Data-Portal Schleswig-Holstein sind die Filter für die Kategorien im linken Menü zu finden.

Einige von diesen Kategorien sind sehr seltsam geschnitten und dadurch total unübersichtlich. So wird man in der Kategorie Bildung, Kultur und Sport sämtliche für die Bildungsforschung relevanten Daten finden (Ergebnisse der PISA- und VERA-Studien, Zahlen der Schulkinder etc.). Aber auch alle Kulturerbedaten fallen in diese Kategorie, und das sind sehr viele. Würde man Ergebnisse von Sportwettkämpfen veröffentlichen, so würden diese auch in diese Kategorie fallen. Zum Glück kann man Datensätze mehrere Kategorien zuordnet. Windkraftanlagen gehören ganz bestimmt zu Energie aber auch zu Wissenschaft und Technologie. Auch eine Einordnung in den Bereich Umwelt wäre möglich.

Es gibt aber mindestens zwei große Vorteile. Die Kategorien sind in alle Amtssprachen der EU übersetzt. Man muss einfach nur auf den URI klicken und bekommt maschinenlesbar die Texte angezeigt. Und man findet diese Kategorien überall in Europa. In Schleswig-Holstein sind die Pflichtangabe, in Deutschland und der EU jedoch nicht. Trotzdem haben von den aktuell 96.361 Datensätzen bei GovData 93.065 (96,6%) eine Kategorie zugewiesen. Im europäischen Datenportal sind es immerhin 75,5%. Wer nachzählen möchte, hier ist die SPARQL-Abfrage, die man beim SPARQL-Endpoint von GovData und data.europe.eu verwenden kann:

PREFIX dcat: <http://www.w3.org/ns/dcat#>
SELECT (COUNT(?dataset) AS ?datasets) WHERE {
  ?dataset a dcat:Dataset .
  FILTER EXISTS { ?dataset  dcat:theme ?t  }.
}

Themenkategorien der hochwertigen Datensätze

Die high value datasets der EU definieren sechs Themenkategorien:

  1. Georaum
  2. Erdbeobachtung und Umwelt
  3. Meteorologie
  4. Statistik
  5. Unternehmen und Eigentümerschaft von Unternehmen
  6. Mobilität

Für hochwertige Datensätze ist es eine Pflicht, die Themenkategorie anzugeben. URIs stehen zwar aktuell noch nicht fest, da Anfang Juni 2024 aber schon Datensätze bereitgestellt werden müssen, dürfte die nicht mehr lange auf sich warten lassen. Es ist zu vermuten, dass auch für diese Kategorien Beschriftungen in allen Amtssprachen der EU verfügbar sein werden.

Themenkategorien nach EN ISO 19115

Für INSPIRE wurde code list dictionary namens MD_TopicCategoryCode definiert. Diese Liste ist unter https://standards.iso.org/iso/19139/resources/gmxCodelists.xml (nach MD_TopicCategoryCode suchen) zu finden und umfasst 19 Einträge:

Code deutsche Bezeichnung
biota Biologie
boundaries Grenzen
climatologyMeteorologyAtmosphere Atmosphäre
economy Wirtschaft
elevation Höhenangaben
environment Umwelt
farming Landwirtschaft
geoscientificInformation Geowissenschaften
health Gesundheitswesen
imageryBaseMapsEarthCover Oberflächenbeschreibung
inlandWaters Binnengewässer
intelligenceMilitary Aufklärung/Militär
location Ortsangaben
oceans Meere
planningCadastre Kataster
society Gesellschaft
structure Bauwerke
transportation Verkehrswesen
utilitiesCommunication Kommunikation

Geodaten sind in diese Kategorien einsortiert. Im SH-MIS findet man sie im Menü links unter Kategorie. Es existiert von der GDI-DE ein Mapping, um DCAT-AP Kategorien abzuleiten. Dabei können aus einer ISO 19115 Kategorie bis zu fünf DCAT-AP Kategorien werden (imageryBaseMapsEarthCover wird zu AGRI + ENVI + GOVE + REGI + TECH).

Unter https://inspire.ec.europa.eu/metadata-codelist/TopicCategory findet man diese Codeliste auch in anderen Formaten. Dort wurde für jede Kategorie auch ein URI definiert. So hat die Kategorie Bauwerke den URI http://inspire.ec.europa.eu/metadata-codelist/TopicCategory/structure.

DDC-Sachgruppen der Deutschen Nationalbibliothek

Die Deutschen Nationalbibliothek hat ein komplexeres System für Kategorien, das auf der der Dewey-Dezimalklassifikation (DDC) basiert und etwa rund 100 Klassen umfasst. Informationen dazu gibt es auf Seite Die DDC in der Deutschen Nationalbibliothek Auf oberster Ebene gibt es zehn Gruppen:

Code Bezeichnung
0 Allgemeines, Informatik, Informationswissenschaft
1 Philosophie und Psychologie
2 Religion
3 Sozialwissenschaften
4 Sprache
5 Naturwissenschaften und Mathematik
6 Technik, Medizin, angewandte Wissenschaften
7 Künste und Unterhaltung
8 Literatur
9 Geschichte und Geografie

Jede Gruppe ist wiederum in Untergruppen untergliedert, z.B. die Gruppe 6 in

Code Bezeichnung
600 Technik
610 Medizin, Gesundheit
620 Ingenieurwissenschaften und Maschinenbau
624 Ingenieurbau und Umwelttechnik
630 Landwirtschaft, Veterinärmedizin
640 Hauswirtschaft und Familienleben
650 Management
660 Technische Chemie
670 Industrielle und handwerkliche Fertigung
690 Hausbau, Bauhandwerk

Dieses System kommt vor allem für Forschungsdaten zum Einsatz. So kann man das Open-Data-Portal der Universität Kiel auf Basis dieser Kategorisierung durchblättern.

Musterdatenkatalog

Speziell für offene Daten aus deutschen Kommunen gibt es die Musterdatensätze aus dem Musterdatenkatalog für Kommunen der Bertelsmann Stiftung. Auf dieser Webseite findet man die [https://bertelsmannstift.github.io/Musterdatenkatalog/def/musterdatensatz.html](Liste aller Musterdatensätze). Aktuell sind es 26 Themen, die insgesamt 269 Musterdatensätze umfassen.

Für alle Musterdatensätze sind deutsche und englische Beschriftungen angegeben. Zudem gibt es zahlreiche Verknüpfungen zu anderen Systemen, wie der GND, Wikidata und den EU Vocabularies.

Auch wenn das Konventionenhandbuch für DCAT-AP.de 2.0 die Angabe eines Musterdatensatzes empfiehlt, so macht bisher nur Schleswig-Holstein davon Gebrauch, wie folgende SPARQL-Abfrage bei GovData zeigt:

PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcat: <http://www.w3.org/ns/dcat#>
SELECT ?cid (COUNT(?dataset) AS ?datasets) WHERE {
  ?dataset a dcat:Dataset .
  ?dataset dct:references ?ref .
  ?dataset dcatde:contributorID ?cid .
  FILTER (strstarts(str(?ref), 'https://musterdatenkatalog.de/def/musterdatensatz/'))
} GROUP BY ?cid

Zusammenfassung

Hier nochmal ein kurzer Überblick über die verschiedenen Systeme:

System Anzahl Kategorien URI vorhanden Verwendung
DCAT-AP Dataset Theme Vocabulary 13 pen Government Data
High Value Dataset 6 in Zukunft vermutlich stark, da verpflichtend für HVD
INSPIRE 19 Geodaten
Sachgruppen DNB rund 100 Open Research Data
Musterdatenkatalog 269 noch sehr gering

Schön wäre es, wenn auch für die beiden Systeme ohne URIs offizielle URIs vergeben werden könnten, da man dann diese Systeme aus für Linked Open Data verwenden könnte. Außerdem wären weitere Mappings wünschenswert, um von einem System mehr oder weniger problemlos in ein anderes Wechseln zu können, um so Daten noch besser auffindbar zu machen.

2023-11-26 Update: Die INSPIRE-Kategorien heißen offiziell Themenkategorien nach EN ISO 19115. Es gibt für sie auch URIs, die unter https://inspire.ec.europa.eu/metadata-codelist/TopicCategory zu finden sind.

Kommentare

Mit einem Konto im Fediverse oder auf Mastodon kannst du auf diesen Beitrag antworten. Da Mastodon dezentral funktioniert, kannst du dein bestehendes Konto auf einem Mastodon-Server oder einer kompatiblen Plattform verwenden.

Nach einem Klick auf "Lade Kommentare" werden nicht-private Antworten vom Server norden.social geladen und unten angezeigt.

Wie das technisch funktioniert, kann man hier erfahren.