Kategorien
Es gibt verschiedene Systeme, um Daten zu kategorisieren. Ich möchte versuchen, einen Überblick über die im Bereich der offenen Verwaltungsdaten relevanten Systeme zu geben.
Dataset Theme Vocabulary
Das im Bereich offener Verwaltungsdaten am weitesten verbreitete System von Kategorien ist das Dataset Theme Vocabulary, auch als DCAT-AP-Kategorien bekannt. Es handelt sich dabei um 13 von der EU vorgegebene Kategorien, die verpflichtend für die Metadaten offener Verwaltungsdaten zu verwenden sind. Dieses sind die 13 Kategorien, das Kürzel ist jeweils mit dem URI verlinkt:
Kürzel | deutscher Name |
---|---|
AGRI | Landwirtschaft, Fischerei, Forstwirtschaft und Nahrungsmittel |
ECON | Wirtschaft und Finanzen |
EDUC | Bildung, Kultur und Sport |
ENER | Energie |
ENVI | Umwelt |
GOVE | Regierung und öffentlicher Sektor |
HEAL | Gesundheit |
INTR | Internationale Themen |
JUST | Justiz, Rechtssystem und öffentliche Sicherheit |
REGI | Regionen und Städte |
SOCI | Bevölkerung und Gesellschaft |
TECH | Wissenschaft und Technologie |
TRAN | Verkehr |
Quasi alle Open-Data-Portale kategorisieren nach diesem System. Im Open-Data-Portal Schleswig-Holstein sind die Filter für die Kategorien im linken Menü zu finden.
Einige von diesen Kategorien sind sehr seltsam geschnitten und dadurch total unübersichtlich. So wird man in der Kategorie Bildung, Kultur und Sport sämtliche für die Bildungsforschung relevanten Daten finden (Ergebnisse der PISA- und VERA-Studien, Zahlen der Schulkinder etc.). Aber auch alle Kulturerbedaten fallen in diese Kategorie, und das sind sehr viele. Würde man Ergebnisse von Sportwettkämpfen veröffentlichen, so würden diese auch in diese Kategorie fallen. Zum Glück kann man Datensätze mehrere Kategorien zuordnet. Windkraftanlagen gehören ganz bestimmt zu Energie aber auch zu Wissenschaft und Technologie. Auch eine Einordnung in den Bereich Umwelt wäre möglich.
Es gibt aber mindestens zwei große Vorteile. Die Kategorien sind in alle Amtssprachen der EU übersetzt. Man muss einfach nur auf den URI klicken und bekommt maschinenlesbar die Texte angezeigt. Und man findet diese Kategorien überall in Europa. In Schleswig-Holstein sind die Pflichtangabe, in Deutschland und der EU jedoch nicht. Trotzdem haben von den aktuell 96.361 Datensätzen bei GovData 93.065 (96,6%) eine Kategorie zugewiesen. Im europäischen Datenportal sind es immerhin 75,5%. Wer nachzählen möchte, hier ist die SPARQL-Abfrage, die man beim SPARQL-Endpoint von GovData und data.europe.eu verwenden kann:
PREFIX dcat: <http://www.w3.org/ns/dcat#>
SELECT (COUNT(?dataset) AS ?datasets) WHERE {
?dataset a dcat:Dataset .
FILTER EXISTS { ?dataset dcat:theme ?t }.
}
Themenkategorien der hochwertigen Datensätze
Die high value datasets der EU definieren sechs Themenkategorien:
- Georaum
- Erdbeobachtung und Umwelt
- Meteorologie
- Statistik
- Unternehmen und Eigentümerschaft von Unternehmen
- Mobilität
Für hochwertige Datensätze ist es eine Pflicht, die Themenkategorie anzugeben. URIs stehen zwar aktuell noch nicht fest, da Anfang Juni 2024 aber schon Datensätze bereitgestellt werden müssen, dürfte die nicht mehr lange auf sich warten lassen. Es ist zu vermuten, dass auch für diese Kategorien Beschriftungen in allen Amtssprachen der EU verfügbar sein werden.
Themenkategorien nach EN ISO 19115
Für INSPIRE wurde code list dictionary namens MD_TopicCategoryCode definiert. Diese Liste ist unter https://standards.iso.org/iso/19139/resources/gmxCodelists.xml (nach MD_TopicCategoryCode
suchen) zu finden und umfasst 19 Einträge:
Code | deutsche Bezeichnung |
---|---|
biota | Biologie |
boundaries | Grenzen |
climatologyMeteorologyAtmosphere | Atmosphäre |
economy | Wirtschaft |
elevation | Höhenangaben |
environment | Umwelt |
farming | Landwirtschaft |
geoscientificInformation | Geowissenschaften |
health | Gesundheitswesen |
imageryBaseMapsEarthCover | Oberflächenbeschreibung |
inlandWaters | Binnengewässer |
intelligenceMilitary | Aufklärung/Militär |
location | Ortsangaben |
oceans | Meere |
planningCadastre | Kataster |
society | Gesellschaft |
structure | Bauwerke |
transportation | Verkehrswesen |
utilitiesCommunication | Kommunikation |
Geodaten sind in diese Kategorien einsortiert. Im SH-MIS findet man sie im Menü links unter Kategorie. Es existiert von der GDI-DE ein Mapping, um DCAT-AP Kategorien abzuleiten. Dabei können aus einer ISO 19115 Kategorie bis zu fünf DCAT-AP Kategorien werden (imageryBaseMapsEarthCover
wird zu AGRI
+ ENVI
+ GOVE
+ REGI
+ TECH
).
Unter https://inspire.ec.europa.eu/metadata-codelist/TopicCategory findet man diese Codeliste auch in anderen Formaten. Dort wurde für jede Kategorie auch ein URI definiert. So hat die Kategorie Bauwerke den URI http://inspire.ec.europa.eu/metadata-codelist/TopicCategory/structure.
DDC-Sachgruppen der Deutschen Nationalbibliothek
Die Deutschen Nationalbibliothek hat ein komplexeres System für Kategorien, das auf der der Dewey-Dezimalklassifikation (DDC) basiert und etwa rund 100 Klassen umfasst. Informationen dazu gibt es auf Seite Die DDC in der Deutschen Nationalbibliothek Auf oberster Ebene gibt es zehn Gruppen:
Code | Bezeichnung |
---|---|
0 | Allgemeines, Informatik, Informationswissenschaft |
1 | Philosophie und Psychologie |
2 | Religion |
3 | Sozialwissenschaften |
4 | Sprache |
5 | Naturwissenschaften und Mathematik |
6 | Technik, Medizin, angewandte Wissenschaften |
7 | Künste und Unterhaltung |
8 | Literatur |
9 | Geschichte und Geografie |
Jede Gruppe ist wiederum in Untergruppen untergliedert, z.B. die Gruppe 6 in
Code | Bezeichnung |
---|---|
600 | Technik |
610 | Medizin, Gesundheit |
620 | Ingenieurwissenschaften und Maschinenbau |
624 | Ingenieurbau und Umwelttechnik |
630 | Landwirtschaft, Veterinärmedizin |
640 | Hauswirtschaft und Familienleben |
650 | Management |
660 | Technische Chemie |
670 | Industrielle und handwerkliche Fertigung |
690 | Hausbau, Bauhandwerk |
Dieses System kommt vor allem für Forschungsdaten zum Einsatz. So kann man das Open-Data-Portal der Universität Kiel auf Basis dieser Kategorisierung durchblättern.
Musterdatenkatalog
Speziell für offene Daten aus deutschen Kommunen gibt es die Musterdatensätze aus dem Musterdatenkatalog für Kommunen der Bertelsmann Stiftung. Auf dieser Webseite findet man die [https://bertelsmannstift.github.io/Musterdatenkatalog/def/musterdatensatz.html](Liste aller Musterdatensätze). Aktuell sind es 26 Themen, die insgesamt 269 Musterdatensätze umfassen.
Für alle Musterdatensätze sind deutsche und englische Beschriftungen angegeben. Zudem gibt es zahlreiche Verknüpfungen zu anderen Systemen, wie der GND, Wikidata und den EU Vocabularies.
Auch wenn das Konventionenhandbuch für DCAT-AP.de 2.0 die Angabe eines Musterdatensatzes empfiehlt, so macht bisher nur Schleswig-Holstein davon Gebrauch, wie folgende SPARQL-Abfrage bei GovData zeigt:
PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcat: <http://www.w3.org/ns/dcat#>
SELECT ?cid (COUNT(?dataset) AS ?datasets) WHERE {
?dataset a dcat:Dataset .
?dataset dct:references ?ref .
?dataset dcatde:contributorID ?cid .
FILTER (strstarts(str(?ref), 'https://musterdatenkatalog.de/def/musterdatensatz/'))
} GROUP BY ?cid
Zusammenfassung
Hier nochmal ein kurzer Überblick über die verschiedenen Systeme:
System | Anzahl Kategorien | URI vorhanden | Verwendung |
---|---|---|---|
DCAT-AP Dataset Theme Vocabulary | 13 | ✅ | pen Government Data |
High Value Dataset | 6 | ✅ | in Zukunft vermutlich stark, da verpflichtend für HVD |
INSPIRE | 19 | ✅ | Geodaten |
Sachgruppen DNB | rund 100 | ❌ | Open Research Data |
Musterdatenkatalog | 269 | ✅ | noch sehr gering |
Schön wäre es, wenn auch für die beiden Systeme ohne URIs offizielle URIs vergeben werden könnten, da man dann diese Systeme aus für Linked Open Data verwenden könnte. Außerdem wären weitere Mappings wünschenswert, um von einem System mehr oder weniger problemlos in ein anderes Wechseln zu können, um so Daten noch besser auffindbar zu machen.
2023-11-26 Update: Die INSPIRE-Kategorien heißen offiziell Themenkategorien nach EN ISO 19115. Es gibt für sie auch URIs, die unter https://inspire.ec.europa.eu/metadata-codelist/TopicCategory zu finden sind.
Kommentare
Mit einem Konto im Fediverse oder auf Mastodon kannst du auf diesen Beitrag antworten. Da Mastodon dezentral funktioniert, kannst du dein bestehendes Konto auf einem Mastodon-Server oder einer kompatiblen Plattform verwenden.
Nach einem Klick auf "Lade Kommentare" werden nicht-private Antworten vom Server norden.social geladen und unten angezeigt.
Wie das technisch funktioniert, kann man hier erfahren.