dct:subject

Mit Hilfe der Eigenschaft dct:subject kann man eindeutig und sprachunabhängig beschreiben, wovon ein Datensatz handelt. Ich habe mir angesehen, wie diese Eigenschaft im EU-Datenportal verwendet wird.

Mit Hilfe der SPARQL-Suche beim EU-Datenportal ist die Antwort schnell gefunden. Im EU-Datenportal haben 72.013 Datensätze eine dct:subject Angabe mit URI.

Es werden 4.162 unterschiedliche Dinge behandelt. Was sind das für Dinge, die dort beschrieben werden? Auch hier hilft eine SPARQL-Abfrage weiter:

PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcat: <http://www.w3.org/ns/dcat#>

SELECT ?subject (count (?subject) as ?n) WHERE {
  ?ds a dcat:Dataset .
  ?ds dct:subject ?subject .
  
  filter( isuri(?subject))
} GROUP BY ?subject ORDER BY DESC(?n) LIMIT 10

Hier ist das Ergebnis:

dct:subject URI Anzahl
http://inspire.ec.europa.eu/metadata-codelist/TopicCategory/planningCadastre 21956
http://inspire.ec.europa.eu/metadata-codelist/TopicCategory/geoscientificInformation 11278
http://inspire.ec.europa.eu/metadata-codelist/SpatialScope/regional 7264
http://inspire.ec.europa.eu/metadata-codelist/TopicCategory/environment 5511
http://inspire.ec.europa.eu/theme/ge 5477
http://inspire.ec.europa.eu/metadata-codelist/TopicCategory/imageryBaseMapsEarthCover 4129
http://eurovoc.europa.eu/100163 3759
http://inspire.ec.europa.eu/metadata-codelist/TopicCategory/farming 3686
http://inspire.ec.europa.eu/metadata-codelist/TopicCategory/biota 2337
http://inspire.ec.europa.eu/metadata-codelist/TopicCategory/transportation 1982

Vieles scheint aus dem Bereich INSPIRE zu kommen. Daher habe ich mich gefragt: Aus welchen Vokabellisten stammen diese Konzepte? Diese SPARQL-Abfrage gibt Auskunft:

PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcat: <http://www.w3.org/ns/dcat#>

SELECT ?voc (count(?voc) as ?n) WHERE {
  ?ds a dcat:Dataset .
  ?ds dct:subject ?subject .
  filter( isuri(?subject))
  
  BIND(REPLACE(str(?subject), "/[^/]*$", "") AS ?voc)
  
} GROUP BY ?voc ORDER BY DESC(?n) LIMIT 10

Hier ist das Ergebnis mit ein paar Anmerkungen von mir:

Vokabelliste Anzahl Land Bemerkung
http://inspire.ec.europa.eu/metadata-codelist/TopicCategory 63806 🇪🇺 Themenkategorien nach EN ISO 19115
http://eurovoc.europa.eu 35001 🇪🇺 verschiedene Listen
http://inspire.ec.europa.eu/metadata-codelist/SpatialScope 7924 🇪🇺 Räumlicher Anwendungsbereich
http://inspire.ec.europa.eu/theme 6788 🇪🇺 INSPIRE Themen-Register
http://www.eionet.europa.eu/gemet/concept 5211 🇪🇺 General Multilingual Environmental Thesaurus (GEMET)
https://metadata.vlaanderen.be/id/GDI-Vlaanderen-Vlaamse-Administratieve-Eenheden 1200 🇧🇪 Verwaltungen in Belgien
http://objektkatalog.geonorge.no/Objekttype/Index 619 🇳🇴
http://www.eionet.europa.eu/gemet/theme 491 🇪🇺 General Multilingual Environmental Thesaurus (GEMET)
http://inspire.ec.europa.eu/metadata-codelist/PriorityDataset 468 🇪🇺 INSPIRE Prioritäre Datensätze
https://concept-catalog.fellesdatakatalog.digdir.no/collections/974760673/concepts 392 🇳🇴

Wieder ist hier viel INSPIRE zu sehen. Aus Belgien wird offenbar die Verwaltungszugehörigkeit mit dct:subject transportiert. In Deutschland verwenden wir dafür dcatde:politicalGeocodingURI.

Deutschland

Und wie sieht es in Deutschland aus? Leider ganz schlecht. Bei GovData liefert die Abfrage genau null Ergebnissse. Das ist schade, ermöglicht doch die Angabe von dct:subject eine eindeutige und sprachunabhängige Suche.

Was könnte der Grund sein, dass aus Deutschland keine Datensätze entsprechend gekennzeichnet sind? Ich habe den Verdacht, dass es an CKAN liegt, der noch immer am häufigsten genutzten Software für Datenkataloge in Deutschland. Mit der DCAT-Unterstützung sieht es dort ja mau aus und dct:subject wird in den gängigen Erweiterungen ckanext-dcat und ckanext-dcatde offenbar ignoriert.

Kommentare

Mit einem Konto im Fediverse oder auf Mastodon kannst du auf diesen Beitrag antworten. Da Mastodon dezentral funktioniert, kannst du dein bestehendes Konto auf einem Mastodon-Server oder einer kompatiblen Plattform verwenden.

Nach einem Klick auf "Lade Kommentare" werden nicht-private Antworten vom Server norden.social geladen und unten angezeigt.

Wie das technisch funktioniert, kann man hier erfahren.