dct:subject
Mit Hilfe der Eigenschaft dct:subject kann man eindeutig und sprachunabhängig beschreiben, wovon ein Datensatz handelt. Ich habe mir angesehen, wie diese Eigenschaft im EU-Datenportal verwendet wird.
Mit Hilfe der SPARQL-Suche beim EU-Datenportal ist die Antwort schnell gefunden. Im EU-Datenportal haben 72.013 Datensätze eine dct:subject Angabe mit URI.
Es werden 4.162 unterschiedliche Dinge behandelt. Was sind das für Dinge, die dort beschrieben werden? Auch hier hilft eine SPARQL-Abfrage weiter:
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcat: <http://www.w3.org/ns/dcat#>
SELECT ?subject (count (?subject) as ?n) WHERE {
?ds a dcat:Dataset .
?ds dct:subject ?subject .
filter( isuri(?subject))
} GROUP BY ?subject ORDER BY DESC(?n) LIMIT 10
Hier ist das Ergebnis:
Vieles scheint aus dem Bereich INSPIRE zu kommen. Daher habe ich mich gefragt: Aus welchen Vokabellisten stammen diese Konzepte? Diese SPARQL-Abfrage gibt Auskunft:
PREFIX dct: <http://purl.org/dc/terms/>
PREFIX dcat: <http://www.w3.org/ns/dcat#>
SELECT ?voc (count(?voc) as ?n) WHERE {
?ds a dcat:Dataset .
?ds dct:subject ?subject .
filter( isuri(?subject))
BIND(REPLACE(str(?subject), "/[^/]*$", "") AS ?voc)
} GROUP BY ?voc ORDER BY DESC(?n) LIMIT 10
Hier ist das Ergebnis mit ein paar Anmerkungen von mir:
| Vokabelliste | Anzahl | Land | Bemerkung |
|---|---|---|---|
| http://inspire.ec.europa.eu/metadata-codelist/TopicCategory | 63806 | 🇪🇺 | Themenkategorien nach EN ISO 19115 |
| http://eurovoc.europa.eu | 35001 | 🇪🇺 | verschiedene Listen |
| http://inspire.ec.europa.eu/metadata-codelist/SpatialScope | 7924 | 🇪🇺 | Räumlicher Anwendungsbereich |
| http://inspire.ec.europa.eu/theme | 6788 | 🇪🇺 | INSPIRE Themen-Register |
| http://www.eionet.europa.eu/gemet/concept | 5211 | 🇪🇺 | General Multilingual Environmental Thesaurus (GEMET) |
| https://metadata.vlaanderen.be/id/GDI-Vlaanderen-Vlaamse-Administratieve-Eenheden | 1200 | 🇧🇪 | Verwaltungen in Belgien |
| http://objektkatalog.geonorge.no/Objekttype/Index | 619 | 🇳🇴 | |
| http://www.eionet.europa.eu/gemet/theme | 491 | 🇪🇺 | General Multilingual Environmental Thesaurus (GEMET) |
| http://inspire.ec.europa.eu/metadata-codelist/PriorityDataset | 468 | 🇪🇺 | INSPIRE Prioritäre Datensätze |
| https://concept-catalog.fellesdatakatalog.digdir.no/collections/974760673/concepts | 392 | 🇳🇴 |
Wieder ist hier viel INSPIRE zu sehen. Aus Belgien wird offenbar die Verwaltungszugehörigkeit mit dct:subject transportiert. In Deutschland verwenden wir dafür dcatde:politicalGeocodingURI.
Deutschland
Und wie sieht es in Deutschland aus? Leider ganz schlecht. Bei GovData liefert die Abfrage genau null Ergebnissse. Das ist schade, ermöglicht doch die Angabe von dct:subject eine eindeutige und sprachunabhängige Suche.
Was könnte der Grund sein, dass aus Deutschland keine Datensätze entsprechend gekennzeichnet sind? Ich habe den Verdacht, dass es an CKAN liegt, der noch immer am häufigsten genutzten Software für Datenkataloge in Deutschland. Mit der DCAT-Unterstützung sieht es dort ja mau aus und dct:subject wird in den gängigen Erweiterungen ckanext-dcat und ckanext-dcatde offenbar ignoriert.
Kommentare
Mit einem Konto im Fediverse oder auf Mastodon kannst du auf diesen Beitrag antworten. Da Mastodon dezentral funktioniert, kannst du dein bestehendes Konto auf einem Mastodon-Server oder einer kompatiblen Plattform verwenden.
Nach einem Klick auf "Lade Kommentare" werden nicht-private Antworten vom Server norden.social geladen und unten angezeigt.
Wie das technisch funktioniert, kann man hier erfahren.