High Value Datasets

Seit spätestes Juni 2024 müssen alle Mitgliedsstaaten der EU sogenannte High Value Datasets (HVD) veröffentlichen. Es ging nicht nur in Deutschland zögerlich los. Heute vor zwei Jahren ist der erste deutsche HVD bei GovData angekommen. Das ist ein guter Grund, um zu schauen, was in den zwei Jahren passiert ist.

Am 23. April 2024 habe ich via Mastodon berichtet, dass der erste high value Datensatz aus Schleswig-Holstein veröffentlicht wurde. 1 Einen Tag später, also genau heute vor zwei Jahren, ist der Datensatz dann auch im nationalen Open-Data-Portal GovData angekommen. Am 12. Mai 2024 waren es dann schon 19 High Value Datasets. 2

Leider hat sich daran nicht viel geändert, noch immer sind im Open-Data-Portal Schleswig-Holstein nur 19 Datensatz zu finden. Das ist viel zu wenig angesichts der langen Liste von Themen im Anhang 1 der Durchführungsverordnung (EU) 2023/138.

Stand in Deutschland

Wie sieht es in anderen Bundesländern aus? Ist die Lage dort auch so schlecht? Eine Abfrage bei GovData gibt einen Überblick. (Die SPARQL-Abfragen gibt es am Ende des Beitrags.)

Nummer Land Anzahl HVD
01 Schleswig-Holstein 19
02 Hamburg 123
03 Niedersachsen 1
04 Bremen 0
05 Nordrhein-Westfalen 111
06 Hessen 124
07 Rheinland-Pfalz 4.697
08 Baden-Württemberg 48
09 Bayern 243
10 Saarland 0
11 Berlin 62
12 Brandenburg 3.354
13 Mecklenburg-Vorpommern 0
14 Sachsen 25
15 Sachsen-Anhalt 33
16 Thüringen 0
Bund 587

Wie kommt es, dass Rheinland-Pfalz und Brandenburg so unglaublich viele HVD liefern? Dort werden B-Pläne als HVD in der Kategorie Erdbeobachtung und Umwelt gezählt. Das gibt die Definition meiner Meinung nach nicht her. Ich halte das Kennzeichnen von B-Plänen als HVD für falsch.

Schauen wir etwas genauer auf die sechs HVD Haupt-Kategorien. Man muss dabei ein wenig aufpassen, da die EU mittlerweile auch Unterkategorien definiert hat. Die werden vereinzelt bereits verwendet.

Herausgeber Geo Erdb./Umwelt Meteo. Statistik Unternehmen Mobilität Summe
Baden-Württemberg 8 27 8 1 4 48
Bayern 8 200 25 1 9 243
Berlin 1 42 1 44
Brandenburg 203 3086 13 52 3354
Hamburg 16 73 1 2 31 123
Hessen 12 110 1 1 124
Niedersachsen 1 1
NRW 54 33 7 4 12 110
Rheinland-Pfalz 130 4541 26 4697
Sachsen 24 1 25
Sachsen-Anhalt 14 13 1 1 4 33
Schleswig-Holstein 12 5 2 19
Stadt Oldenburg 3 7 1 1 1 13
Stadt Rostock 11 51 24 8 94
GDI-DE 188 1448 1 4 74 75 1790
Bund: BA 17 17
Bund: BBSR 9 9
Bund: ITZ 4 3 7
Bund: mobilithek 39 150 2 55 36 184 466
Bund: UBA 88 88
Summe 711 9971 5 210 117 415 11429

Das die Kategorien Erdbeobachtung und Umwelt und Georaum dominieren, war schon zu vermuten. Selbst wenn man bei der Kategorie Umwelt die übergroßen Zahlen aus Brandenburg und Rheinland-Pfalz herausrechnet, ist es noch immer noch die umfangreichste Kategorie. Das passt auch zu der langen Liste von Themen, die zu dieser Kategorie gehören.

Erstaunlich ist, dass Länder und Städte etwas in der Kategorie Meteorologie liefern. Der Deutsche Wetterdienst (DWD) hat gesagt, dass nur sie für diese Kategorie Datensätze in ausreichender Qualität liefern können. Dafür fehlt der DWD ganz bei der Lieferung von HVD.

Bei der Kategorie Statistik vermisse ich das Statistische Bundesamt. Von dort kam die Aussage, dass man den Großteil der hier verlangten Datensätze liefern würde.

Dass es in der Kategorie Unternehmen bereits Lieferungen gibt, ist auch ein wenig erstaunlich. Die Daten liegen zentral im Gemeinsamen Registerportal der Länder und dort werden noch keine offenen Daten bereitgestellt.

Stand in der EU

Sieht es in anderen Staaten auch so schlimm aus? Ein Blick ins Datenportal der EU mit dem passenden Filter liefert die Antwort:

Staat Anzahl HVD
Deutschland 9962
Irland 2027
Spanien 1173
Belgien 704
Frankreich 679
Lettland 534
Italien 458
Niederlande 450
Slowakei 411
Litauen 395
Luxemburg 392
Österreich 307
Schweden 297
Portugal 284
Finnland 268
Tschechien 244
Dänemark 199
Estland 71
EU-Institutionen 53
Kroatien 49
Norwegen 5

Dass Deutschland hier an Platz 1 steht, liegt an den übertriebenen Meldungen von Brandenburg und Rheinland-Pfalz. Da kann man bestimmt mindestens 7.000 Datensätze abziehen. Aber selbst dann ist Deutschland noch auf einem guten Platz. Das dürfte aber auch daran liegen, dass Deutschland als föderaler Staat nicht nur jeweils einen Gesamtdatensatz pro Thema meldet sondern 16 einzelne Datensätze für jedes Bundesland.

Interessant könnte eine Untersuchung nach den Kategorien in den Mitgliedsstaaten sein und wo bereits die feinere Untergliederung der Kategorien zum Einsatz kommt. Aber das ist etwas für einen weiteren Beitrag.

Fazit: Zumindest in Deutschland gibt es bei der Veröffentlichung der High Value Datasets noch viel zu tun.

SPARQL-Abfragen

Anzahl HVD nach Herausgeber

PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>
PREFIX dcat: <http://www.w3.org/ns/dcat#>
PREFIX dcatap: <http://data.europa.eu/r5r/>

SELECT ?contributor (count(?dataset) as ?n) WHERE {
  ?dataset a dcat:Dataset .
  ?dataset dcatde:contributorID ?contributor .
  ?dataset dcatap:hvdCategory ?category .
  
  FILTER (strstarts(str(?contributor), "http://dcat-ap.de/def/contributors/"))
  FILTER (isuri(?contributor))
  FILTER (isuri(?category))
} GROUP BY ?contributor

Kategorie und Herausgeber

PREFIX dcatde: <http://dcat-ap.de/def/dcatde/>
PREFIX dcat: <http://www.w3.org/ns/dcat#>
PREFIX dcatap: <http://data.europa.eu/r5r/>

SELECT ?category ?contributor (count(?dataset) as ?n) WHERE {
  ?dataset a dcat:Dataset .
  ?dataset dcatde:contributorID ?contributor .
  ?dataset dcatap:hvdCategory ?category .
  
  FILTER (strstarts(str(?contributor), "http://dcat-ap.de/def/contributors/"))
  FILTER (isuri(?contributor))
  FILTER (isuri(?category))
} GROUP BY ?category ?contributor

Kommentare

Mit einem Konto im Fediverse oder auf Mastodon kannst du auf diesen Beitrag antworten. Da Mastodon dezentral funktioniert, kannst du dein bestehendes Konto auf einem Mastodon-Server oder einer kompatiblen Plattform verwenden.

Nach einem Klick auf "Lade Kommentare" werden nicht-private Antworten vom Server norden.social geladen und unten angezeigt.

Wie das technisch funktioniert, kann man hier erfahren.