Bilder im Open-Data-Portal

Wie geht man mit Bildern um, die in den Beständen der öffentlichen Verwaltung liegen? Ein paar grundsätzliche Überlegungen und Beispiele, wie andere es machen.

Aufmerksam wurde ich auf das Thema (wieder) durch einen Hinweis auf das Programm IIIF for the Open-Data-Portal of the City of Leipzig auf Mastodon. Mit Hilfe dieses Programms kann man zu jedem Datensatz aus dem Open-Data-Portal der Stadt Leipzig, der Bilder enthält, eine sogenanntes IIIF-Manifest erzeugen. IIIF (International Image Interoperability Framework) ist ein eine Sammlung von Spezifikationen und offnen APIs, mit denen man Digitalisate sehr bequem über Systeme hinweg verwenden kann.

Nehmen wir beispielsweise den Datensatz d52bbf61-1995-4c41-a819-885fc4ea175a aus dem Open-Data-Portal der Stadt Leipzig. Dieser enhält ein JPEG-Bild mit einem Digitalisat eines Fotos des Völkerschlachtdenkmal aus dem Jahr 1913. Mit Hilfe des Programms wird daraus das das IIIF-Manifest https://leipzig.iiif.cloud/manifest/d52bbf61-1995-4c41-a819-885fc4ea175a Mit Hilfe eines beliebigen IIIF-Betrachters kann man sich das Digitalisat ansehen: https://manducus.net/m3/?manifest=https://leipzig.iiif.cloud/manifest/d52bbf61-1995-4c41-a819-885fc4ea175a. IIIF bietet aber noch viel mehr Möglichkeiten, auf die ich in diesem Beitrag aber nicht eingehen kann.

Ist das so richtig?

Ziemlich cool soweit. Es stellt sich aber die Frage, ob es fachlich, organisatorisch und technisch richtig ist, dass Bilder in einem Open-Data-Portal der öffentlcihen Verwaltung auftauchen?

Da es sich bei den Beständen öffentlicher Bibliotheken und Archive um Informationen und um (Bild-)Daten handelt, gehören diese - sofern entsprechende rechtliche Grundlagen vorliegen - veröffentlicht. Da ist es also geboten, die Digitalisate der Bilder zu veröffentlichen.

Die DCAT-AP.de Metadate des Datensatzes lassen etwas zu wünschen übrig, aber die Struktur (ein Datensatz mit einer Distribution im JPEG Format) ist in Ordnung. Die Metadaten werden auch an die höheren Ebene weitergegeben:

Moment, Bilder die an GovData weitergegeben werden? War da nicht etwas, dass GovData nur Datensätze mit mindestens 2-Sterne-Bewertung nach dem 5-Sterne-Modell entgegennimmt? Die große Überraschung: anders als PDF-Dateien (mit 1-Sterne-Bewertung) bekommen JPEG-Bilder 3 Sterne! Hier ist die entsprechende Stelle in der Datei mit den Bewertungen der CKAN QA Erweiterung. Logisch finde ich es nicht, warum ein Bild drei Sterne bekommt, ein PDF-Dokument, in dem möglicherweise sogar noch digitaler Text zum Kopieren enthalten ist, aber nur einen Stern. Aber so ist momentan der Stand. Folglich ist die Weitergabe der Metadaten der Bilder an GovData und das Datenportal der EU auch in Ordnung.

So richtig die Lösung kann das aber nicht sein. Denn schließlich könnten man jetzt ganz regulär alle 45.916 unter offener Lizenz stehenden Bilder aus dem Fotoarchiv des Stadtarchivs Kiel als einzelne Datensätze ins Open-Data-Portal übernehmen und von dort auf die Reise zu GovData und dem Datenportal der EU schicken. Und das Stadtarchiv Kiel ist ja nur eine von vielen öffentlichen Einrichtungen mit offenen Bildern…

falsch aufgebauter Datensatz

Einen nach DCAT-AP Logik falsch aufgebauten Datensatz habe ich in Leipzig doch noch gefunden: https://opendata.leipzig.de/dataset/5539b4fc-d6fd-59ce-8f7f-5572931cee84 Dabei handelt es sich um ein Buch. Als Distributionen sind die Scans der einzelnen Seiten angehängt.

Aber warum stimmt hier etwas nicht? Alle Distributionen eines Datensatzes sollen im Wesentlichen inhaltsgleich sein.

Beim Datenportal der EU heißt es: If a dataset contains more than one distribution, all distributions are identical in content, they differ only in the representation of the data (https://data.europa.eu/mqa/methodology?locale=en).

Auch in der DCAT Spezfikation heißt es: In some cases all distributions of a dataset will be fully informationally equivalent, in the sense that lossless transformations between the representations are possible. […] However, in other cases the distributions might have different levels of fidelity to the underlying data. (https://www.w3.org/TR/vocab-dcat-2/#Class:Distribution) Komplett unterschiedliche Inhalte für Distributionen sind nicht zulässig. Man darf also ein Buch nicht als Datensatz mit den gescannten Seiten als Distributionen anlegen.

Andere Portale

Wie gehen andere Portale mit Digitalisaten und Bildern um?

Hamburg

In Hamburg packt man gescannte Akten aus dem Staatsarchiv in eine ZIP-Datei. Hier ein Beispiel. Damit ist man in Hinblick auf das DCAT-AP Metadatenmodell auf der sicheren Seite: ein Datensatz, eine Distribution.

Diese Datensätze werden auch an GovData übermittelt: der entsprechende Datensatz dort. Zwar bekommen ZIP-Dateien selbst nur eine 1-Sterne-Bewertung, man kann aber meiner Meinung nach ZIP-Dateien gut nach ihrem Inhalt bewerten - und das wären in diesem Fall drei Sterne für JPEG. Somit wäre die Übermittlung in Ordnung.

Schleswig-Holstein

Auch im Open-Data-Portal Schleswig-Holstein gibt es einige Digitalisate zu finden. Der mit 600 Datensätzen größte Teil stammt aus dem Stadtarchiv Kiel. Dabei handelt es sich um PDF-Dateien mit eingescannten Ratsprotokollen. Diese Bereitstellung war ein ausdrücklicher Wunsch aus einem Hackathon zu offenen Daten in Kiel vor einigen Jahren. Diese Daten werden entsprechend der 2-Sterne-Regelung aber nicht an GovData übermittelt.

Weitere Datensätze stammen aus dem Umfeld des Hackathons Coding da Vinci 2021. Für diesen haben zahlreiche Einrichtungen aus Schleswig-Holstein offene Daten bereitgestellt, so z.B. die Landesbilbiothek. Hier wurden aber nicht die einzelnen Fotos als Datensätze angelegt. Die Datensätze zeigen auf strukturierten Listen mit Metadaten. Die eigentlichen Digitalisate liegen an anderer Stelle. Zu sehen ist dies am Beispiel der Postkarten mit Motiven der kaiserlichen Marine bis 1918.

Fazit

Die Lösung aus Leipzig, offene Bilder über IIIF-Manifeste bereitzustellen, ist sehr schick. So lassen sich diese Schätze noch viel besser in anderen Kontexten nutzen. Dass ein Bild ein Datensatz bildet, macht es technisch einfach. Aufgrund der daraus resultierende Menge von Datensätzen bei GovData oder dem Datenportal der EU scheint dies aber keine skalierbare Lösung zu sein.

Nur ganze Sammlungen als einen Datensatz bereitzustellen, ist aber auch keine vernünftige Lösung. So bleiben viele Schätze, die sich innerhalb der Sammlung verbergen, unentdeckt - dabei sind die Metadaten oft sogar schon sehr gut erschlossen.

Vielleicht können bessere Filtermöglichkeiten in den Open-Data-Portalen dafür sorgen, dass man bei der Nutzung nicht von der Menge der Einträge erschlagen wird und trotzdem schnell die gewünschten Daten (seien es nun Digitalisate oder maschinenlesbare Daten) findet.