Parkplatz- und Strandbelegungsdaten
Jeden Tag werden im Open-Data-Portal Schleswig-Holstein eine Vielzahl von Parkplatzdaten veröffentlicht. In der Menge gehen andere interessante Datensätze fast unter. Wieso ist wird das so gemacht und gibt es Abhilfe dagegen?
Im September 2020 sollten die Parkplatz- und Strandbelegungsdaten aus Scharbeutz im Open-Data-Portal Schleswig-Holstein veröffentlicht werden. Es stellte sich die Frage, wie sich das mit den begrenzten Möglichkeiten einer dateibasierten Datenbereitstellung realisieren lässt. Sollte man die Daten so wie die Pegelstände und die Luftqualität in Form einer fortgeschriebenen CSV-Datei pro Jahr anbieten? Oder ist eine andere Art der Darbietung besser zu nutzen? Also habe ich via Twitter die Community befragt, wie es am sinnvollsten ist. Die Antwort viel damals sehr eindeutig zugunsten der täglich aktualisierten CSV-Dateien aus. So wurde es dann auch umgesetzt. Nachdem sich im Juli 2021 St. Peter-Ording dem System angeschlossen hat, ergab diese diese Menge von täglich aktualisierten Datensätzen im Open-Data-Portal.
Nutzung der Daten
Eine Auswertung der Logfiles im Sommer 2021 ergab, dass von diesen täglichen CSV-Dateien tatsächlich auch Gebrauch gemacht wurde. Besonders spannend fand ich dabei etwa 900 unterschiedliche Mobilgeräte, die praktisch alle täglich die neuste Datei heruntergeladen haben. Ich vermute, dass es sich dabei um eine App handelt, die auf entsprechend vielen Smartphones installiert ist. Bei diesen Anwendungsfall sind kleine, tägliche Dateien nützlich, da eine monatsweise oder gar jahresweise Datei relativ groß ist und man ja eh nur die neusten Daten benötigt. Allerdings habe ich keine Ahnung, um welche App es sich handelt. Wenn jemand diesbezüglich eine Idee hat, würde ich mich über einen Hinweis freuen.
Die IP-Adressen werden vor dem Schreiben der Logfiles anonymisiert. Daher lässt sich in der Regel nur das Autonome System (AS) erkennen. In manchen Fällen ist der Netzbereich des AS aber so klein, dass das nicht sicher möglich ist, da die gekürzte IP-Adresse möglicherweise nur zufällig in diesem AS liegt.
Aktuelle Abrufe
Wie sieht die Situation aktuell aus? Werden die täglichen Dateien noch benötigt? Ich habe einen Blick in die bisherigen Logfiles des Jahres 2022 geworfen.
Die 900 unterschiedlichen Geräte, die im Sommer 2021 zu erkennen waren, nutzen die Daten momentan nicht mehr. Das kann daran liegen, dass noch keine Strandsaison ist.
Von einem IP-Bereich aus wurden 18.709 Downloads getätigt. Das alleine sind schon circa 60% aller Downloads. Auffällig ist, dass die selben Dateien alle paar Tage erneut heruntergeladen werden. Entweder liegt ein schlechtes Datenmanagement vor, oder es wurde nicht verstanden, dass alte Tagesdateien später nicht verändert werden.
Bei einer weiteren Gruppe von 5.700 Downloads aus einem anderen IP-Bereich lässt sich beobachten, dass innerhalb weniger Tage sowohl alte Tages- als auch Monatsdateien heruntergeladen wurden. Auch hier lässt sich vermuten, dass nicht erkannt wurde, dass Tages- und Monatsdateien die gleiche Messdaten enthalten.
Weitere Muster konnte ich in den Logfile-Daten nicht erkennen. Oft werden einzelne Daten angesehen - vermutlich, um einen ersten Eindruck von den Daten zu bekommen.
Ein Teil der Abrufe wird von Bots verursacht, über die ich im Beitrag Kommt ein Bot zu Besuch geschrieben habe.
Ausblick
Das Interesse an täglichen CSV-Dateien scheint in keinem Verhältnis zu der Menge an Datensätzen und der dadurch eingeschränkten Übersichtlichkeit des Open-Data-Portals zu stehen. Daher scheint es für das dateibasierte Bereitstellen der Daten sinnvoll zu sein, auf jeweils eine fortgeschriebene Datei pro Messstelle zu wechseln. Im aktuellen Format ist so eine CSV-Datei pro Jahr bis zu 33 MB groß. Mit ein paar kleinen Änderungen (Löschen redundanter Informationen, die sowieso in den Metadaten stehen) kommt man am 13 MB. Komprimiert lässt sich sogar eine Größe von 1,3 MB erreichen.
Elegant ist die dateibasierte Bereitstellung aber nicht. Daher wäre es besser, auf eine Bereitstellung der dynamischen Daten über eine standardisierte API zu wechseln. Ein vielversprechender Kandidat dafür ist die SensorThings API, über die bereits bei der Urban Data Platform in Hamburg mehr als 6.000 Datenströme bereitgestellt werden. Damit wären die Parkplatz- und Strandbelegungsdaten dann bequem in Form von 16 Datenströmen zu erreichen und könnten bei Bedarf zusätzlich als Datei heruntergeladen werden.
Schade wäre jedoch, wenn durch das Einstellen der täglichen Dateien die zumindest im letzten Jahr rege genutzte App nicht mehr funktionieren würde. Ohne Kontakt zu den Macher*innen der App ist leider nicht möglich, im Vorfeld über alternative Wege der Datenlieferung zu sprechen. Aber vielleicht ergibt sich ja noch ein Kontakt.
Bild von Thilo Becker auf Pixabay (zugeschnitten)