Historische Daten

Eine oft geführte Diskussion mit Herausgebern offener Daten dreht sich um “alte” Daten. Warum müssen alte Datenstände denn aufgehoben werden, die verwirren die Nutzenden doch nur?

Es gibt aber mehrere gute Gründe dafür, historische Daten für Zeitreihen zu veröffentlichen:

  1. Für die Reproduzierbarkeit ist es erforderlich, auf die einer Analyse, Studie etc. zugrundeliegenden Daten zugreifen zu können. Ja, man kann der Studie eine Kopie der Originaldaten beilegen. Um jedoch mögliche Veränderungen bei der Übertragung sicher ausschließen zu können, sollte es möglich sein, die Daten direkt von der Primärquelle abzurufen, unabhängig von der Person, die die Analyse, Studie etc. erstellt hat.
  2. Um historische Forschung durchführen zu können, sind ältere Datenbestände unverzichtbar. Beispielsweise könnte es von Interesse sein, in welchem Jahrzehnt welche Gebäude als denkmalwürdig angesehen wurden und wie dies begründet wurde.
  3. In vielen Fällen sind für das Training von Künstlicher Intelligenz Zeitreihen erforderlich. Nur so ist es z. B. möglich, aufgrund historischer Pegelstände, Wetterdaten und ggf. weiterer Daten ein Modell zu trainieren, das Überflutungen vorhersagen kann.

Im Open-Data-Portal Schleswig-Holstein werden nach Möglichkeit auch historische Daten angeboten.

Fortschreiben oder Überschreiben

Beim Aktualisieren muss man zwei Fälle unterscheiden: Das Fortschreiben von Daten und das Überschreiben von Daten.

Beim Fortschreiben wird an einer Tabelle ein weitere Messwert (meist unten, manchmal aber auch oben) angehängt. Alle bisher vorhandenen Werte bleiben erhalten. In dem Fall kommt man mit einem Datensatz aus, bei dem sich in den Metadaten die zeitliche Abdeckung ändert und die zugehörige(n) Distribution(en) immer größer werden. Beispiele aus Schleswig-Holstein für diesen Fall sind:

Beim Überschreiben werden hingegen die kompletten Daten durch einen neuen Stand ersetzt. Die bisherigen Daten sind in der neuen Datei nicht mehr zu finden. Um hier auf historische Daten zugreifen zu können, müssen im Open-Data-Portal Zeitreihen gebildet werden. In Schleswig-Holstein sieht das z.B. so aus:

Eine ziemlich coole Funktion im Open-Data-Portal Schleswig-Holstein ist, dass man immer auf den neusten Datensatz einer Zeitreihe verlinken kann, z.B. auf den neusten Datensatz der Denkmalliste der Stadt Kiel: https://opendata.schleswig-holstein.de/collection/denkmalliste-kiel/aktuell

Noch praktischer ist es, dass man auch direkt auf die neuste Distribution einer Zeitreihe verlinken kann. So kann man bei Bedarf in Skripten immer auf den neusten Stand verweisen. Hier wieder am Beispiel der Denkmalliste der Stadt Kiel: