Logfile-“Explosion” đŸ’„

In den letzten Monaten war ein massiver Anstieg bei den Anfragen an das Open-Data-Portal zu beobachten. Im April 2024 gab es aber eine regelrechte “Explosion” der Zugriffszahlen.

Vermutlich sind die Zugriffszahlen auf das Open-Data-Portal und die beliebtesten DatensĂ€tze bekannt. Diese Zahlen werden direkt aus den Logfiles des Webservers ermittelt. In den Logfiles sind allerdings nicht nur Zugriffe auf DatensĂ€tze, sondern auch die Abrufe von CSS-Dateien und Bildern verzeichnet. FĂŒr die Ermittlung der Zugriffszahlen werden die Logfiles daher mit der Software GoAccess ausgewertet.

In den letzten Monaten ist aufgefallen, dass diese Auswertung immer lÀnger dauert. Also habe ich mir mal die Anzahl der EintrÀge in den monatlichen Logfiles angesehen. Das Ergebnis ist erstaunlich:

SĂ€ulendiagramm, das die monatlichen Zugriffe auf das Open-Data-Diagramm zeigt. Zeitraum ist MĂ€rz 2022 bis April 2024. Bis August 2023 sind die Werte relativ gleich bei 2 Millionnen. Dann einige Monate bis Januar stabil bei 6 Millionen. In den letzen drei Monaten jeweils eine Verdoppelung auf jetzt 45 Millionen.

In den letzten drei Monaten haben sich die Zahlen quasi jedes Mal verdoppelt. Woher dieser enorme Anstieg kommt, ist mir noch nicht klar. Sind da so viele Firmen unterwegs, die Inhalte fĂŒr das Erzeugen ihrer LLMs haben wollen? Oder sind das fehlgeschlagene Scraping-Versuche? Vermutlich muss ich mal wieder einen genaueren Blick darauf werfen, welche Bots das Portal besuchen, so wie ich es schon vor fast genau zwei Jahren in Kommt ein Bot zu Besuch getan habe.

Die Rohdaten mit den monatlichen Abrufzahlen gibt es natĂŒrlich auch als CSV-Datei: abrufe-pro-monat.csv

Kommentare

Mit einem Konto im Fediverse oder auf Mastodon kannst du auf diesen Beitrag antworten. Da Mastodon dezentral funktioniert, kannst du dein bestehendes Konto auf einem Mastodon-Server oder einer kompatiblen Plattform verwenden.

Nach einem Klick auf "Lade Kommentare" werden nicht-private Antworten vom Server norden.social geladen und unten angezeigt.

Wie das technisch funktioniert, kann man hier erfahren.