Wildgewordner Bot

Dass sich (KI-)Bots im Open-Data-Portal tummeln, ist nichts Neues. Doch heute ist mir ein besonders merkwürdiger Fall begegnet, über den ich berichten möchte.

Seit Wochen gibt es einen Bot, der von einer bestimmten IP-Adresse aus täglich etwa 900 völlig sinnfreie Anfragen an das Open-Data-Portal stellt. Dabei wird der anpassbare RSS-Feed abgerufen. Und zwar mit offenbar aus einer Wortliste erstellten Abfrage. Hier ist ein Beispiel für eine solche Abfrage: http://opendata.schleswig-holstein.de/feeds/custom.atom?tags=Wohnquartier&license_title=Creative+Commons+Namensnennung+%E2%80%93+4.0+International+%28CC+BY+4.0%29&res_format=geojson&openness=2OF&openness=0OL. Mal wird das noch mit weiteren Suchparametern kombiniert. Auf ersten Blick würde ich sagen, es ist ein typischer Bot für KI-Training, der ohne Sinn und Verstand irgendwie Adressen zusammenbaut. So weit so gut. Diese etwa 900 Abfragen vergeuden zwar unnötig Resourcen, belasten den Server aber nicht weiter. Sollte es mehr werden, würde sowieso das Rate-Limit einspringen und HTTP Status 429 Too Many Requests melden.

Am Montag fiel jedoch eine etwas erhöhte Last auf dem Server auf. Ein Blick in die Logfiles zeigte, dass seit Freitag (25. Juli 2025) Vormittag von dieser IP-Adresse sehr viele Anfragen auf den Server einprasselten. Und anders als in den Tagen zuvor sah das Muster der Anfragen nun anders aus. In diesem Diagramm sieht man den sprunghaften Anstieg deutlich:

Nun wird das Rate-Limit (HTTP Status 429) deutlich häufiger ausgelöst. So soll es ja auch sein. Der Client bekommt signalisiert, dass er seltener anfragen soll. Aber der Bot macht nun etwas Verdächtiges: Er sendet eine HTTP-Anfrage, schließt die TCP-Verbindung danach aber wieder sofort, ohne auf eine Antwort zu warten. Das ist ein typisches Verhalten für einen denial of service (DoS) Angriff. Der Server ist noch beschäftigt, die Anfrage ordentlich zu beantworten, der Client interessiert sich aber gar nicht mehr für das Ergebnis sondern schickt schon die nächste Anfrage, um den Server noch mehr zu belasten.

Da dies kein normales Verhalten eines regulären Clients ist, sondern eher nach einem DoS-Angriff aussieht, haben wir uns für eine Blockade dieser IP-Adresse in der Firewall entschieden. Den Wechsel beim Verhalten können wir uns nicht erklären. Dass KI-Bots zum Trainieren von LLM massenweise sinnlose Anfrage erzeugen, um noch das letzte Bit einer Webseite mitzubekommen, ist man schon gewohnt. Aber hier wird ja gar nicht mehr auf die Antwort gewartet sondern der Server einfach nur belastet? Wurde hier am Ende der Code zum Einsammeln der Daten selbst mit einem LLM generiert und in Betrieb genommen, ohne zu prüfen, ob es sich überhaupt um sinnvollen Code handelt? Man wird es wohl nie erfahren. Wir werden jedenfalls weiterhin einen genauen Blick auf das Logfile haben, um komische Zugriffe zu erkennen und gegebenenfalls geeignete Gegenmaßnahmen zu ergreifen.

Kommentare

Mit einem Konto im Fediverse oder auf Mastodon kannst du auf diesen Beitrag antworten. Da Mastodon dezentral funktioniert, kannst du dein bestehendes Konto auf einem Mastodon-Server oder einer kompatiblen Plattform verwenden.

Nach einem Klick auf "Lade Kommentare" werden nicht-private Antworten vom Server norden.social geladen und unten angezeigt.

Wie das technisch funktioniert, kann man hier erfahren.