Blog

Bäume im Wind, Tiere, Schneefall: KI-Filter, die wirklich helfen

Kontextuelle Filter, temporale Modelle, Hintergrund-Subtraktion. Die teuersten Fehlalarm-Auslöser und wie sie sortiert werden.

Dr. Raphael Nagel

21. Juni 2025

Bäume im Wind, Tiere, Schneefall: KI-Filter, die wirklich helfen

Ein Sicherheitssystem, das zu oft Alarm schlägt, ist nach sechs Monaten ausgeschaltet. Wer im Perimeterschutz mit KI-Videoanalyse arbeitet, kämpft nicht gegen Eindringlinge, sondern gegen den Wind in den Bäumen, gegen das Reh am Bauzaun, gegen den Schneefall im Gegenlicht und gegen die Plane, die sich im Sturm vom Container löst. Diese Gegner sind statistisch dominant. Sie produzieren in einer durchschnittlichen Außenanlage den weitaus größten Teil aller Auslösungen.

Der Wert einer KI-Videoanalyse entscheidet sich an genau dieser Sortierfunktion. Erkennung ist eine technisch lösbare Aufgabe. Sortierung ist die teure Aufgabe. Sie verlangt Trainingsdaten, temporale Modelle, Kontextlogik und eine ehrliche Justage im Feld. Boswau + Knauer betreibt seit Jahren KI-gestützte Videoanalyse auf Baustellen, Industriegeländen und Logistikflächen und hat dabei eine empirische Sicht darauf entwickelt, welche Filter wirklich helfen und welche im Datenblatt gut klingen, aber im Dauerbetrieb nicht halten.

Was Fehlalarme im Perimeterschutz tatsächlich auslöst

Wer die Auslösungen einer durchschnittlichen Außenanlage über vier Wochen protokolliert, sieht ein Muster, das in der Branche bekannt, aber selten ausgesprochen wird. Die mit Abstand häufigsten Auslöser sind Bewegungen, die mit Sicherheit nichts zu tun haben. An erster Stelle stehen Vegetationsbewegungen. Bäume, Sträucher und Gräser am Perimeter bewegen sich bei jedem Windereignis, sie werfen Schatten, die mit der Sonne wandern, und sie verändern ihr Erscheinungsbild über die Jahreszeiten. Eine Hintergrund-Subtraktion, die nur auf Bewegung achtet, schlägt hier in jeder windigen Nacht zu, manchmal in dreistelliger Frequenz pro Stunde.

An zweiter Stelle stehen Tiere. Rehe, Füchse, Hasen, Wildschweine, Katzen, Hunde und Vögel passieren regelmäßig Außenanlagen, je nach Lage des Standorts. Ein einfaches Bewegungsmodell sieht ein warmes, bewegliches Objekt und ordnet es einer Person zu. Eine Klassifikation, die Personen sauber von Tieren trennen kann, ist Pflicht und nicht Kür. Sie ist die Voraussetzung dafür, dass eine Anlage in ländlichen Lagen, in Hafenarealen oder an Solarparks überhaupt betreibbar ist.

An dritter Stelle steht Witterung. Regen, Schneefall, Hagel, Nebel und Eisbildung erzeugen visuelle Muster, die ein naives Modell als Bewegung interpretiert. Schneeflocken im Gegenlicht eines Strahlers sehen für einen Pixelvergleich aus wie eine flächige Bewegung. Dazu kommen Reflexionen auf nassen Asphaltflächen, Spiegelungen in Pfützen, Tropfen auf der Linse und das Beschlagen der Optik bei Temperaturwechseln. Diese Effekte sind technisch ungleich anspruchsvoller als die saubere Erkennung einer Person bei trockenem Wetter.

An vierter Stelle stehen lichttechnische Phänomene. Wolken, die vor die Sonne ziehen, Scheinwerfer vorbeifahrender Fahrzeuge auf einer angrenzenden Straße, Blitze, Reflexionen auf Glasflächen, das Anschalten der Hallenbeleuchtung. Jede dieser Helligkeitsänderungen produziert in einem ungefilterten System ein Ereignis. An fünfter Stelle, häufiger als gedacht, stehen Spinnen und Insekten auf der Optik, die im Infrarotmodus als großes, bewegliches Objekt vor dem Sensor erscheinen. Eine Spinne, die ihr Netz vor der Kamera baut, erzeugt eine Nacht voller Alarme, bis jemand mit einem Lappen vor Ort war.

Wer diese Auflistung ernst nimmt, erkennt: Der eigentliche Eindringling ist statistisch ein Randereignis. Eine KI-Videoanalyse, die nicht primär auf Sortierung optimiert ist, sondern auf Erkennung, scheitert nicht an der Erkennung. Sie scheitert an der Geduld ihres Betreibers.

Kontextuelle Filter: was wo wann erwartbar ist

Die wirksamste Klasse von Filtern arbeitet mit Kontext. Ein Reh ist in einem Solarpark am Stadtrand erwartbar, in einer innerstädtischen Logistikhalle nicht. Eine Person, die auf einer Baustelle um sieben Uhr morgens den Lagerplatz betritt, ist erwartbar, dieselbe Person um zwei Uhr nachts nicht. Ein Stapler in der Halle ist erwartbar, ein Stapler in der Tiefgarage nicht. Kontext entsteht aus drei Dimensionen: räumliche Zone, zeitliches Fenster und erwarteter Objekttyp.

Räumliche Zonen werden in der Konfiguration eingerichtet und sind je nach Anwendung sehr verschieden. Eine Baustelle braucht eine Zone für die Lagerfläche, eine für die Zufahrt, eine für die Hochbauflächen und eine für angrenzende öffentliche Bereiche, die zwar im Bild liegen, aber nicht überwacht werden dürfen. Diese letzte Zone ist datenschutzrechtlich nicht optional. Die Bundesdatenschutzaufsicht und die Empfehlungen des BSI für die Konfiguration von Videoanlagen sind hier eindeutig. Wer öffentliche Verkehrsflächen mitfilmt und in der Analyse berücksichtigt, betreibt seine Anlage rechtswidrig, unabhängig davon, wie gut die KI darin ist.

Zeitliche Fenster ergeben sich aus dem Betriebsmodell. Auf einer Baustelle sind Werktage zwischen sechs und achtzehn Uhr regulär, je nach Witterung. Auf einem Logistikgelände gibt es Schichtwechsel, die zu festen Zeiten in festen Zonen Personenbewegungen erzeugen. Auf einem Industriestandort gibt es Reinigungsfenster, Wartungsfenster, Anlieferungszeiten. Ein Filter, der diese Fenster kennt, unterdrückt erwartbare Ereignisse, ohne sie zu verwerfen. Die Aufzeichnung bleibt, die Auslösung entfällt. Diese Trennung ist wichtig, weil Versicherer und Aufsichten in Schadensfällen die Aufzeichnung sehen wollen, nicht die Alarmkette.

Erwartete Objekttypen sind die dritte Dimension. Auf einer Solaranlage sind Tiere erwartbar, Personen außerhalb der Wartungsfenster nicht. In einem Hafenareal sind Lkw erwartbar, Personen auf dem Kai außerhalb der Schichtzeit nicht. Wer dem System sagt, welche Objektklassen in welcher Zone zu welcher Zeit erwartbar sind, gibt ihm die Grundlage, alles andere als Auffälligkeit zu melden. Der Kontextfilter ist damit kein Verbergen, sondern eine Umkehr der Logik. Nicht alles wird gemeldet, was sich bewegt, sondern alles, was zur erwarteten Lage nicht passt.

In Dr. Nagels Buch "BOSWAU + KNAUER, Vom Bau zur Sicherheitstechnologie" wird diese Logik im Kapitel zur KI-Videoanalyse als Mehrkanalprüfung beschrieben. Ein Ereignis wird nur dann zum Alarm, wenn es von mehreren Kanälen bestätigt und vom Kontextfilter nicht als erwartbar verworfen wird. Diese doppelte Bedingung ist die Grundlage einer Anlage, die im Dauerbetrieb tragbar bleibt.

Temporale Modelle: aus der Bewegung wird ein Verhalten

Die zweite Klasse wirksamer Filter arbeitet mit Zeit. Ein Pixelvergleich zwischen zwei Bildern liefert Bewegung. Eine Bewegungssequenz über mehrere Sekunden liefert ein Bewegungsmuster. Erst das Muster erlaubt die Aussage, ob das, was sich bewegt, ein Eindringling, ein Tier, eine Plane oder ein Schatten ist. Temporale Modelle sind deshalb die Trennlinie zwischen einer Anlage, die in der Werbung gut aussieht, und einer Anlage, die im Winter funktioniert.

Ein Reh bewegt sich anders als eine Person. Es hält an, äst, hebt den Kopf, läuft in Sprüngen weiter. Eine Person, die einen Lagerplatz inspiziert, hat ein anderes Profil. Sie bewegt sich gerichtet, oft mit Werkzeug oder Tasche, sie verharrt an Punkten, die für eine Tat interessant sind. Eine Plane im Wind hat ein periodisches Muster, das mit der Windrichtung korreliert. Schneefall hat ein verteiltes Muster, das das ganze Bild gleichmäßig durchzieht und nicht aus einem Ursprung heraus entsteht. All diese Unterschiede sind in Bewegungsprofilen messbar und durch entsprechende Modelle trennbar.

Temporale Modelle haben eine zweite, oft unterschätzte Funktion. Sie filtern kurze Ereignisse heraus, die keine Aussage zulassen. Ein Blatt, das durch das Bild fliegt, ist in drei Frames vorbei. Ein Vogel, der durch das Bild zieht, in fünf. Ein Reflex, der von einem vorbeifahrenden Fahrzeug erzeugt wird, in zwei. Wer als Schwelle eine Mindestdauer setzt, zum Beispiel zwei Sekunden gerichtete Bewegung in der relevanten Zone, schließt diese Ereignisse aus, ohne echte Vorfälle zu übersehen. Eine Person, die in einen Lagerplatz eindringt, ist länger als zwei Sekunden zu sehen, in jeder realistischen Konstellation.

Die dritte Funktion temporaler Modelle ist die Bewertung der Annäherung. Ein Objekt, das sich auf den Perimeter zubewegt, ist eine andere Information als ein Objekt, das parallel verläuft. Eine Person, die sich auf einen Container zubewegt, ist eine andere Information als eine Person, die einen Container nur passiert. Diese Richtungslogik ist in der Konfiguration aufwendig, weil sie die Kenntnis der Geometrie verlangt, sie ist aber im Ergebnis eine der wirksamsten Stufen der Fehlalarmreduktion.

Temporale Modelle sind rechenintensiver als einfache Klassifikatoren. Sie verlangen Speicher und Verarbeitungsleistung auf dem Gerät oder in der unmittelbar angeschlossenen Recheneinheit. Diese Kosten sind in jedem ernsthaften Projekt vorgesehen. Wer sie spart, spart an der falschen Stelle.

Hintergrund-Subtraktion: alt, robust, immer noch wichtig

Vor aller KI gab es die Hintergrund-Subtraktion. Sie ist die älteste Form der Bewegungserkennung und in vielen Anlagen die erste Stufe, bevor die KI überhaupt eingeschaltet wird. Sie funktioniert, indem ein laufendes Hintergrundmodell des Bildes gepflegt wird, gegen das jedes neue Bild geprüft wird. Was vom Hintergrund abweicht, ist ein potenzielles Objekt. Was im Hintergrund liegt, wird ignoriert.

Die Stärke der Hintergrund-Subtraktion liegt in ihrer Geschwindigkeit und in ihrer geringen Rechenlast. Sie erlaubt es, dass ein Gerät auch bei knappen Ressourcen sinnvoll arbeitet, weil die teure KI-Klassifikation nur dann gestartet wird, wenn die Hintergrund-Subtraktion bereits ein Objekt vermutet. Diese Kaskadenarchitektur ist Standard in jeder seriösen Anlage und unterscheidet professionelle von improvisierten Lösungen.

Die Schwäche der Hintergrund-Subtraktion liegt in ihrer Empfindlichkeit gegenüber Veränderungen, die nicht mit Eindringlingen zu tun haben. Wenn die Sonne aufgeht, ändert sich das Hintergrundmodell schneller, als die Subtraktion mithalten kann, und es entstehen flächige Auslösungen. Wenn Schnee fällt, wird das gesamte Bild zur Bewegung. Wenn ein Container abgestellt wird und tagelang stehen bleibt, muss das Hintergrundmodell ihn aufnehmen, sonst gilt er dauerhaft als Objekt. Diese Anpassungslogik wird über Lernraten gesteuert, die je nach Standort eingestellt werden müssen.

Moderne Implementierungen kombinieren mehrere Hintergrundmodelle mit unterschiedlichen Lernraten. Ein schnelles Modell für kurzfristige Veränderungen, ein langsames für strukturelle Veränderungen, ein periodisches für tageszeitliche Helligkeitswechsel. Diese Mehrmodellarchitektur ist robust gegen Tagwechsel und gegen plötzliche Wetteränderungen. Sie ist die Basis, auf der die KI-Klassifikation sauber arbeiten kann, weil sie die Eingangslast reduziert und gleichzeitig stabil bleibt.

Wer eine Hintergrund-Subtraktion ohne nachgelagerte Klassifikation betreibt, hat eine reine Bewegungsmeldung. Sie ist im Winter und an windigen Standorten nicht zumutbar. Wer eine Klassifikation ohne Hintergrund-Subtraktion betreibt, lastet seine Recheneinheit überproportional aus und verliert Reaktionszeit. Die Kombination beider Verfahren ist seit Jahren der dokumentierte Stand der Technik. Verbände wie der VdS und Empfehlungen für Sicherheitsanlagen in kritischen Bereichen, einschließlich KRITIS-naher Anwendungen, gehen von dieser Kombination aus.

Trainingsdaten und die Frage, womit das Modell überhaupt umgehen kann

Eine KI ist immer nur so gut wie ihre Trainingsdaten. Diese Aussage ist banal in der Theorie und schmerzhaft in der Praxis. Ein Modell, das auf öffentlich verfügbaren Datensätzen aus Innenstädten trainiert wurde, kann eine Person auf einer Innenstadtstraße sehr gut erkennen. Dasselbe Modell auf einer ländlichen Baustelle bei Nacht im Infrarotmodus liefert Ergebnisse, die mit der Anwendung wenig zu tun haben. Die Domäne, in der ein Modell trainiert wurde, ist die Domäne, in der es zuverlässig arbeitet.

Für den Perimeterschutz in Bau, Industrie und Logistik werden Trainingsdaten gebraucht, die aus diesen Umgebungen stammen. Personen mit Warnwesten und Helmen unter Baustellenbedingungen. Personen im Lkw-Schatten an Verladerampen. Personen auf nassen Asphaltflächen im Gegenlicht. Tiere bei Schneefall. Fahrzeuge bei eingeschalteten Scheinwerfern. Stapler in Hallen. Drohnen in der Luft, was zunehmend relevant wird. Wer ein Modell auf diese Domänen trainiert, hat eine Anlage, die in diesen Domänen funktioniert. Wer es nicht tut, hat ein Versprechen.

Boswau + Knauer sammelt diese Daten aus dem eigenen Betrieb, mit Zustimmung der Kunden und unter Einhaltung der datenschutzrechtlichen Vorgaben. Die Daten werden nicht weitergegeben, sie werden ausschließlich zur Modellverbesserung verwendet und in Form aktualisierter Modelle an die Bestandsanlagen zurückgespielt. Diese Schleife ist die Grundlage dafür, dass die Modelle besser werden, je länger sie im Feld stehen, und nicht schlechter.

Eine zweite Anforderung an Trainingsdaten ist die Repräsentation von Negativbeispielen. Ein Modell lernt nicht nur, was eine Person ist, sondern auch, was keine Person ist. Bäume im Wind, Rehe, Schneefall, Reflexionen, Tropfen auf der Linse, Schatten von Kränen, vorbeifahrende Fahrzeuge mit eingeschalteten Scheinwerfern. Wenn diese Negativbeispiele im Trainingsdatensatz fehlen, ist das Modell im Feld so lange unsicher, bis es genug davon gesehen hat. Diese Phase ist die teuerste Phase einer schlecht vorbereiteten Inbetriebnahme.

Eine dritte Anforderung ist die Vielfalt der Witterungs- und Lichtverhältnisse. Ein Modell, das nur bei Tageslicht trainiert wurde, sieht im Infrarotmodus nichts Verwertbares. Ein Modell, das nur bei klarem Wetter trainiert wurde, scheitert im Schneefall. Empfehlungen der BG BAU für Baustellensicherheit und Hinweise des GDV zur Versicherbarkeit von Bauvorhaben gehen davon aus, dass die eingesetzte Technik die typischen Witterungslagen abdeckt. Dieser Punkt wird in Audits regelmäßig nicht ausreichend geprüft.

Justage im Feld: warum eine Anlage nach der Inbetriebnahme nicht fertig ist

Eine KI-Videoanalyse, die am Tag der Inbetriebnahme richtig konfiguriert ist, ist eine Ausnahme. Der Regelfall ist, dass die Anlage in den ersten Wochen justiert wird, weil die tatsächlichen Bewegungsmuster vor Ort erst aus dem Betrieb sichtbar werden. Diese Justage ist nicht ein Mangel, sondern eine notwendige Phase. Wer sie nicht einplant, baut Anlagen, die im Stand der Auslieferung im Feld nicht tragbar sind.

Die Justage verläuft typischerweise in drei Phasen. In der ersten Phase, etwa der ersten Woche, werden die Zonen verfeinert. Es zeigt sich, dass die ursprünglich gezeichnete Zone an einer Stelle den Wind in den Birken erfasst, die hinter dem Zaun stehen, oder dass eine Zone die Straßenlaternen einer angrenzenden Straße einschließt. Diese Korrekturen sind banal, aber sie reduzieren die Auslösungen um Größenordnungen.

In der zweiten Phase, in den folgenden zwei bis drei Wochen, werden die Schwellen justiert. Wie lange muss eine Bewegung dauern, um ein Ereignis zu sein? Wie groß muss ein Objekt sein? Wie nah am Perimeter? Diese Schwellen sind standortabhängig. Eine Baustelle in einem Industriegebiet hat andere Parameter als ein Solarpark im Feld. Eine Logistikfläche in der Stadt hat andere Parameter als ein Industriegelände am Rand einer Kleinstadt.

In der dritten Phase, über die folgenden Monate, wird das Modell mit Rückmeldungen verfeinert. Jeder Alarm wird vom Operator klassifiziert als echt, als Fehlalarm oder als nicht eindeutig. Diese Klassifikationen fließen in die Modellpflege ein. Über drei Monate entstehen so genug Rückmeldungen, dass die Anlage ihren stabilen Betriebszustand erreicht. Dieser Zustand ist der Punkt, an dem die Anlage tatsächlich wirtschaftlich ist.

Wer diese Justagephase aus dem Vertrag streicht, weil sie aufwendig wirkt, kauft eine Anlage, die im sechsten Monat ausgeschaltet wird. Wer sie als Standardbestandteil einplant, hat nach neunzig Tagen eine Anlage, die ein Operator gleichzeitig mit mehreren weiteren Standorten führen kann. Diese Skalierungswirkung ist der eigentliche wirtschaftliche Hebel der Technologie. Sie ist im Pilotbetrieb über neunzig Tage messbar und wird in den entsprechenden Berichten, die TÜV-zertifizierte Auditoren und BDSW-zertifizierte Sicherheitsdienstleister regelmäßig prüfen, als Kennzahl ausgewiesen.

Was bleibt

KI-Filter sind keine Magie. Sie sind das Ergebnis einer langen Kette von Entscheidungen, die im Detail liegen. Die wirksamsten Filter sind nicht die spektakulärsten. Sie sind die Mehrkanalprüfung, der Kontextfilter, das temporale Modell, die Kombination mit der klassischen Hintergrund-Subtraktion und die Justage im Feld. Wer diese Kette ernst nimmt, hat eine Anlage, die im Winter bei Schneefall funktioniert, in der Sturmnacht keine dreihundert Auslösungen produziert und auch dann verlässlich ist, wenn das Reh um zwei Uhr morgens den Lagerplatz passiert.

Wer wissen will, wie sich diese Filter im eigenen Standort verhalten würden, wird das nicht aus einer Werbebroschüre lernen. Es braucht entweder ein Gespräch über die konkrete Lage, ein Audit der bestehenden Anlage oder einen Pilotbetrieb, in dem die Wirkung über neunzig Tage gemessen wird. Das Gespräch dauert sechzig Minuten und ist vertraulich. Es liefert eine Einschätzung der Lage und der nächsten sinnvollen Schritte. Ob daraus ein Audit oder ein Pilotbetrieb wird, entscheidet sich nach dem Gespräch, nicht davor.

Häufige Fragen

Welche Filter reduzieren Tier-Fehlalarme?

Wirksam ist die Kombination aus Objektklassifikation, temporalem Bewegungsmodell und Kontextfilter. Die Klassifikation trennt Personen, Fahrzeuge und Tiere anhand visueller Merkmale. Das temporale Modell unterscheidet Bewegungsprofile, weil ein Reh sich anders bewegt als eine Person. Der Kontextfilter unterdrückt Tiere in Zonen, in denen sie erwartbar sind, etwa an Außenzäunen in ländlicher Lage. Wichtig ist, dass das Modell auf Bildmaterial trainiert wurde, das die regional vorkommenden Tierarten enthält, sonst entstehen systematische Fehlklassifikationen. Justage über die ersten Wochen verfeinert die Schwellen und reduziert Tieralarme typischerweise auf ein einstelliges Niveau pro Monat.

Wie unterscheidet das System Wind von Eindringling?

Wind erzeugt periodische, oszillierende Bewegungen in Vegetation, Planen und losen Materialien. Eine Person erzeugt gerichtete, in der Regel länger anhaltende Bewegung. Das System wertet beide Profile temporal aus, also über mehrere Sekunden, und prüft die Richtung der Bewegung relativ zum Perimeter. Hinzu kommt die Klassifikation: ein bewegtes Blätterdach wird nicht als Person erkannt, weil die visuellen Merkmale fehlen. Die Mehrkanalprüfung verlangt, dass mindestens zwei Indikatoren, etwa Bewegungsprofil und Objektklasse, einen Alarm bestätigen. Diese doppelte Bedingung verhindert, dass Windereignisse als Eindringlinge gemeldet werden.

Welche Trainingsdaten sind nötig?

Nötig sind Daten aus der konkreten Einsatzdomäne, also Bau, Industrie oder Logistik, in der Vielfalt der typischen Verhältnisse. Das umfasst Tageslicht und Infrarotbetrieb, Sommer und Winter, trockenes und nasses Wetter, Personen mit Schutzausrüstung, Fahrzeuge der relevanten Klassen, Tiere der regional vorkommenden Arten und ausreichend Negativbeispiele wie Schatten, Reflexionen und Vegetationsbewegungen. Generische Datensätze aus dem Internet reichen nicht aus, weil sie selten die spezifischen Bedingungen erfassen. Boswau + Knauer pflegt eigene Datenbestände aus dem laufenden Betrieb, mit Zustimmung der Kunden, und spielt verbesserte Modelle als Update zurück. Datenschutz wird dabei nach den Vorgaben des BSI eingehalten.

Wie wird das System justiert?

Die Justage erfolgt in drei Phasen. In der ersten Woche werden Zonen verfeinert, also festgelegt, welche Bildbereiche überwacht und welche ausgeschlossen werden. In den folgenden zwei bis drei Wochen werden Schwellen eingestellt, etwa die Mindestdauer einer Bewegung, die Mindestgröße eines Objekts und die Annäherungsrichtung. In den anschließenden Monaten werden Operator-Rückmeldungen ausgewertet, um das Modell zu verfeinern. Nach etwa neunzig Tagen ist der stabile Betriebszustand erreicht. Diese Phase ist im Pilotmodell vertraglich abgebildet, weil sie ohne strukturierte Begleitung nicht erfolgreich verläuft.

Über den Autor

Dr. Raphael Nagel (LL.M.) ist Gründungspartner von Tactical Management. Er erwirbt und restrukturiert Industrieunternehmen in anspruchsvollen Marktumfeldern und schreibt über Kapital, Geopolitik und technologische Transformation. raphaelnagel.com

BSI-Grundschutz und physische Sicherheit: die Bausteine, die niemand liest

30. April 2026