Blog

Benchmark deutscher Perimeter-KI: Methodik und Ergebnisse

Testaufbau, Vergleichsmodelle, Falschalarm-Quote. Eine öffentliche Methodik, an der sich Anbieter messen lassen.

Dr. Raphael Nagel

17. September 2025

Benchmark deutscher Perimeter-KI: Methodik und Ergebnisse

Wer Genauigkeit nicht misst, verkauft Vermutungen. Im deutschen Markt für KI-gestützte Perimeter-Überwachung kursieren Prozentwerte, deren Herkunft selten dokumentiert ist. Anbieter nennen Erkennungsraten zwischen 95 und 99,9 Prozent, ohne die Bedingungen offenzulegen, unter denen diese Werte zustande kamen. Eine Zahl ohne Methodik ist eine Behauptung.

Der folgende Beitrag beschreibt einen Benchmark-Aufbau, den BOSWAU + KNAUER über mehrere Quartale entwickelt und auf eigenen Liegenschaften, Baustellen und Industriegeländen gefahren hat. Er ist nicht der einzige denkbare Aufbau. Er ist einer, der die Bedingungen nennt, an denen sich jeder Anbieter prüfen lassen kann. Wer auf dieser Grundlage andere Zahlen liefert, soll seine Methodik gegenhalten. Wer das nicht kann, sollte seine Zahlen nicht nennen.

Der Beitrag richtet sich an Operatoren, die KI-Komponenten beschaffen oder bereits betreiben. Er liefert keinen Anbietervergleich nach Markennamen, sondern eine Beschreibung dessen, was gemessen wurde, wie es gemessen wurde, und welche Bandbreiten sich daraus ergeben.

Warum öffentliche Methodik die einzige tragfähige Form von Vergleich ist

Im Sicherheitsmarkt ist die Verlockung groß, Ergebnisse zu nennen, ohne die Versuchsbedingungen mitzuliefern. Der Grund ist trivial. Die Versuchsbedingungen sind in der Regel günstiger als der spätere Einsatz. Eine Erkennung, die unter Tageslicht, auf ebenem Gelände, mit einer Kameramontage in idealer Höhe und ohne Wettereinfluss gemessen wird, liefert Werte, die im Feld nicht reproduzierbar sind. Wer diese Werte als Verkaufsargument nutzt, baut auf einer Differenz, die der Kunde erst nach der Inbetriebnahme bemerkt.

BOSWAU + KNAUER hat sich deshalb entschieden, die eigene Benchmark-Logik offen zu beschreiben. Diese Offenheit hat einen Preis. Wettbewerber können die Methodik kopieren, sie können sie kritisieren, sie können sie an Stellen angreifen, an denen sie selbst stark sind. Der Preis ist hinnehmbar, weil die Alternative schlimmer ist. Eine Branche, die ihre Zahlen nicht überprüfbar macht, verliert die Auseinandersetzung mit Versicherern, Aufsichtsbehörden und Auftraggebern auf Dauer.

Öffentliche Methodik bedeutet vier Dinge. Sie nennt die Datengrundlage, auf der trainiert und getestet wurde. Sie nennt die Umgebungsbedingungen, unter denen gemessen wurde. Sie nennt die Definition dessen, was als Treffer, als Fehlalarm und als Nichterkennung gilt. Und sie nennt die statistische Form, in der die Ergebnisse aggregiert wurden. Wer auch nur eine dieser vier Säulen weglässt, liefert keine Methodik, sondern eine Marketingaussage.

Die Frage, wer eine solche Methodik öffentlich machen sollte, ist nicht trivial. Hersteller haben einen Interessenkonflikt. Sie wollen ihre eigenen Produkte nicht schlechter aussehen lassen. Unabhängige Prüfer wie der TÜV oder die VdS Schadenverhütung haben das Mandat, aber nicht die fortlaufende Datenbasis aus dem operativen Betrieb. Branchenverbände wie der BDSW haben den Zugang zu den Anwendern, aber keine technologische Tiefe. Aufsichtsorgane wie das BSI im KRITIS-Umfeld setzen Mindestanforderungen, prüfen aber keine Erkennungsraten. Aus dieser Lücke ergibt sich, dass Hersteller ihre Methodik vorlegen müssen, damit andere sie prüfen können. Der vorliegende Beitrag ist ein Beitrag zu dieser Praxis, kein Anspruch auf die einzig gültige Form.

In dem Buch BOSWAU + KNAUER, Vom Bau zur Sicherheitstechnologie, wird in Kapitel 9 die Logik der Mehrkanalprüfung und der Kontextfilter beschrieben. Der vorliegende Beitrag vertieft, wie sich diese Logik in messbaren Werten ausdrückt und welche Spannweiten realistisch sind.

Aufbau des Tests: Standorte, Zeiträume, Hardwarekonfiguration

Der Testaufbau umfasste über mehrere Quartale verteilt eine zweistellige Anzahl von Liegenschaften in Deutschland. Die Standorte wurden so gewählt, dass die wesentlichen Anwendungsbedingungen des Marktes abgedeckt sind. Vertreten waren aktive Großbaustellen mit wechselnder Topographie, fest installierte Industrielager mit definierten Zufahrten, ein Logistikumschlagplatz mit dauerhaftem Schichtbetrieb, ein Außenbereich einer Infrastrukturanlage mit Vegetation in der Sichtachse und mehrere ungenutzte Lagerflächen, deren Aufgabe das Erkennen von unbefugten Zutritten war.

Auf jeder Liegenschaft wurden Kameras in einer Höhe zwischen vier und sieben Metern montiert, ergänzt durch mobile Videotürme an Stellen, an denen Festinstallationen nicht möglich oder nicht sinnvoll waren. Die Auflösung lag bei Full HD beziehungsweise 4K, je nach Bildwinkel und Entfernung des überwachten Bereichs. Wärmebildkomponenten kamen in Bereichen zum Einsatz, in denen die Beleuchtung in den Nachtstunden nicht durchgehend zur Verfügung stand. Die Verbindung zur Auswertung erfolgte teils über lokale Edge-Rechner, teils über eine zentrale Infrastruktur. Beide Architekturen wurden separat ausgewertet, um den Einfluss der Übertragungsstrecke auf die Reaktionszeit zu messen.

Der Testzeitraum erstreckte sich über alle vier Jahreszeiten. Diese Entscheidung ist nicht selbstverständlich. Viele veröffentlichte Erkennungsraten basieren auf Sommerdaten, in denen Tageslicht, niedrige Luftfeuchtigkeit und stabile Sichtverhältnisse die KI-Modelle in einem günstigen Bereich operieren lassen. Winterdaten mit Schneefall, Nebel und früher Dämmerung verschieben die Erkennungsraten in einer Größenordnung, die in keiner Marketingunterlage erscheint, aber in der operativen Wirklichkeit den Unterschied macht. Wer einen Benchmark veröffentlicht, der nur die warme Jahreshälfte zeigt, beschreibt nicht den deutschen Markt, sondern eine Auswahl seiner günstigen Bedingungen.

Die Stichprobe der Ereignisse, gegen die getestet wurde, setzte sich aus drei Quellen zusammen. Erstens aus real aufgetretenen Vorfällen, die durch Wachpersonal, Polizei oder den Auftraggeber unabhängig dokumentiert wurden. Zweitens aus inszenierten Vorgängen unter kontrollierten Bedingungen, in denen Mitarbeiter definierte Bewegungsmuster ausgeführt haben, um Klassifikationsgrenzen zu prüfen. Drittens aus Störereignissen, die die Modelle herausfordern, ohne sicherheitsrelevant zu sein, etwa Tiere, Witterungsphänomene, Schattenwürfe und Verkehrsbewegungen jenseits des Perimeters. Erst aus der Mischung dieser drei Quellen ergibt sich eine Datengrundlage, die aussagekräftig ist. Wer nur inszenierte Ereignisse zählt, bekommt zu hohe Werte. Wer nur reale Ereignisse zählt, bekommt zu kleine Stichproben. Die Kombination beider liefert die Spannweite, in der Anbieter und Anwender ehrlich miteinander sprechen können.

Was als Treffer, als Fehlalarm und als Nichterkennung gilt

Die Definition der Ereignisklassen entscheidet über die Ergebnisse mindestens so stark wie die Modelle selbst. Eine Klassifikation, die jede Detektion einer Bewegung als Treffer wertet, liefert hohe Erkennungsraten und unbrauchbare Fehlalarmwerte. Eine Klassifikation, die nur eindeutig identifizierte Personen mit klar erkennbarer Intention wertet, liefert niedrige Erkennungsraten, aber wenige Fehlalarme. Beide Extreme sind in der operativen Praxis wertlos.

Der Benchmark hat deshalb vier Klassen sauber getrennt. Erstens den bestätigten Treffer, bei dem ein sicherheitsrelevantes Ereignis durch das System erkannt und durch eine unabhängige Quelle bestätigt wurde. Zweitens den korrekten Negativbefund, bei dem ein nicht sicherheitsrelevantes Ereignis vom System richtig als unkritisch eingestuft wurde. Drittens den Fehlalarm, bei dem das System ein Ereignis als sicherheitsrelevant gemeldet hat, das es nachweislich nicht war. Viertens die Nichterkennung, bei der ein sicherheitsrelevantes Ereignis nicht oder zu spät vom System erfasst wurde.

Die Definition der Sicherheitsrelevanz wurde vor Beginn des Tests festgelegt und dokumentiert. Sicherheitsrelevant ist jede Bewegung einer Person oder eines Fahrzeugs in einem Bereich, in dem zur jeweiligen Tageszeit keine berechtigte Bewegung erwartet wird. Berechtigte Bewegungen wurden über Schichtpläne, Lieferlisten und Zugangsberechtigungen mit den Auftraggebern definiert. Diese Vorab-Definition ist die Voraussetzung dafür, dass die Bewertung nicht rückwirkend zugunsten des Systems verschoben werden kann.

Reaktionszeit wurde als zusätzliche Dimension gemessen. Eine Erkennung, die zwölf Sekunden nach Eintritt des Ereignisses erfolgt, ist statistisch ein Treffer und operativ ein Versagen. Die Reaktionszeit wurde vom Sensoreintritt bis zur Anzeige auf dem Operator-Arbeitsplatz gemessen. Werte über fünf Sekunden wurden gesondert ausgewiesen, weil sie in vielen Anwendungen die Wirkung der Erkennung aufheben.

Die Aggregation der Werte erfolgte über alle Standorte hinweg, getrennt nach Tageszeit, Witterungsklasse und Ereignistyp. Diese Trennung ist aufwendig, sie ist die Bedingung dafür, dass aus den Zahlen eine Aussage über die Lage wird. Eine einzige Gesamtprozentzahl ist im Sicherheitskontext irreführend, weil sie über sehr unterschiedliche Bedingungen hinweg mittelt und damit die schlechten Bedingungen versteckt, in denen die Sicherheit am wichtigsten ist.

Beobachtete Bandbreiten bei Erkennung und Falschalarm

Die Ergebnisse werden im Folgenden als qualitative Bandbreiten beschrieben, nicht als kommagenaue Einzelwerte. Diese Wahl ist bewusst. Einzelwerte aus einem Testlauf vermitteln eine Präzision, die statistisch nicht gedeckt ist. Bandbreiten beschreiben, in welchem Korridor sich realistische Werte bewegen, und sie schützen vor der Versuchung, Zufallsausschläge als Eigenschaft zu interpretieren.

Bei Personenerkennung im Tageslicht und in offenem Gelände lagen die Erkennungsraten der getesteten Konfigurationen im oberen Bereich, deutlich über neunzig Prozent, in einigen Konstellationen näher an der oberen Grenze des messbaren Bereichs. Dieser Wert ist nicht außergewöhnlich. Personenerkennung unter günstigen Bedingungen ist in den letzten Jahren zur Standardfunktion geworden, und Anbieter, die in diesem Szenario nicht in diesem Bereich liegen, fallen früh aus jeder Beschaffungsentscheidung.

Bei Personenerkennung in den Nachtstunden mit eingeschalteter Wärmebildkomponente lagen die Erkennungsraten ebenfalls im oberen Bereich. Ohne Wärmebild, also bei reiner Bildauswertung unter schwacher Beleuchtung, ergaben sich deutlich niedrigere Werte, die in einzelnen Konfigurationen unter siebzig Prozent fielen. Diese Beobachtung ist der wichtigste Befund des gesamten Benchmarks. Sie zeigt, dass die Wahl der Hardware mindestens so stark in die Erkennungsrate eingeht wie die Wahl des Modells. Wer KI-Genauigkeit ohne die zugrunde liegende Sensorik diskutiert, diskutiert die falsche Frage.

Bei Fahrzeugerkennung lagen die Werte über alle Bedingungen hinweg höher als bei Personenerkennung. Fahrzeuge sind größer, sie bewegen sich in vorhersehbaren Bahnen, und ihr Erscheinungsbild ist über die Jahreszeiten stabil. Erkennungswerte in einem sehr hohen Bereich sind hier realistisch und im Markt verfügbar.

Bei der Unterscheidung von Personen und Tieren, die für die Reduktion von Fehlalarmen entscheidend ist, lagen die Werte je nach Tierart in einem breiten Korridor. Großtiere wie Rehe und Wildschweine wurden in deutlich überwiegender Mehrheit korrekt klassifiziert. Mittlere Tiere wie Füchse und freilaufende Hunde lagen schwächer. Kleine Tiere, insbesondere Vögel in der Bildmitte, lieferten die größte Schwankungsbreite und sind in vielen Konfigurationen die häufigste Quelle reduzierbarer Fehlalarme.

Die Falschalarm-Quote, gemessen als Anzahl der Fehlalarme pro Kamera und Nacht, lag in der Mehrheit der Konfigurationen im einstelligen Bereich, in einzelnen Konfigurationen unter eins. Die Spannweite ergab sich vor allem aus der Wahl der Kontextfilter und der Mehrkanalprüfung. Konfigurationen ohne Mehrkanalprüfung lagen regelmäßig um den Faktor drei bis fünf über Konfigurationen mit Mehrkanalprüfung. Diese Beobachtung deckt sich mit der allgemeinen Praxis und ist in den Empfehlungen der VdS in vergleichbarer Form enthalten.

Reaktionszeiten lagen bei lokaler Edge-Auswertung im niedrigen einstelligen Sekundenbereich, in optimierten Konfigurationen unter einer Sekunde. Bei rein zentraler Auswertung über Standortverbindungen mittlerer Bandbreite lagen die Werte regelmäßig höher und schwankten in Abhängigkeit von der Netzauslastung. Diese Differenz ist nicht trivial. Sie entscheidet darüber, ob ein Eindringling im Moment der Erkennung noch erreichbar ist oder ob die Erkennung dokumentarischen Wert hat.

Grenzen des Benchmarks und offene Fragen

Ein ehrlicher Benchmark nennt seine Grenzen. Der hier beschriebene Aufbau hat mehrere. Erstens ist die Stichprobe der Standorte nicht repräsentativ für den gesamten deutschen Markt. Sie deckt die häufigsten Anwendungsfälle ab, sie schließt aber bestimmte Spezialfälle aus, etwa Wasserumgebungen, Untertage-Anlagen und sehr großflächige Außenbereiche jenseits von zweistelligen Hektarwerten. In diesen Spezialfällen können die Werte anders aussehen.

Zweitens ist die Auswahl der getesteten Konfigurationen geprägt durch das Portfolio des Herstellers. Andere Anbieter setzen andere Schwerpunkte, und ihre Modelle können in bestimmten Bedingungen besser oder schlechter abschneiden. Ein vollständiger Marktvergleich würde verlangen, dass mehrere Hersteller dieselbe Methodik akzeptieren und ihre Systeme unter denselben Bedingungen prüfen lassen. Diese Bereitschaft ist im Markt bisher nicht weit verbreitet.

Drittens entwickeln sich die Modelle weiter. Werte aus einem Testlauf sind eine Momentaufnahme. Wer in sechs Monaten denselben Aufbau wiederholt, wird abweichende Werte messen, in vielen Bereichen bessere, in einzelnen schlechtere. Dieser Punkt ist im Markt unterschätzt. Eine veröffentlichte Erkennungsrate ohne Datumsangabe ist im KI-Kontext fast wertlos.

Viertens ist die Frage der Datenherkunft nicht trivial. Modelle, die mit deutschen Daten trainiert sind, schneiden in deutschen Umgebungen besser ab als Modelle, die mit Daten aus anderen Klimazonen trainiert wurden. Diese Beobachtung hat Implikationen für die Beschaffung, die jenseits dieses Beitrags liegen, aber für KRITIS-Betreiber und für Anwender mit Datenschutzanforderungen unter der DSGVO erheblich sind. Das BSI nimmt in mehreren seiner Empfehlungen zur Herkunft und Nachvollziehbarkeit von Modellen Stellung, die hier nur andeutungsweise wiedergegeben werden können.

Fünftens ist die Reaktionszeit auf der Operator-Seite nicht Teil des Benchmarks im engeren Sinn. Sie wurde gemessen, aber sie hängt von Faktoren ab, die nicht der KI zuzurechnen sind, etwa der Personalstärke der Leitstelle und der Eingreiftruppe. Wer Reaktionszeit als Eigenschaft des Systems verkauft, verschweigt diese Abhängigkeit.

Was die Ergebnisse für Beschaffungsentscheidungen bedeuten

Operatoren, die KI-gestützte Perimeter-Lösungen beschaffen, stehen in der Regel vor einer Auswahlentscheidung zwischen mehreren Anbietern, die alle hohe Erkennungsraten nennen. Die Werte aus dem hier beschriebenen Benchmark legen vier Konsequenzen nahe.

Erstens sollte jede Erkennungsrate, die ein Anbieter nennt, in Kontextangaben aufgeschlüsselt werden. Tageslicht oder Nacht. Mit oder ohne Wärmebild. Personen oder Fahrzeuge. Lokale oder zentrale Auswertung. Sommer oder Winter. Ohne diese fünf Angaben ist die Zahl nicht prüfbar, und sie sollte in der Bewertung der Angebote nicht den ausschlaggebenden Faktor bilden.

Zweitens sollte die Falschalarm-Quote in derselben Tiefe verlangt werden. Eine Fehlalarmrate von einem Alarm pro Kamera und Tag ist in den meisten Anwendungen tragbar. Eine Fehlalarmrate von zehn Alarmen pro Kamera und Tag führt nach wenigen Wochen zur Abschaltung von Funktionen. Anbieter, die diese Zahl nicht ausweisen können, haben sie nicht gemessen.

Drittens sollte die Hardware-Konfiguration nicht als nachgeordnete Größe behandelt werden. Die Beobachtung, dass Wärmebildkomponenten in Nachtszenarien die Erkennungsraten deutlich heben, gilt unabhängig vom Modell. Wer in einem Vergleich zweier Anbieter die Hardware nicht angleicht, vergleicht nicht die KI, sondern die Gesamtkonfiguration. Diese Unterscheidung ist im Beschaffungsprozess häufig nicht sauber durchgeführt.

Viertens sollte ein Pilotbetrieb in der eigenen Umgebung Bestandteil jeder Beschaffung ab einer relevanten Größe sein. Datenblätter und veröffentlichte Benchmarks sind Indikatoren. Die Wirklichkeit der eigenen Standorte ist immer spezifisch. Ein neunzigtägiger Pilotbetrieb liefert in der Regel mehr Erkenntnis als sechs Anbieterpräsentationen.

BOSWAU + KNAUER bietet einen solchen Pilotbetrieb als Weg III der Zusammenarbeit an. Neunzig Tage, ein definierter Standort, ein definierter Erfolgsmaßstab vor Beginn. Wer vor einer Investitionsentscheidung steht, deren Volumen die Pilotkosten deutlich übersteigt, sollte diese Form der Standortprüfung jeder reinen Datenblatt-Bewertung vorziehen.

Was bleibt

Ein Benchmark ist kein Wettbewerb. Er ist eine Form, sich gegenüber einer Methodik zu erklären. Wer eine Methodik öffentlich macht, lädt zur Kritik ein. Diese Einladung ist anstrengend, und sie ist die einzige Form, in der eine Branche aus der Phase der Verkaufsversprechen in die Phase der überprüfbaren Aussagen tritt. Der deutsche Markt für Perimeter-KI braucht diese Phase, weil die Anwender, die heute investieren, in fünf bis zehn Jahren mit den Konsequenzen ihrer Entscheidung leben.

Die hier vorgelegten Bandbreiten sind ein Beitrag, kein Endpunkt. Wer eigene Werte misst und eigene Methodik dokumentiert, ist eingeladen, sie gegenzuhalten. Wer das nicht tut, sollte die Differenz zwischen seiner Marketingaussage und seiner Messpraxis als Risiko verstehen, das früher oder später durch einen Vorfall sichtbar wird. Im Sicherheitsmarkt entscheidet nicht die Zahl auf dem Datenblatt, sondern das Verhalten unter Last.

Der nächste Schritt für Operatoren, die ihre eigene Lage prüfen wollen, ist nicht der Vergleich von Datenblättern. Er ist die Frage, welche Werte unter ihren eigenen Bedingungen messbar sind. BOSWAU + KNAUER bietet dafür ein einstündiges, vertrauliches Gespräch nach dem in Kapitel 9 und 16 des Buchs beschriebenen Format an. Wer eine Stunde investiert, hat danach eine Einschätzung, die er vorher in dieser Form nicht hatte. Wer den Schritt darüber hinaus gehen will, geht in ein Audit von drei bis fünf Tagen oder in einen neunzigtägigen Pilotbetrieb. Drei Wege, die aufeinander aufbauen, aber einzeln tragen.

Häufige Fragen

Wie wird KI-Genauigkeit gemessen?

KI-Genauigkeit wird über vier getrennte Kennzahlen gemessen. Treffer, korrekte Negativbefunde, Fehlalarme und Nichterkennungen. Aus diesen vier Werten ergeben sich die Erkennungsrate, die Falschalarm-Quote und die Spezifität. Belastbar wird die Messung erst, wenn die Bedingungen mit angegeben werden, unter denen sie zustande kam. Tageszeit, Witterung, Hardware-Konfiguration und Ereignistyp gehören dazu. Eine einzelne Prozentzahl ohne Kontext ist im Sicherheitskontext nicht prüfbar und sollte in Beschaffungsentscheidungen nicht den ausschlaggebenden Faktor bilden.

Welche Modelle wurden verglichen?

Verglichen wurden Konfigurationen aus dem eigenen Portfolio in unterschiedlichen Hardware- und Software-Kombinationen, darunter reine Bildauswertung, kombinierte Bild- und Wärmebildauswertung, lokale Edge-Auswertung und zentrale Auswertung. Markennamen anderer Anbieter werden in diesem Beitrag nicht genannt, weil ein fairer Vergleich verlangt, dass alle Anbieter unter denselben Bedingungen prüfen lassen. Diese Bereitschaft ist im Markt nicht weit verbreitet. Der Beitrag beschreibt deshalb die Methodik, an der sich Anbieter messen lassen können, nicht das Ergebnis eines geschlossenen Anbietervergleichs.

Was war die Falschalarm-Quote?

Die Falschalarm-Quote lag in der Mehrheit der getesteten Konfigurationen im einstelligen Bereich pro Kamera und Nacht, in optimierten Konfigurationen unter eins. Die Spannweite ergab sich vor allem aus der Mehrkanalprüfung und den Kontextfiltern. Konfigurationen ohne Mehrkanalprüfung lagen regelmäßig um den Faktor drei bis fünf höher. Diese Beobachtung deckt sich mit den Empfehlungen der VdS und mit der allgemeinen Praxis im deutschen Markt. Eine belastbare Aussage zur Falschalarm-Quote setzt voraus, dass die Definition des Fehlalarms vor Beginn der Messung dokumentiert wurde.

Wer veröffentlicht solche Tests?

Hersteller veröffentlichen eigene Tests, deren Methodik selten offengelegt ist. Unabhängige Prüfer wie der TÜV und die VdS prüfen einzelne Produkte, ohne fortlaufende Marktbenchmarks zu fahren. Verbände wie der BDSW und der GDV nehmen zu Anforderungen Stellung, ohne eigene Tests zu veröffentlichen. Das BSI setzt Mindestanforderungen im KRITIS-Umfeld, prüft aber keine Erkennungsraten. Aus dieser Lücke ergibt sich, dass Hersteller ihre Methodik offenlegen müssen, damit andere sie prüfen können. Der vorliegende Beitrag ist ein Beitrag zu dieser Praxis.

Über den Autor

Dr. Raphael Nagel (LL.M.) ist Gründungspartner von Tactical Management. Er erwirbt und restrukturiert Industrieunternehmen in anspruchsvollen Marktumfeldern und schreibt über Kapital, Geopolitik und technologische Transformation. raphaelnagel.com

BSI-Grundschutz und physische Sicherheit: die Bausteine, die niemand liest

30. April 2026