Blog

Deutsche Trainingsdaten gegen US-Datensätze: warum der Unterschied messbar ist

Wetter, Architektur, Fahrzeugflotte, PSA. Vier Variablen, die ein US-Modell in Deutschland schwächen.

Dr. Raphael Nagel

5. Juni 2025

Deutsche Trainingsdaten gegen US-Datensätze: warum der Unterschied messbar ist

Ein KI-Modell, das auf amerikanischen Daten trainiert wurde, sieht in Deutschland weniger, als sein Datenblatt verspricht. Diese Aussage ist nicht ideologisch, sondern statistisch. Die vier Variablen Wetter, Architektur, Fahrzeugflotte und persönliche Schutzausrüstung wirken in jedem einzelnen Bild auf die Klassifikation ein, und sie wirken in eine Richtung, die Fehlalarme erzeugt, wo Ruhe sein sollte, und Stille erzeugt, wo Alarm angezeigt wäre.

Boswau + Knauer betreibt Modelle, die auf deutschen, österreichischen und schweizerischen Standorten trainiert wurden, und das Unternehmen kennt die Differenz zu Modellen aus dem nordamerikanischen Markt aus eigener Vermessung. Die folgenden Abschnitte ordnen diese Differenz ein, ohne sie zu dramatisieren. Wer Sicherheitstechnologie als Investition rechnet, sollte die vier Variablen kennen, weil sie die Wirtschaftlichkeit eines Systems über die ersten zwölf Monate stärker prägen als jede Hardwarewahl.

Warum Trainingsdaten nicht universell sind

Ein neuronales Netz lernt nicht die Welt, sondern die Bilder, mit denen es trainiert wurde. Diese Aussage klingt trivial und wird im Vertrieb regelmäßig übergangen. Anbieter aus dem nordamerikanischen Raum verweisen auf Trainingskorpora mit Millionen von Bildern, auf Genauigkeiten jenseits der achtundneunzig Prozent und auf Referenzen aus Logistikzentren in Texas oder Ontario. Diese Zahlen sind nicht falsch. Sie sind nur nicht übertragbar.

Ein Modell, das mit Bildern aus südkalifornischen Lagerflächen trainiert wurde, hat einen Begriff von Person, von Fahrzeug, von Werkzeug, der durch die Bedingungen seiner Trainingsdaten geformt ist. Personen tragen in diesen Daten andere Kleidung. Fahrzeuge haben andere Proportionen. Werkzeuge haben andere Farben. Die Hintergründe sind anders strukturiert. Wenn dieses Modell in Nordrhein-Westfalen oder Niederösterreich eingesetzt wird, trifft es auf Eingaben, die in seinem Trainingsraum unterrepräsentiert sind. Es klassifiziert weiter, aber es klassifiziert schlechter.

Der Effekt zeigt sich nicht in einer einzigen falschen Erkennung. Er zeigt sich in einer Verteilung. Die Falsch-Positiv-Rate steigt, weil das Modell deutsche Bauarbeiterkleidung als ungewöhnlich einstuft. Die Falsch-Negativ-Rate steigt, weil das Modell europäische Kleinwagen oder Sprinter-Varianten anders gewichtet als amerikanische Pickup-Trucks. Beide Effekte zusammen erzeugen ein System, dessen Bedienpersonal nach einigen Wochen das Vertrauen verliert. Vertrauensverlust in der Leitstelle ist die teuerste Form von Fehlfunktion, weil sie zur Abschaltung von Funktionen führt, die eigentlich Schutz bieten sollten.

Die Hersteller wissen das. Sie verschweigen es nicht, sie thematisieren es nur selten von sich aus. Im Buch "BOSWAU + KNAUER, Vom Bau zur Sicherheitstechnologie" wird der Punkt aus der Perspektive des Herstellers beschrieben, der seine Modelle auf der eigenen Baustelle trainiert hat und der den Unterschied zur eingekauften Lösung in Schadensquoten messen konnte. Die Differenz war so groß, dass sie die Eigenentwicklung wirtschaftlich gerechtfertigt hat.

Wer Modelle prüft, sollte deshalb nicht nach der Gesamtgenauigkeit fragen, sondern nach der Genauigkeit auf einer Stichprobe aus dem eigenen Einsatzumfeld. Diese Stichprobe lässt sich in wenigen Tagen erstellen. Sie ist die einzige Zahl, die zählt.

Wetter als erste Variable

Das Wetter in Deutschland, Österreich und der Schweiz unterscheidet sich vom Wetter in den großen amerikanischen Trainingsregionen in einer Weise, die optische Systeme spürt. Drei Größen sind besonders relevant: die Häufigkeit diffuser Bewölkung, die Häufigkeit von Niederschlag mit niedriger Intensität und die saisonale Verschiebung der Tageslänge mit den damit verbundenen Schattenwinkeln.

Diffuse Bewölkung erzeugt eine andere Kontrastverteilung als die hochstehende Sonne in Arizona oder Nevada. Ein Modell, das auf harte Schatten und klare Konturen trainiert wurde, sieht in Hamburg im November einen Bildraum, der für seine Erwartungen flach ist. Die Konturen verschwimmen, die Farben sind reduziert, die Klassifikationsentscheidungen werden unsicherer. Diese Unsicherheit ist nicht ein Fehler des Modells, sondern eine Konsequenz seiner Herkunft. Sie schlägt sich in einer höheren Fehlalarmrate nieder, weil das Modell in Zweifel auf Aktivität entscheidet.

Niederschlag mit niedriger Intensität, also Nieselregen, Sprühregen, leichter Schneefall, ist eine deutsche Wetterlage, die in vielen amerikanischen Trainingsregionen so nicht vorkommt. Die Auswirkungen auf die Sensorik sind vielfältig. Linsen werden benetzt, ohne dass das Bild vollständig gestört wird. Der Hintergrund bewegt sich subtil, weil einzelne Tropfen durch das Sichtfeld fallen. Ein Modell, das auf trockene Bedingungen oder klar abgegrenzte Regenfälle trainiert wurde, interpretiert diese subtilen Bewegungen häufig als Aktivität. Die Folge sind Alarme über Stunden, ohne dass eine reale Aktivität stattfindet.

Die saisonale Verschiebung der Tageslänge prägt die Schattenwinkel über das Jahr. Eine Baustelle in München hat im Dezember um vierzehn Uhr eine Schattenlänge, die in Houston im Dezember um vierzehn Uhr nicht existiert. Diese Schatten sind lang, sie sind grau, sie bewegen sich, wenn die Sonne durch Wolken bricht. Modelle, die mit kurzen, harten Schatten trainiert wurden, behandeln lange, weiche Schatten als Anomalie. Eine Anomalie löst in der Regel einen Alarm aus.

Wer ein Modell für deutsche Verhältnisse trainiert, nimmt diese drei Bedingungen explizit in die Trainingsdaten auf. Boswau + Knauer arbeitet mit Bilddaten aus mehreren tausend Standortmonaten, in denen die volle Bandbreite der mitteleuropäischen Witterung vertreten ist. Der Effekt auf die Fehlalarmrate ist im operativen Vergleich mit eingekauften Modellen aus dem amerikanischen Markt deutlich messbar. Die Größenordnung liegt im Bereich einer Halbierung der Fehlalarme bei vergleichbarer Erkennungsleistung.

Architektur als zweite Variable

Die zweite Variable ist die gebaute Umgebung. Deutsche Baustellen, deutsche Industriegelände und deutsche Logistikflächen unterscheiden sich in ihrer Geometrie, ihrer Materialwahl und ihrer Flächenaufteilung von ihren amerikanischen Pendants. Diese Unterschiede sind in jedem einzelnen Bild präsent, und sie beeinflussen die Hintergrundmodellierung des KI-Systems.

Ein amerikanisches Distributionszentrum hat oft Hallenhöhen, Zufahrtsbreiten und Stellflächen, die in Deutschland nur in seltenen Ausnahmen vorkommen. Die Verhältnisse von Vordergrund zu Hintergrund, von Personhöhe zu Hallenhöhe, von Fahrzeuglänge zu Stellplatzlänge sind andere. Ein Modell, das diese Verhältnisse als Normalfall gelernt hat, interpretiert die kompakteren Verhältnisse einer Baustelle in Stuttgart oder einer Lagerhalle in Linz als ungewöhnlich. Die Folge ist eine erhöhte Bereitschaft, Aktivität zu erkennen, wo Routine vorliegt.

Die Materialwahl ist ein zweiter Punkt. Deutsche Baustellen arbeiten mit anderen Schalungssystemen, anderen Gerüsten, anderen Containertypen. Die Farben sind anders, die Beschriftungen sind anders, die Anordnungen sind anders. BG BAU und VdS haben über Jahre Standards geprägt, die in der gebauten Wirklichkeit sichtbar sind. Ein Modell, das auf amerikanische Bausysteme trainiert wurde, hat von diesen Standards keinen Begriff. Es sieht den Container, aber es ordnet ihn nicht ein. Es sieht das Gerüst, aber es bewertet seine Bewegung anders.

Die Flächenaufteilung ist die dritte Dimension. Deutsche Baustellen sind häufig in dichter städtischer Umgebung angelegt, mit Wohnbebauung in unmittelbarer Nähe, mit öffentlichem Verkehr im Sichtfeld, mit Lieferzonen in Geh- statt in Fahrweite. Diese Komplexität erzeugt einen Bildhintergrund, der für ein Modell aus suburbanen amerikanischen Trainingsdaten verwirrend ist. Passanten auf dem Gehweg neben der Baustelle sind keine Eindringlinge. Ein Modell muss das wissen, und es kann es nur wissen, wenn es Bilder mit Passanten auf Gehwegen gesehen hat.

Die Folge dieser drei Punkte ist nicht ein einzelner Fehler, sondern eine Verschiebung der Verteilung. Ein deutsches Modell entscheidet auf deutschen Bildern mit einer Sicherheit, die ein amerikanisches Modell auf denselben Bildern nicht erreicht. Diese Sicherheit ist die Voraussetzung für eine Mehrkanalprüfung, die wirtschaftlich tragbar ist. Wer ohne diese Grundsicherheit arbeitet, muss die Schwelle so hoch setzen, dass echte Vorfälle untergehen, oder so niedrig, dass die Leitstelle überlastet ist.

Fahrzeugflotte und persönliche Schutzausrüstung als dritte und vierte Variable

Die dritte Variable ist die Fahrzeugflotte. Auf deutschen Baustellen und in deutschen Logistikbetrieben bewegen sich Fahrzeuge, deren Proportionen, Farben und Beschriftungen sich von der amerikanischen Flotte deutlich unterscheiden. Sprinter, Vito, Crafter, Ducato, Transporter mit europäischen Maßen, Kleintransporter unter dreieinhalb Tonnen, Pkw mit Anhänger, Stapler in europäischen Größen. Diese Flotte ist in amerikanischen Trainingsdaten unterrepräsentiert. Ein Modell, das einen F-150 als Standardfahrzeug gelernt hat, bewertet einen Sprinter anders, als ein deutsches Modell ihn bewerten würde.

Hinzu kommen die Kennzeichen. Die Geometrie eines deutschen Kennzeichens, eines österreichischen Kennzeichens, eines schweizerischen Kennzeichens unterscheidet sich vom Format des amerikanischen Nummernschilds. Wer Kennzeichenerkennung als Bestandteil seiner Sicherheitslösung einsetzt, ist auf Modelle angewiesen, die mit europäischen Kennzeichen trainiert wurden. Diese Anforderung ist nicht trivial, weil die Mustererkennung auf das Verhältnis von Zeichen zu Hintergrund, auf die Position der Zeichen im Kennzeichen und auf die typografischen Konventionen reagiert. Modelle aus dem amerikanischen Markt liefern hier Genauigkeiten, die im operativen Einsatz nicht ausreichen.

Die vierte Variable ist die persönliche Schutzausrüstung. Helme, Warnwesten, Sicherheitsschuhe, Schutzbrillen sind in Deutschland, Österreich und der Schweiz nach Normen ausgeführt, die sich in Farben, Reflexstreifen und Schnitten von amerikanischen Pendants unterscheiden. Die BG BAU hat über Jahrzehnte eine Praxis geprägt, in der bestimmte Farbcodes für bestimmte Funktionen stehen. Diese Codes sind in der Trainingsdatenlage amerikanischer Anbieter unterrepräsentiert.

Die Folge ist, dass Modelle die Compliance-Prüfung schlechter leisten. Wer auf einer Baustelle automatisch erkennen will, ob eine Person die vorgeschriebene PSA trägt, ist auf ein Modell angewiesen, das deutsche Warnwestenfarben, deutsche Helmtypen und deutsche Reflexstreifen kennt. Ein Modell, das diese Spezifika nicht gelernt hat, klassifiziert eine korrekt ausgerüstete Person mitunter als unzureichend geschützt oder eine unzureichend ausgerüstete Person als compliant. Beide Fehler haben Konsequenzen, die über die Sicherheitsdiskussion hinausgehen, weil sie in die Dokumentation gegenüber Berufsgenossenschaft und Versicherer einfließen.

Die Kombination der vier Variablen ergibt ein Gesamtbild, das messbar ist. In direkten Vergleichen zwischen Modellen mit lokal trainierten Daten und Modellen aus dem amerikanischen Markt liegen die Differenzen in der Fehlalarmrate, der Erkennungsleistung und der Compliance-Prüfung in Bereichen, die wirtschaftlich relevant sind. Wer in diesen Größen rechnet, kommt zur eigenen Trainingsbasis als Pflicht, nicht als Kür.

Datenschutz als Standortfaktor

Die Frage der Trainingsdaten ist nicht nur eine Frage der technischen Leistung, sondern auch eine Frage der rechtlichen Tragfähigkeit. Die DSGVO setzt einen Rahmen, der für Modelle, die mit personenbezogenen Daten arbeiten, hohe Anforderungen stellt. Modelle, die in den Vereinigten Staaten trainiert wurden, sind in ihrer Trainingsdatenlage selten in einer Form dokumentiert, die einer DSGVO-konformen Verarbeitung gerecht wird. Wer ein solches Modell in Deutschland einsetzt, übernimmt rechtliche Risiken, die sich erst im Prüfungsfall zeigen.

Die deutsche Aufsichtspraxis, die durch die Landesdatenschutzbehörden und in Auseinandersetzung mit dem BSI geprägt ist, verlangt eine nachvollziehbare Dokumentation der Datenflüsse. Wer Videoanalyse einsetzt, muss zeigen können, wo die Daten verarbeitet werden, welche Daten in das Modell einfließen und welche Schutzmaßnahmen greifen. Ein Modell, dessen Trainingsdatenherkunft nicht offengelegt ist, bringt diese Dokumentation in eine Schieflage, die im Konflikt mit Betriebsrat, Aufsichtsbehörde oder Versicherer kaum zu halten ist.

Boswau + Knauer hat seine Modelle so aufgebaut, dass die Trainingsdaten nach DSGVO-Vorgaben verarbeitet wurden, mit dokumentierten Einwilligungen, mit nachvollziehbaren Anonymisierungsschritten und mit einer Verarbeitung, die in deutschen Rechenzentren stattfindet. Diese Architektur ist nicht eine Komfortlösung für den Vertrieb, sondern eine Voraussetzung dafür, dass die Systeme in KRITIS-relevanten Umgebungen einsetzbar sind. Der GDV hat über die letzten Jahre Anforderungen entwickelt, die in diese Richtung weisen, und der BDSW formuliert vergleichbare Erwartungen für den Einsatz von Technologie im Sicherheitsgewerbe.

Die rechtliche Lage ist nicht statisch. Mit dem EU AI Act und der nachgelagerten nationalen Umsetzung entstehen weitere Anforderungen an die Trainingsdaten von Systemen, die in sicherheitsrelevanten Funktionen eingesetzt werden. Wer heute auf ein Modell setzt, dessen Trainingsdaten nicht europäischer Herkunft sind, läuft Gefahr, in den kommenden Jahren in eine Compliance-Lücke zu geraten, deren Schließung dann unter Zeitdruck steht. Wer heute auf ein Modell mit dokumentierter europäischer Trainingsbasis setzt, hat diese Frage vor sich.

Die Wahl der Trainingsdaten ist deshalb keine technische Vorentscheidung, sondern eine strategische. Sie prägt die Robustheit der Lösung gegenüber regulatorischen Verschiebungen über die nächste Dekade. Wer in Plattformen denkt, denkt diese Verschiebung mit. Wer in Quartalen denkt, übergeht sie und zahlt sie später nach.

Was bleibt

Die vier Variablen Wetter, Architektur, Fahrzeugflotte und persönliche Schutzausrüstung machen den Unterschied zwischen einem Modell, das in Deutschland trägt, und einem Modell, das in Deutschland nur scheint zu tragen. Die Differenz ist nicht eine Frage des Marketings, sondern eine Frage der Statistik. Sie zeigt sich in der Fehlalarmrate, in der Erkennungsleistung, in der Compliance-Prüfung und in der rechtlichen Dokumentationsfähigkeit. Wer Sicherheitstechnologie ernsthaft betreibt, prüft diese vier Punkte vor der Investition, nicht nach dem ersten enttäuschenden Quartal.

Boswau + Knauer hat seine Modelle aus dieser Überzeugung heraus aufgebaut, mit Trainingsdaten aus dem deutschsprachigen Raum, mit dokumentierten Datenflüssen und mit einer Architektur, die DSGVO-konform ist. Diese Entscheidung ist teurer als der Zukauf eines amerikanischen Modells. Sie ist die einzige, die in den nächsten zehn Jahren tragen wird. Wer das prüfen will, kann das tun. Die einfachste Form ist ein Gespräch von sechzig Minuten, in dem die eigene Lage gegen die Erfahrung des Herstellers gehalten wird. Die belastbarere Form ist ein Audit über drei bis fünf Tage, in dem die Standorte, die Prozesse und die bisherige Modelllage bewertet werden.

Wer die Differenz nicht nur einschätzen, sondern messen will, geht den dritten Weg. Ein Pilotbetrieb über neunzig Tage an einem definierten Standort liefert die Daten, die jeder weiteren Entscheidung die Grundlage geben. Die Differenz zwischen einem deutsch trainierten und einem amerikanisch trainierten Modell ist in diesen neunzig Tagen so deutlich, dass die Skalierungsentscheidung danach nicht mehr eine Frage der Überzeugung ist, sondern eine Frage der Zahlen.

Häufige Fragen

Warum schwächen US-Datensätze deutsche KI?

US-Datensätze enthalten Bilder, deren Wetterlagen, Architekturen, Fahrzeugflotten und Schutzausrüstungen sich von deutschen Standorten messbar unterscheiden. Ein Modell, das auf diesen Daten trainiert wurde, behandelt die mitteleuropäische Wirklichkeit als statistische Abweichung. Die Folge sind erhöhte Fehlalarmraten bei subtilen Witterungslagen, schlechtere Erkennung europäischer Transporter und Kennzeichen sowie eine unzuverlässige Prüfung der nach BG BAU üblichen Schutzausrüstung. Die Differenz zeigt sich nicht in einzelnen Bildern, sondern in der Verteilung über tausende Erkennungen. Sie ist im operativen Vergleich messbar und wirtschaftlich relevant.

Welche Trainingsdaten sind verfügbar?

Verfügbar sind erstens offene Datensätze aus europäischer Forschung, die in begrenztem Umfang baustellen- und industrierelevante Szenen enthalten. Zweitens herstellerinterne Datensätze, die Anbieter wie Boswau + Knauer aus eigenen Standortmonaten aufgebaut haben. Drittens kundenspezifische Datensätze, die im Pilotbetrieb erhoben werden und für die Feinanpassung an einen konkreten Einsatz dienen. Die Qualität eines Modells hängt nicht von der absoluten Datenmenge ab, sondern von der Repräsentativität für das tatsächliche Einsatzumfeld. Eine deutsche Stichprobe von wenigen tausend Stunden schlägt eine amerikanische Stichprobe von Millionen Stunden.

Wer sammelt sie?

Trainingsdaten werden im deutschsprachigen Raum von mehreren Akteursgruppen gesammelt. Forschungseinrichtungen erheben Datensätze für wissenschaftliche Zwecke, oft in Zusammenarbeit mit dem BSI oder im Rahmen europäischer Förderprogramme. Hersteller wie Boswau + Knauer erheben Daten auf eigenen Pilotstandorten und auf Standorten kooperierender Kunden, mit dokumentierter Einwilligung und nach DSGVO-Vorgaben. Sicherheitsdienstleister liefern in Partnerschaft mit Herstellern Bildmaterial aus laufenden Einsätzen. Versicherer und Verbände wie GDV oder VdS prägen indirekt, welche Szenarien priorisiert werden, weil ihre Schadensstatistiken die Trainingsschwerpunkte beeinflussen.

Wie wird Datenschutz gesichert?

Datenschutz wird auf mehreren Ebenen gesichert. Erstens auf der Ebene der Erhebung, durch dokumentierte Einwilligungen, klare Zweckbindung und nachvollziehbare Anonymisierung von Personen, deren Identifikation für das Training nicht erforderlich ist. Zweitens auf der Ebene der Verarbeitung, durch Rechenzentren in Deutschland oder der Europäischen Union, durch Verschlüsselung und durch Zugriffskontrollen, die TÜV-prüffähig sind. Drittens auf der Ebene des Einsatzes, durch eine Architektur, die personenbezogene Auswertungen nur in den Grenzen erlaubt, die mit Betriebsrat, Datenschutzbeauftragtem und Aufsichtsbehörde abgestimmt sind. Diese drei Ebenen müssen zusammen tragen.

Über den Autor

Dr. Raphael Nagel (LL.M.) ist Gründungspartner von Tactical Management. Er erwirbt und restrukturiert Industrieunternehmen in anspruchsvollen Marktumfeldern und schreibt über Kapital, Geopolitik und technologische Transformation. raphaelnagel.com

BSI-Grundschutz und physische Sicherheit: die Bausteine, die niemand liest

30. April 2026