Blog

Detección de anomalías con cámaras de IA: lo que detecta y lo que no

La detección de anomalías no es magia. Es estadística aplicada a vídeo. Una explicación clara para responsables que firman compras grandes.

Dr. Raphael Nagel

8 de enero de 2026

Detección de anomalías con cámaras de IA: lo que detecta y lo que no

La detección de anomalías por vídeo no es una inteligencia que entiende escenas, sino un clasificador estadístico que separa lo frecuente de lo infrecuente dentro de un encuadre concreto.

Esta distinción importa porque ordena las expectativas de quien firma la compra. Un modelo de anomalías no sabe lo que es un robo, una pelea o una intrusión en términos jurídicos. Sabe que ciertas combinaciones de píxeles, trayectorias y horas son raras respecto a una línea base que aprendió. La utilidad operativa del sistema depende menos del nombre comercial de la red neuronal y mucho más de tres elementos que rara vez aparecen en el folleto: la calidad de la línea base, la disciplina del filtro de contexto y la honestidad con que el fabricante comunica sus límites. Un responsable de seguridad que entiende esos tres elementos compra distinto. Discute distinto con el integrador. Negocia distinto con el aseguramiento. Y, sobre todo, deja de pagar por funciones cuya promesa no resiste el primer trimestre de explotación.

Qué hace realmente un modelo de anomalías

Un modelo de detección de anomalías en vídeo aprende una distribución estadística de lo normal en cada escena que vigila. Normal significa, en este contexto, frecuente y compatible con el patrón temporal y espacial observado. La cámara que mira un muelle de carga aprende que entre las seis y las diez de la mañana entran camiones por la izquierda, que se detienen tres o cuatro minutos, que un operario con chaleco se acerca por la derecha y que la cancela se abre dos veces por vehículo. Cualquier desviación significativa respecto a esa firma queda etiquetada como anómala. No porque el sistema haya entendido el comercio, sino porque ha medido una distancia estadística entre lo que ve y lo que ha visto miles de veces.

Esta arquitectura tiene una consecuencia que se subestima en las salas de compra. El modelo no detecta delitos. Detecta rarezas. Y las rarezas no son siempre amenazas. Un operario que entra por una puerta poco habitual es una rareza. Una furgoneta que se detiene fuera del horario habitual es una rareza. Un grupo de personas que se reúne en un punto que normalmente está vacío es una rareza. Algunas de esas rarezas son indicios de un problema. Otras son simplemente la vida de una instalación que cambia. El sistema, por sí solo, no distingue entre ambas. Esa distinción la introduce el operador humano, o el filtro de contexto, o el flujo de trabajo de la sala de control. Quien compra un detector de anomalías esperando que sustituya esa distinción está comprando una expectativa que ningún fabricante serio debería confirmar.

Lo que sí hace bien un modelo de anomalías es reducir el volumen de vídeo que un humano tiene que revisar. Una instalación con cuarenta cámaras produce, en veinticuatro horas, novecientas sesenta horas de imagen. Ningún equipo de seguridad mira ese material. Un modelo razonablemente entrenado puede señalar entre diez y cuarenta segmentos diarios merecedores de revisión, según la actividad del sitio. Eso es trabajo útil, medible, defendible ante una auditoría. Eso es lo que se compra. Todo lo demás, incluida la promesa de que el sistema reconocerá intenciones, es marketing.

Por qué la línea base es el activo más caro

La calidad de un detector de anomalías es la calidad de su línea base. Y la línea base no se entrega con el software. Se construye en cada instalación, durante semanas, observando la actividad real del emplazamiento. Esta verdad incomoda al departamento de compras porque obliga a aceptar que la cámara recién instalada no rinde en su primer día. Rinde en su tercera o cuarta semana, cuando ha acumulado suficientes ciclos de actividad para que la noción de normal tenga densidad estadística.

Una línea base bien construida contiene, como mínimo, ciclos diarios completos, ciclos semanales completos y al menos un ciclo estacional parcial. Un puerto que solo se ha observado entre lunes y viernes no sabe lo que es normal un sábado. Un almacén que solo se ha observado en verano no sabe lo que es normal en diciembre, cuando los operarios llevan abrigos voluminosos que cambian la silueta detectada. Una refinería que solo se ha observado fuera de paradas técnicas no sabe lo que es normal durante una parada técnica, cuando el número de personas y vehículos se multiplica de forma legítima. Cada una de estas lagunas produce falsos positivos en cascada cuando el sistema entra en producción y se encuentra con condiciones que no aprendió.

El fabricante honesto comunica esta limitación antes de la firma. Propone un calendario de adaptación, no una fecha de puesta en marcha. Distingue entre el día en que el equipo se enciende y el día en que el equipo está calibrado. Esos dos días pueden estar separados por sesenta o noventa días, según la complejidad del emplazamiento. Comprimir ese plazo no acelera el resultado, lo degrada. La línea base es el activo más caro del sistema porque consume tiempo que no se factura como hardware ni como licencia, pero sin el cual el hardware y la licencia no funcionan. En el libro BOSWAU + KNAUER. Del oficio constructor a la tecnología de seguridad, esta lógica recorre todos los capítulos sobre videoanálisis: la inteligencia útil de un modelo está en su adaptación a las condiciones reales, no en la sofisticación abstracta de la red neuronal subyacente.

Quien compre sin entender este punto firmará un contrato cuya métrica de aceptación es imposible de cumplir en el plazo previsto. Y quien venda sin explicarlo se arriesga a perder al cliente en el primer informe trimestral, cuando la tasa de falsos positivos parezca insostenible. La conversación temprana sobre la línea base no es un detalle técnico. Es una condición de posibilidad del proyecto.

El filtro de contexto y la tasa de falsos positivos

Una vez construida la línea base, el sistema empieza a marcar anomalías. La cuestión operativa pasa a ser cuántas de esas anomalías son útiles. La tasa de falsos positivos es el indicador que decide si un detector de anomalías sobrevive en explotación o termina apagado. Y los detectores de anomalías mueren apagados con más frecuencia de la que el sector reconoce. No fracasan en los pliegos. Fracasan en el sexto mes, cuando el operador silencia la alarma porque ha aprendido que nueve de cada diez activaciones no llevan a ningún sitio.

El filtro de contexto es el mecanismo que protege al sistema de su propia productividad. Funciona introduciendo reglas que rebajan o eliminan alertas en condiciones donde la anomalía es esperable. El operario de mantenimiento que entra los miércoles a las cinco para revisar el grupo electrógeno es una anomalía estadística que no debe alertar. La furgoneta de reparto que descarga a las seis de la mañana fuera del horario principal es una anomalía estadística que no debe alertar. El grupo de personas que se reúne en la zona de fumadores durante el descanso es una anomalía estadística que no debe alertar. Cada una de estas reglas se construye observando el sitio, hablando con los responsables operativos, y refinando el sistema durante semanas. El filtro de contexto no es código. Es conocimiento operativo cristalizado en código.

La mejor evidencia de la madurez de un proveedor es cómo habla de los falsos positivos. Un proveedor inmaduro promete tasas absolutas sin contexto. Un proveedor maduro explica que la tasa depende del emplazamiento, del horario, de la calidad del filtro y del compromiso del cliente en la fase de calibración. Da rangos, no cifras únicas. Compromete una métrica de mejora trimestral, no un valor inicial irreal. Y, sobre todo, mide. Un sistema que no produce informes mensuales sobre número de alertas, alertas confirmadas como reales, alertas descartadas como falsas y alertas pendientes de clasificación no permite gobernar la herramienta. Sin ese cuadro de mando, el proyecto deriva hacia la opacidad, y la opacidad es el preludio del apagado.

INCIBE y ENISA han insistido en sus guías sobre videoanalítica en la necesidad de medir la efectividad de los sistemas de detección con métricas comparables a lo largo del tiempo. La industria seria adopta ese estándar. La industria que vende humo lo evita. La diferencia, para el comprador, es la diferencia entre una inversión que rinde y un activo que se deprecia más rápido que su amortización contable.

Lo que no detecta y conviene saber

El catálogo de lo que un detector de anomalías no hace es tan importante como el de lo que hace. Y conviene tenerlo escrito antes de la firma, no después del primer incidente. Un modelo de anomalías no reconoce intenciones. No sabe si una persona que camina junto a una valla está midiendo el perímetro para una incursión o buscando su gato. No sabe si dos personas que se acercan a una máquina lo hacen para sabotearla o para repararla. La intención no está en los píxeles. Está en el contexto humano que el sistema no observa.

Un modelo de anomalías tampoco reconoce objetos pequeños con fiabilidad operativa. La detección de un cuchillo, una herramienta de palanca o un dispositivo de sustracción discreto exige una resolución, una cercanía y una orientación de cámara que rara vez se cumplen en instalaciones reales. Lo que detecta es el comportamiento asociado a esos objetos: una persona agachada de forma inusual, un movimiento de brazo que no encaja con la rutina, una postura que sugiere ocultamiento. Esa detección es útil, pero indirecta. El operador que recibe la alerta sigue necesitando confirmar visualmente lo que ocurre.

Un modelo de anomalías no funciona en condiciones para las que no ha sido entrenado. Una niebla densa, una tormenta que cubre la lente, un sol bajo que satura el sensor o una nevada que cambia drásticamente la apariencia del terreno son situaciones en las que el sistema pierde fiabilidad. La cámara sigue grabando, pero la confianza estadística de las clasificaciones se desploma. Un fabricante serio comunica este límite y propone protocolos de degradación elegante: cuando la confianza cae por debajo de un umbral, el sistema avisa al operador de que está operando con reducida fiabilidad y reduce automáticamente su tasa de alertas para no inundar la sala. Un fabricante que oculta este límite acabará entregando alertas espurias en cada cambio meteorológico, y el operador acabará aprendiendo a desconfiar también de las alertas legítimas.

Finalmente, un modelo de anomalías no es un sistema de cumplimiento. No genera por sí solo informes de cadena de custodia, no garantiza la admisibilidad probatoria de las imágenes en sede judicial, no resuelve las obligaciones de información a interesados que impone la AEPD, ni cubre las obligaciones específicas que el CNPIC señala para infraestructuras críticas. Todo eso es trabajo de la arquitectura que rodea al modelo: el almacenamiento, el control de accesos, los registros, la política de retención, los procedimientos de exportación. Confundir el modelo con la solución integral es uno de los errores de compra más caros y más frecuentes.

Cómo se mide la fiabilidad en producción

La fiabilidad de un sistema de detección de anomalías se mide en producción, no en laboratorio. Y se mide con cuatro métricas que conviene contractualizar antes de firmar. La primera es la tasa de detección de eventos reales, también llamada sensibilidad. Mide, sobre el conjunto de incidentes que efectivamente ocurrieron y fueron confirmados por otros medios, qué porcentaje el sistema señaló. Una sensibilidad del setenta por ciento significa que tres de cada diez incidentes pasaron inadvertidos. Esa cifra puede ser aceptable o inaceptable según el sitio, pero solo se puede juzgar si se mide.

La segunda métrica es la tasa de falsos positivos, o más útilmente, la precisión: sobre el conjunto de alertas generadas, qué porcentaje correspondió a un evento real. Una precisión del veinte por ciento significa que cuatro de cada cinco alertas son ruido. Esa cifra determina cuánta carga humana exige el sistema y, por tanto, su coste real de operación. La tercera métrica es el tiempo medio de detección, contado desde que el evento empieza a ser visible en la imagen hasta que la alerta llega al operador. Un sistema que detecta con cuarenta y cinco segundos de retraso vale menos que uno que detecta con cinco, aunque la sensibilidad sea similar.

La cuarta métrica, la más olvidada, es la disponibilidad efectiva: qué porcentaje del tiempo el sistema está operativo y produciendo clasificaciones fiables. Las cámaras se ensucian, las redes se caen, los servidores se reinician, los modelos se desentrenan cuando la escena cambia sin que nadie reentrene. Una disponibilidad del noventa por ciento suena bien hasta que se calcula que equivale a tres días al mes sin servicio. Para una instalación crítica, esa cifra es inaceptable. Para un almacén de bajo riesgo, puede ser tolerable. La conversación contractual sobre disponibilidad efectiva es la que separa los proveedores que entienden el negocio del cliente de los que venden cajas.

CCN-CERT ha publicado recomendaciones sobre métricas de eficacia para sistemas de detección en entornos sensibles. Adoptar esas métricas, o equivalentes, no es burocracia. Es la forma de convertir una compra de tecnología en un activo gobernable. Sin métricas, no hay mejora. Sin mejora, no hay justificación para el contrato de mantenimiento. Sin mantenimiento, el sistema se degrada hasta el punto en que se apaga. Ese ciclo de degradación es predecible y, por tanto, evitable.

Lo que permanece

Un detector de anomalías por vídeo es una herramienta de reducción de volumen que aprende estadísticamente lo normal y señala lo improbable. No reconoce intenciones, no funciona fuera de las condiciones en que fue entrenado y depende, para resultar útil, de una línea base bien construida y de un filtro de contexto disciplinado. Quien compra entendiendo estos límites adquiere una herramienta que rinde durante años. Quien compra esperando inteligencia general adquiere una decepción que se manifestará en el sexto mes, cuando el sistema esté apagado de hecho aunque siga encendido en la factura.

La compra responsable empieza por la conversación con el fabricante sobre qué se mide, cómo se mide, cuánto tarda la calibración y qué se hace cuando las métricas se desvían. Para quien quiera ordenar este diálogo sin compromiso, el Camino I de BOSWAU + KNAUER, una conversación confidencial de sesenta minutos, ofrece un marco para llevar a la mesa las preguntas adecuadas. Para quien necesite una evaluación más profunda de un emplazamiento ya en explotación, la auditoría de tres a cinco días del Camino II produce un informe con métricas y recomendaciones independientes. Y para quien quiera probar la tecnología en condiciones reales antes de comprometer una inversión amplia, el piloto de noventa días del Camino III entrega los datos que permiten decidir con base, no con promesa.

Preguntas frecuentes

¿Qué detecta exactamente una cámara de IA con anomalías?

Detecta desviaciones estadísticas respecto a una línea base aprendida en el emplazamiento concreto. Eso incluye personas en zonas o momentos inusuales, vehículos con trayectorias atípicas, agrupaciones no habituales, movimientos repetidos en perímetros, posturas que no encajan con la actividad normal y cambios de flujo en accesos. No detecta intenciones, no clasifica delitos jurídicamente y no reconoce objetos pequeños con fiabilidad operativa. Lo que entrega es una preselección de momentos merecedores de revisión humana, reduciendo el volumen de vídeo a inspeccionar de cientos de horas a unos pocos segmentos por día.

¿Se entrena el modelo en cada instalación?

Sí, la línea base se construye en cada emplazamiento. El modelo base, la red neuronal que aprende a representar la escena, se reutiliza, pero la noción de normal es específica del sitio. Esa construcción exige observar ciclos diarios y semanales completos, idealmente al menos un cambio estacional, antes de que el sistema rinda con métricas estables. El plazo típico es de seis a doce semanas según complejidad. Comprimir ese plazo degrada el resultado. Un fabricante serio comunica este calendario antes de la firma y no factura la puesta en marcha como si fuera puesta en producción inmediata.

¿Cómo se mide la tasa de aciertos?

Se mide con cuatro indicadores complementarios. Sensibilidad: porcentaje de eventos reales que el sistema detectó. Precisión: porcentaje de alertas que correspondieron a eventos reales. Tiempo medio de detección: segundos transcurridos entre el inicio visible del evento y la alerta. Disponibilidad efectiva: porcentaje del tiempo en que el sistema operó con fiabilidad. Estas cuatro métricas deben aparecer en informes mensuales, no anuales, y deben contractualizarse con rangos de aceptación. Sin esa medición sistemática, el sistema deriva hacia la opacidad y, con el tiempo, hacia el apagado por desconfianza del operador.

¿Funciona de noche?

Funciona con iluminación adecuada, ya sea visible o infrarroja, y con cámaras dimensionadas para esa condición lumínica. La detección nocturna exige sensores de mayor sensibilidad, iluminación infrarroja activa o cámaras térmicas según el caso. El modelo debe haber sido entrenado con suficiente material nocturno del propio emplazamiento, porque la apariencia del sitio cambia y la línea base diurna no sirve. En condiciones de oscuridad sin iluminación complementaria, la fiabilidad cae significativamente. Un proveedor honesto especifica las condiciones lumínicas mínimas en el pliego y comunica el comportamiento esperable en degradación, en lugar de prometer un funcionamiento idéntico al diurno.

Sobre el autor

El Dr. Raphael Nagel (LL.M.) es socio fundador de Tactical Management. Adquiere y reestructura empresas industriales en mercados exigentes y escribe sobre capital, geopolítica y transformación tecnológica. raphaelnagel.com

Más lectura

El secreto silencioso de la vigilancia privada en España: el absentismo del tercer turno

29 de abril de 2026