Blog
Análisis de vídeo con inteligencia artificial en seguridad: qué pedir, qué evitar
Cinco preguntas que separan a un proveedor serio de un revendedor. Una guía para el responsable de seguridad que firma el contrato.

Dr. Raphael Nagel
28 de abril de 2026

La inteligencia artificial aplicada al vídeo de seguridad es, en la mayoría de los casos comerciales, una capa de clasificación entrenada para una tarea concreta, vendida bajo un nombre que sugiere mucho más de lo que entrega.
Esta distinción no es académica. Define qué pregunta uno antes de firmar, qué exige en el pliego y qué acepta como prueba de funcionamiento. El responsable de seguridad que confunde una clasificación especializada con una inteligencia general no está comprando tecnología, está comprando una promesa. Y las promesas, cuando llegan al juzgado o a la auditoría de la AEPD, no sostienen nada. Lo que sigue es una guía de las cinco preguntas que, en la experiencia del fabricante, separan a un proveedor serio de un revendedor que ha cambiado la pegatina de la caja.
La primera pregunta es qué modelo está dentro
Un sistema de analítica de vídeo con inteligencia artificial no es una caja negra. Es un conjunto identificable de modelos entrenados para tareas concretas, ejecutados sobre una arquitectura de cómputo determinada, con un ciclo de actualización documentado. El proveedor que no puede nombrar los modelos que usa, indicar si son propios o licenciados, decir sobre qué arquitectura corren y en qué versión, no es un fabricante. Es un integrador que ha empaquetado componentes de terceros sin asumir responsabilidad sobre su comportamiento. El responsable de seguridad que firma con un integrador de este tipo se queda sin interlocutor el día en que el sistema clasifica mal y genera consecuencias.
La pregunta concreta tiene tres niveles. Primero, qué tarea hace cada modelo. Detección de personas, detección de vehículos, reconocimiento de comportamientos, lectura de matrículas, identificación de objetos abandonados. Cada una de estas tareas se entrena por separado, se evalúa por separado y falla por separado. Segundo, sobre qué datos se entrenó. Un modelo de detección de personas entrenado mayoritariamente en escenas diurnas con poblaciones europeas se comporta de forma medible peor en escenas nocturnas, con iluminación industrial o con poblaciones que no aparecieron en el conjunto de entrenamiento. Tercero, cómo se actualiza. Un modelo congelado en el momento de la compra envejece junto con las amenazas que debía reconocer. Un modelo que se reentrena cada trimestre, con datos del cliente bajo acuerdo de tratamiento, evoluciona con el entorno real.
En la práctica de campo de BOSWAU + KNAUER, los modelos de clasificación corren parte en el dispositivo, en el borde, y parte en infraestructura central. Esta arquitectura doble responde a una exigencia que el responsable serio reconoce de inmediato. Si la conexión cae, el sistema no se ciega. Las decisiones críticas en milisegundos no pueden depender de un enlace que en un polígono industrial o en una obra mayor se interrumpe varias veces por semana. El proveedor que ofrece analítica exclusivamente en la nube vende un sistema que funciona cuando todo funciona, que es exactamente el escenario en el que la seguridad importa menos.
La segunda pregunta es qué métricas reporta el sistema
La analítica de vídeo se mide con cuatro números que el proveedor serio entrega sin que se le pidan. Tasa de detección, tasa de falsos positivos, tasa de falsos negativos, tiempo medio entre alarma y verificación. Quien no entrega estos números, no los ha medido. Quien dice que su sistema tiene precisión del noventa y nueve por ciento sin especificar bajo qué condiciones, en qué escenario, con qué iluminación, con qué densidad de tráfico, está dando una cifra de folleto. Una precisión del noventa y nueve por ciento en un parking vacío de día es inútil. La misma precisión en un patio logístico con movimiento continuo a las tres de la madrugada es lo que el cliente paga.
La tasa de falsos positivos es la métrica más reveladora. Un sistema con alta tasa de detección y alta tasa de falsos positivos es indistinguible, en operación real, de un sistema sin analítica. El operador que recibe veinte alertas por turno, de las cuales dieciocho son hojas movidas por el viento, gatos o sombras, deja de mirar. La fatiga de alarmas no es un problema técnico, es un problema humano que el diseño técnico provoca. ENISA, en sus orientaciones sobre integración de inteligencia artificial en infraestructuras críticas, insiste en que la reducción de falsos positivos es la prueba operativa más relevante. CNPIC, en el ámbito español, ha recogido esta misma orientación en sus marcos sobre infraestructuras estratégicas.
El tiempo medio entre alarma y verificación es la métrica que conecta la tecnología con la operación. Un sistema que detecta en cincuenta milisegundos y tarda doce segundos en presentar al operador la imagen relevante con la clasificación, el contexto y la opción de respuesta, es un sistema cuya analítica está desconectada de la cadena de mando. La analítica de vídeo sólo tiene sentido si entrega al operador, en menos de dos segundos, una vista en la que se ve qué ha pasado, dónde y con qué nivel de confianza. Todo lo que exceda este umbral devuelve al operador al modelo anterior de revisión manual, y el coste de la analítica se vuelve pura adición sin retorno.
El proveedor serio entrega estas cuatro métricas medidas en el entorno del cliente, no en el laboratorio. La auditoría de tres a cinco días que BOSWAU + KNAUER realiza en el camino II del libro "BOSWAU + KNAUER. Del oficio constructor a la tecnología de seguridad" tiene exactamente esta función. Medir en el sitio del cliente, en condiciones reales, las cifras que el folleto presenta como universales.
La tercera pregunta es dónde se entrena el modelo
El entrenamiento de los modelos define lo que el sistema sabe ver. Un modelo entrenado con datos genéricos de plataformas internacionales reconoce escenas genéricas. Un modelo afinado con datos del entorno concreto del cliente reconoce el entorno concreto del cliente. La diferencia entre ambos, medida en tasa de falsos positivos, suele estar entre un factor tres y un factor diez. El proveedor que no diferencia entre el modelo de fábrica y el modelo afinado en sitio no entiende el problema o no quiere asumir el coste de resolverlo.
El afinado local se hace con datos del cliente, bajo un acuerdo de tratamiento que cumple el RGPD y que la AEPD reconoce como base legítima. Estos datos pueden ser secuencias de vídeo etiquetadas durante un periodo de operación piloto, secuencias sintéticas generadas a partir del entorno real o una combinación de ambas. Lo que el cliente debe exigir es transparencia sobre el origen de los datos, sobre el lugar de almacenamiento durante el entrenamiento, sobre los plazos de retención y sobre la titularidad del modelo resultante. Un modelo entrenado con datos del cliente y propiedad del proveedor crea una dependencia que se paga al primer cambio de contrato. Un modelo entrenado con datos del cliente y cuya propiedad o licencia perpetua corresponde al cliente, en cambio, es un activo que el cliente puede defender ante el regulador y ante el sucesor del proveedor.
La cuestión de dónde se entrena tiene además una dimensión jurisdiccional. Modelos entrenados en infraestructura ubicada en la Unión Europea, bajo proveedores sujetos al RGPD y al marco europeo de inteligencia artificial, ofrecen una posición defensiva ante la AEPD que los modelos entrenados en infraestructuras de terceros países no ofrecen. INCIBE ha advertido en sucesivos informes sobre las cadenas de suministro de software en seguridad, donde el lugar de entrenamiento y la jurisdicción del proveedor son factores que el responsable de seguridad debe conocer antes de firmar, no después. La diligencia debida sobre la cadena de tratamiento de datos en analítica de vídeo es, en este momento, una obligación profesional, no una sofisticación añadida.
El fabricante que opera con esta disciplina entrena los modelos base en infraestructura propia, afina con datos del cliente en el sitio del cliente bajo encargo de tratamiento, y entrega al cliente la documentación completa del ciclo. Esta documentación es la que la AEPD pide cuando aparece. Cuanto antes esté preparada, menos cuesta producirla.
La cuarta pregunta es cómo se garantiza el RGPD
La analítica de vídeo con inteligencia artificial entra de lleno en el marco del Reglamento General de Protección de Datos en el momento en que clasifica personas, comportamientos o características asociadas a personas identificables. El proveedor que afirma que su sistema no procesa datos personales porque sólo detecta movimiento miente o no ha leído el reglamento. La detección de una persona, aunque no se identifique nominalmente, constituye tratamiento de datos personales en el sentido del artículo 4. El responsable del tratamiento, que es el cliente y no el proveedor, asume las obligaciones del reglamento desde el primer fotograma.
La conformidad con el RGPD en analítica de vídeo se construye en cuatro capas. La primera es la base legítima del tratamiento. En seguridad privada y protección de infraestructuras críticas, la base suele ser el interés legítimo, pero requiere una evaluación de impacto documentada. La AEPD ha rechazado en varias resoluciones implantaciones de videovigilancia donde la evaluación se hizo a posteriori o donde la proporcionalidad no se justificó frente a alternativas menos invasivas. La segunda capa es la información a los afectados. Carteles visibles, política accesible, derechos ejercitables. La tercera capa es la minimización. El sistema debe procesar lo mínimo necesario para la finalidad declarada. Un sistema que graba en alta resolución durante treinta días lo que podría procesar en metadatos durante siete está excedido y, en una inspección, será corregido. La cuarta capa es la trazabilidad. Quién ha accedido a las imágenes, cuándo, por qué motivo, con qué resultado. Sin trazabilidad no hay defensa.
El proveedor serio entrega un cuaderno técnico que documenta cada una de estas capas. No remite al cliente al texto del reglamento. No le dice que la conformidad es responsabilidad suya y se desentiende. Acompaña la implantación con la evaluación de impacto, con la cláusula de encargado de tratamiento, con la matriz de roles y con el protocolo de respuesta a derechos. Este nivel de acompañamiento es lo que distingue a un fabricante de un vendedor. Unespa, en sus orientaciones a aseguradoras, valora cada vez con mayor peso la calidad documental de las medidas de seguridad como factor de prima. Una analítica de vídeo bien documentada se paga sola en la negociación con la aseguradora.
Hay además un elemento que merece mención particular. El marco europeo sobre inteligencia artificial, en desarrollo y aplicación progresiva, clasifica determinados usos de la analítica de vídeo como sistemas de alto riesgo. La identificación biométrica remota, el reconocimiento de emociones, ciertas formas de categorización, requieren obligaciones reforzadas. El proveedor que no distingue entre lo que su sistema puede hacer y lo que su sistema puede hacer legalmente en la jurisdicción del cliente, vende un problema. El responsable de seguridad debe pedir, por escrito, qué funcionalidades del sistema están activas, cuáles están desactivadas por defecto y por qué motivo regulatorio, y qué consecuencias tiene activarlas.
La quinta pregunta es qué pasa cuando el sistema se equivoca
Todo sistema de inteligencia artificial se equivoca. La cuestión no es si, sino cuándo, cómo y con qué consecuencias. El proveedor serio describe el régimen de error de su sistema antes de la implantación. El proveedor que vende infalibilidad vende ficción, y la ficción se paga cuando el primer error tiene consecuencias.
El régimen de error tiene tres dimensiones. La primera es la cobertura. ¿Qué tipos de errores comete el sistema? Falsos positivos en condiciones de lluvia intensa, falsos negativos en clasificación de vehículos en contraluz, errores de reidentificación tras un cambio de iluminación. Estas debilidades son conocidas para el fabricante que ha medido su producto en campo. Comunicarlas no es debilidad comercial, es honestidad técnica que el responsable de seguridad agradece porque puede planificar contramedidas. La segunda dimensión es la respuesta. ¿Qué hace el sistema cuando se equivoca? Si una alarma falsa moviliza una unidad de respuesta a la una de la mañana, el coste por incidente es alto. Si se descarta mediante verificación humana en treinta segundos, el coste es marginal. La arquitectura de verificación, con operador entrenado y protocolo definido, es lo que convierte un sistema imperfecto en un sistema operativo. La tercera dimensión es el aprendizaje. ¿Cómo se incorpora el error al ciclo de mejora? Un sistema que registra cada falso positivo, lo etiqueta, lo retroalimenta al entrenamiento y mejora trimestre a trimestre es un sistema vivo. Un sistema que comete el mismo error en febrero y en noviembre es un sistema abandonado por su fabricante.
La responsabilidad jurídica del error merece párrafo aparte. Cuando una analítica de vídeo clasifica a una persona como amenaza y se desencadena una respuesta que produce daño, ¿quién responde? El proveedor que se exime en sus condiciones generales de toda responsabilidad por las decisiones tomadas a partir de su sistema, ha trasladado todo el riesgo al cliente. El fabricante que asume responsabilidad acotada por el funcionamiento técnico del sistema, dentro de los parámetros declarados, y deja al cliente la responsabilidad por las decisiones operativas, está actuando con seriedad jurídica. Esta distribución de responsabilidades debe estar escrita en el contrato, no en el folleto, y debe haber sido revisada por el departamento legal del cliente antes de la firma. CCN-CERT ha publicado orientaciones sobre cláusulas mínimas en contratos de tecnología de seguridad que el responsable de seguridad debe conocer.
Lo que permanece
La analítica de vídeo con inteligencia artificial es una herramienta poderosa cuando está bien construida, bien entrenada, bien integrada y bien gobernada. Es una fuente de problemas, de coste y de exposición regulatoria cuando se compra como caja negra a un proveedor que no sabe responder a las cinco preguntas anteriores. La diferencia entre ambos escenarios no la marca el precio ni la marca, la marca la disciplina del responsable de seguridad en el momento de la selección.
El fabricante que ha hecho el camino completo, desde la fabricación robusta hasta la analítica con inteligencia artificial, lo describe en el libro "BOSWAU + KNAUER. Del oficio constructor a la tecnología de seguridad". El camino no es retórico, es la única forma de tener producto cuando el cliente lo pone a prueba. Para quien quiere evaluar su posición antes de comprometer presupuesto, el camino I, una conversación confidencial de sesenta minutos con un miembro de la dirección, ordena las preguntas que el pliego no ha sabido formular. Para quien necesita medir lo que ya tiene contra lo que el mercado ofrece, el camino II, una auditoría de tres a cinco días en sus emplazamientos, entrega el informe técnico que defiende cualquier decisión posterior, con o sin el fabricante.
Preguntas frecuentes
¿Cómo se evalúa un proveedor de análisis de vídeo?
Con cinco preguntas concretas. Qué modelos usa y de quién son. Qué métricas de detección, falsos positivos, falsos negativos y tiempo de verificación reporta sobre su producto. Dónde y con qué datos entrena los modelos. Cómo documenta el cumplimiento del RGPD y la evaluación de impacto. Qué régimen de responsabilidad asume cuando su sistema se equivoca. Un proveedor que responde por escrito y con detalle a las cinco preguntas es un fabricante. Un proveedor que se evade en alguna de ellas es un revendedor. La diferencia se nota el día de la primera incidencia, no antes.
¿Qué métricas debe reportar el sistema?
Cuatro como mínimo, medidas en el entorno del cliente y no en laboratorio. Tasa de detección, que indica qué porcentaje de eventos relevantes captura el sistema. Tasa de falsos positivos, que indica cuántas alarmas son innecesarias y consumen recursos del operador. Tasa de falsos negativos, que indica cuántos eventos relevantes pasan desapercibidos. Tiempo medio entre detección y presentación al operador, que define si la analítica está conectada con la cadena de mando o desconectada. Sin estos cuatro números, ninguna decisión de compra es defendible ante auditoría interna o regulatoria.
¿Los modelos se entrenan con datos locales?
Los modelos base se entrenan con conjuntos amplios. El afinado, que es lo que reduce falsos positivos entre tres y diez veces, se hace con datos del entorno concreto del cliente, bajo encargo de tratamiento que cumple el RGPD. La AEPD acepta esta base si la evaluación de impacto está documentada, los plazos de retención son proporcionales y el cliente conserva derechos sobre el modelo resultante. Un proveedor que entrena exclusivamente con datos genéricos vende un producto que no llega a su rendimiento operativo hasta meses después, si es que llega.
¿Cómo se garantiza el RGPD?
Con cuatro capas documentadas antes de la implantación. Base legítima, normalmente interés legítimo, sostenida por una evaluación de impacto firmada y archivada. Información a los afectados, con cartelería, política accesible y procedimiento de ejercicio de derechos. Minimización, procesando sólo lo necesario para la finalidad declarada y descartando lo que excede. Trazabilidad, registrando accesos, motivos y resultados para defender el tratamiento ante una inspección. El proveedor serio entrega cuaderno técnico que documenta las cuatro capas. El responsable del tratamiento sigue siendo el cliente, pero no debe construir la conformidad solo.

Sobre el autor
El Dr. Raphael Nagel (LL.M.) es socio fundador de Tactical Management. Adquiere y reestructura empresas industriales en mercados exigentes y escribe sobre capital, geopolítica y transformación tecnológica. raphaelnagel.com
Más lectura
Desde 1892.
Se contacta la casa a través de boswau-knauer.de o en el +49 711 806 53 427.


