Blog

Datos públicos frente a entrenamiento propio: lo que funciona en IA perimetral

COCO, ImageNet, sus límites. Por qué los datos propios son la ventaja sostenible.

Dr. Raphael Nagel

8 de septiembre de 2025

Datos públicos frente a entrenamiento propio: lo que funciona en IA perimetral

Un modelo entrenado sobre COCO no reconoce un andamio, no distingue un casco de obra de un gorro, no sabe qué hace un operario que se inclina sobre una zanja a las tres de la madrugada. Esta frase, dicha así, ofende a quien vende analítica como producto cerrado. Pero describe la realidad de los despliegues en perímetros industriales españoles que hemos auditado en los últimos cuatro años.

El debate público sobre inteligencia artificial en seguridad se ha desplazado a la arquitectura del modelo, al tamaño de los parámetros, al tipo de red. Es el debate equivocado. La diferencia entre una analítica que funciona en una nave de logística de Coslada y una que se desactiva al tercer mes está en los datos con los que se entrenó. No en el algoritmo. Los algoritmos son, en gran medida, mercancía. Los datos no lo son.

Lo que contienen COCO e ImageNet

COCO, acrónimo de Common Objects in Context, es un dataset publicado en 2014 por un consorcio que incluyó a Microsoft. Contiene alrededor de trescientas treinta mil imágenes con ochenta categorías de objetos cotidianos. Personas, coches, perros, bicicletas, sofás, sándwiches. Las imágenes proceden en su mayoría de Flickr, fotografías domésticas, escenas urbanas occidentales, condiciones de iluminación favorables. ImageNet, anterior y más amplio, contiene más de catorce millones de imágenes etiquetadas con miles de categorías, organizadas según la taxonomía de WordNet. Fue el dataset que hizo posible la revolución del aprendizaje profundo en visión por computador en torno a 2012.

Estos dos conjuntos, junto con derivados como Open Images de Google, Pascal VOC y los datasets de Cityscapes para conducción autónoma, son la base sobre la que se han entrenado prácticamente todos los modelos preentrenados que el mercado distribuye como punto de partida. Cuando un proveedor afirma que su cámara incorpora detección de personas con redes neuronales, está casi siempre describiendo un modelo cuya base de pesos viene de uno de estos datasets, ajustado quizá con un volumen modesto de imágenes adicionales. La base es pública. El ajuste, en el mejor de los casos, es propio.

Esto no es en sí mismo un problema. Un modelo preentrenado en COCO sirve como punto de partida razonable para muchas tareas. Detecta una persona en condiciones de luz diurna con una fiabilidad alta. Distingue un vehículo de un peatón. Identifica una bicicleta. Lo hace, además, sin coste de entrenamiento adicional, lo que ha permitido democratizar la analítica de vídeo y bajar los precios al nivel en que hoy se vende. El problema empieza cuando el entorno donde se despliega el modelo se aleja del entorno donde se recogieron las imágenes. Y los entornos de seguridad perimetral se alejan casi siempre.

La distancia entre el dataset y el perímetro real

Una obra civil en La Sagra a las seis de la mañana de noviembre, con niebla baja, contenedores apilados y operarios con chaleco reflectante, no aparece en COCO. Una subestación eléctrica de Red Eléctrica de noche, con iluminación de sodio, vallas perimetrales y vegetación irregular, no aparece en COCO. Un patio de maniobras de Adif con catenarias, balasto y operarios uniformados de naranja no aparece en COCO. Las imágenes que entrenaron al modelo son de día, con cielo despejado, objetos en primer plano y composición fotográfica. Las imágenes que el modelo verá en producción son nocturnas, oblicuas, parcialmente ocluidas, con lluvia sobre el cristal, con condensación, con telarañas en la lente, con la geometría plana de una cámara fija a cuatro metros de altura mirando hacia el suelo.

La consecuencia es predecible. El modelo genera falsos positivos sobre objetos que no debería marcar. Una bolsa de obra arrastrada por el viento se clasifica como persona. Un reflejo sobre un charco se interpreta como movimiento. Una sombra alargada al amanecer activa la alarma. A la inversa, genera falsos negativos sobre lo que sí debería ver. Un intruso agachado tras un palé queda fuera de detección porque la red nunca fue entrenada con personas en esa postura, en esa escala, en esa iluminación. Un operario con equipo de protección integral se confunde con un objeto.

Los operadores responden a este ruido del único modo posible: bajando la sensibilidad. Y al bajarla, anulan la analítica. El sistema sigue facturando, sigue grabando, sigue figurando en el inventario. Pero ha dejado de operar como detección y ha vuelto a ser videograbación pasiva. Es el patrón que CCN-CERT y, en el ámbito industrial, los responsables de continuidad operativa describen una y otra vez cuando se les pregunta por la eficacia real de las inversiones en videoanalítica. La cifra cualitativa es contundente: una mayoría amplia de los despliegues con analítica genérica termina desactivada o ignorada en menos de doce meses.

Por qué el ajuste fino no basta

La respuesta habitual del mercado a este problema es el ajuste fino, el llamado fine tuning. Se toma un modelo preentrenado en COCO, se le añaden algunos centenares de imágenes propias del entorno objetivo, se reentrena durante unas horas y se entrega como producto adaptado. La industria de la analítica vende esta operación como personalización. Y en cierto grado funciona, sobre todo si el cliente acepta una mejora incremental como suficiente.

El problema del ajuste fino con volúmenes pequeños es que no corrige los sesgos profundos del modelo base. Si la red ha aprendido durante millones de iteraciones que una persona es un cuerpo entero, erguido, en plano frontal, con buena iluminación, no se le quita ese sesgo añadiendo doscientas imágenes de personas agachadas en penumbra. Se le superpone una corrección débil que el propio entrenamiento posterior puede diluir. La red sigue prefiriendo, en su estructura interna, lo que aprendió primero. Es un fenómeno bien documentado en la literatura técnica como olvido catastrófico cuando es masivo, y como sesgo residual cuando es parcial.

Para que el ajuste fino sea estructuralmente eficaz, el volumen de datos del dominio específico debe ser comparable, en órdenes de magnitud, al del entrenamiento original. No idéntico, pero sí significativo. Y aquí aparece la cuestión que ningún proveedor de analítica genérica resuelve: ese volumen no lo tiene. Tiene quizá unos miles de imágenes anotadas de obras, de naves, de subestaciones. Comparados con los millones de COCO o ImageNet, son ruido estadístico. La consecuencia es que el modelo final hereda casi todas las debilidades del modelo base, con una capa cosmética encima.

Lo que sí funciona, y aquí entra la lógica que defendemos desde el libro BOSWAU + KNAUER. Del oficio constructor a la tecnología de seguridad, es invertir la relación. No partir de un modelo público y ajustarlo con datos propios. Partir de un modelo construido con la geometría real del problema, sobre datos recogidos en los escenarios donde se va a desplegar, con anotación específica para los eventos que importan en seguridad perimetral. El modelo base puede seguir aportando capas iniciales de extracción de características visuales. Pero las capas de decisión, las que determinan qué se considera evento, se entrenan desde cero con datos propios.

Qué significa construir un dataset propio

Construir un dataset propio no es una operación romántica. Es una operación industrial. Requiere flotas de cámaras desplegadas en los entornos objetivo durante meses, grabando con un propósito que va más allá de la videovigilancia operativa: el de generar variedad estadística suficiente para entrenar. Se necesitan distintas estaciones del año, distintas horas, distintos tipos de obra, distintos volúmenes de actividad. Se necesita captura en lluvia, en niebla, en deslumbramiento por sol bajo, en escarcha, en penumbra crepuscular. Se necesita captura con vegetación móvil, con animales, con maquinaria en movimiento, con operarios uniformados y sin uniformar.

Sobre ese material crudo se construye la anotación. Aquí está, en mi experiencia, el cuello de botella real de la industria. La anotación de seguridad perimetral no se puede subcontratar a plataformas genéricas de etiquetado masivo. No porque los anotadores no sean competentes, sino porque las categorías que importan en seguridad no son evidentes para quien no conoce el negocio. Un operario sobre una escalera no es un intruso. Un operario sobre una escalera a las tres de la madrugada en un perímetro cerrado sí lo es. La etiqueta no es la postura, es el contexto. Y el contexto se anota con criterio operativo, no con criterio puramente visual.

Las anotaciones útiles incluyen al menos cuatro capas. La capa de objeto, que identifica qué hay en la imagen. La capa de acción, que identifica qué está haciendo el objeto. La capa de contexto, que identifica dónde y cuándo. Y la capa de relevancia, que clasifica si el conjunto constituye o no un evento operativamente relevante. Esta última capa es la que no se puede automatizar. Requiere personas que han trabajado en perímetros, que conocen los protocolos del cliente, que entienden la diferencia entre una incidencia y un incidente.

En BOSWAU + KNAUER mantenemos un equipo de anotación interno precisamente por esto. Las imágenes que entran en nuestros modelos no las etiqueta una plataforma anónima. Las etiqueta personal que conoce obras, naves y patios. Esa decisión nos cuesta margen. Nos da, a cambio, modelos que distinguen lo que un cliente quiere que se distinga, no lo que un dataset público predefinió hace una década.

Privacidad, AEPD y la economía del dato propio

Construir datasets propios introduce una dimensión que la analítica genérica suele esquivar: la cuestión jurídica. Las imágenes que se utilizan para entrenar contienen, casi siempre, personas. La AEPD ha publicado criterios reiterados sobre el tratamiento de imágenes con fines de videovigilancia, y los criterios para el tratamiento con fines de entrenamiento de modelos están en plena consolidación. El Reglamento General de Protección de Datos y, ahora, el Reglamento Europeo de Inteligencia Artificial introducen obligaciones específicas para los sistemas que clasifican personas en función de su comportamiento, especialmente cuando se despliegan en infraestructuras críticas dentro del perímetro de actuación del CNPIC.

La consecuencia operativa es que un dataset propio bien construido no se limita a recoger imágenes. Incluye desde el primer momento las capas legales necesarias: base jurídica para la captura, anonimización cuando es posible, segregación entre datos de entrenamiento y datos operativos, registro de actividades de tratamiento, evaluación de impacto cuando corresponde. INCIBE ha publicado guías que orientan esta arquitectura, y los marcos sectoriales que vendrán en los próximos años obligarán a explicitarla.

Aquí aparece una ventaja que rara vez se calcula en las hojas de cálculo iniciales: un dataset propio es un activo. No es un coste hundido. Es un activo que se revaloriza con el tiempo, que crece con cada despliegue, que mejora los modelos siguientes sin necesidad de pagar licencias adicionales. Un dataset alquilado, o construido sobre bases públicas con licencia restrictiva, no lo es. Pertenece a otro, o pertenece al dominio público, lo que en términos competitivos es lo mismo.

La economía de la analítica perimetral está cambiando precisamente sobre este eje. Los fabricantes que controlan sus datos están construyendo una ventaja que los competidores con modelos genéricos no pueden replicar sin años de inversión paralela. No es una cuestión de algoritmos. Es una cuestión de patrimonio informacional.

Lo que permanece

Los datasets públicos seguirán siendo útiles como punto de partida. COCO, ImageNet, Open Images y sus derivados aportan capas iniciales de visión por computador que ningún fabricante racional reentrenaría desde cero. Pero el valor competitivo, la diferencia entre una analítica que dura cinco años en producción y una que se desactiva al tercer trimestre, no está en esas capas. Está en los datos propios, recogidos en los entornos objetivo, anotados por personas que conocen el negocio, gestionados con la arquitectura jurídica que el marco español exige.

Los operadores que han entendido esto antes que sus competidores tienen hoy una ventaja que se nota en las cifras de continuidad operativa y en las renovaciones contractuales. Los que sigan comprando analítica genérica empaquetada con la promesa de inteligencia artificial integrada acabarán, en su mayoría, desactivando funciones y reescribiendo presupuestos. La pregunta no es si esto ocurrirá. Es cuándo se notará en la cuenta de explotación.

Para quien quiera revisar su despliegue actual con criterio independiente, BOSWAU + KNAUER ofrece tres caminos descritos en Del oficio constructor a la tecnología de seguridad: una conversación confidencial de sesenta minutos, una auditoría de tres a cinco días con entregables definidos antes de empezar, o un piloto de noventa días sobre un emplazamiento concreto con criterios de éxito acordados de antemano. Los tres caminos están disponibles. La elección depende del grado de claridad que el operador ya tenga sobre su propia situación.

Preguntas frecuentes

¿Qué datasets públicos existen?

Los más utilizados en visión por computador para tareas de detección son COCO, con alrededor de trescientas treinta mil imágenes y ochenta categorías; ImageNet, con más de catorce millones de imágenes y miles de categorías; Open Images de Google, comparable en volumen; Pascal VOC, históricamente relevante aunque hoy menor; y Cityscapes, orientado a entornos urbanos y conducción autónoma. Para reconocimiento facial existen otros conjuntos, como VGGFace2 o LFW, con restricciones de uso significativas. Todos comparten la característica de haberse construido para tareas genéricas, no para seguridad perimetral industrial.

¿Cuáles son sus límites?

Los límites principales son tres. Primero, sesgo de dominio: las imágenes proceden mayoritariamente de escenarios cotidianos, no de entornos industriales nocturnos. Segundo, sesgo de composición: las imágenes están fotografiadas con criterios estéticos, no con la geometría plana de una cámara perimetral fija. Tercero, sesgo de etiqueta: las categorías reflejan objetos cotidianos, no eventos operativamente relevantes en seguridad. La consecuencia es que los modelos entrenados sobre estos datasets generan ruido sistemático cuando se despliegan en perímetros reales, lo que lleva a desactivar la analítica o bajarla a niveles de sensibilidad irrelevantes.

¿Cómo se construyen propios?

Se construyen desplegando capacidad de captura en los entornos objetivo durante meses, asegurando variedad estacional, horaria y climática. Sobre el material crudo se aplica anotación en capas: objeto, acción, contexto y relevancia operativa. Se mantiene segregación entre datos de entrenamiento y datos operativos, con la base jurídica que la AEPD exige para tratamiento con fines de mejora del modelo. El proceso no es lineal: cada despliegue alimenta el dataset, y cada nueva versión del modelo se valida contra escenarios reales antes de pasar a producción. La inversión inicial es alta, el activo resultante es propiedad del fabricante.

¿Quién los etiqueta?

La etiqueta útil para seguridad perimetral no la genera una plataforma anónima de etiquetado masivo. La genera personal con experiencia operativa en obras, naves industriales, patios de maniobras y subestaciones, capaz de distinguir entre una incidencia rutinaria y un evento de seguridad. En BOSWAU + KNAUER mantenemos equipo interno por este motivo. La anotación se valida cruzando criterios entre anotadores y revisando los desacuerdos con responsables operativos del cliente cuando el proyecto lo permite. Esta arquitectura cuesta margen y aporta modelos que funcionan donde los modelos genéricos se desactivan.

Sobre el autor

El Dr. Raphael Nagel (LL.M.) es socio fundador de Tactical Management. Adquiere y reestructura empresas industriales en mercados exigentes y escribe sobre capital, geopolítica y transformación tecnológica. raphaelnagel.com

Más lectura

El secreto silencioso de la vigilancia privada en España: el absentismo del tercer turno

29 de abril de 2026