Un analizador de vídeo impulsado por IA establece nuevos estándares en la detección de acciones humanas.
¿Qué pasaría si una cámara de seguridad no solo pudiera capturar video, sino también entender lo que está sucediendo, distinguiendo entre actividades rutinarias y comportamientos potencialmente peligrosos en tiempo real?
Ese es el futuro que están dando forma investigadores de la Facultad de Ingeniería y Ciencias Aplicadas de la Universidad de Virginia con su último avance: un analizador de video inteligente impulsado por IA capaz de detectar acciones humanas en secuencias de video con una precisión e inteligencia sin precedentes.
El sistema, llamado Red de Transformadores Espaciotemporales Semánticos y Conscientes del Movimiento (SMAST), promete una amplia gama de beneficios sociales, desde mejorar los sistemas de vigilancia y la seguridad pública hasta permitir un seguimiento de movimiento más avanzado en la atención sanitaria y refinar la forma en que los vehículos autónomos navegan por entornos complejos.
“Esta tecnología de IA abre las puertas a la detección de acciones en tiempo real en algunos de los entornos más exigentes“, dijo el profesor y director del Departamento de Ingeniería Eléctrica e Informática, Scott T. Acton, e investigador principal del proyecto.
“Es el tipo de avance que puede ayudar a prevenir accidentes, mejorar los diagnósticos e incluso salvar vidas”.
Entonces, ¿cómo funciona? En esencia, SMAST está impulsado por inteligencia artificial.
El sistema se basa en dos componentes clave para detectar y comprender comportamientos humanos complejos.
El primero es un modelo de atención selectiva con múltiples funciones, que ayuda a la IA a centrarse en las partes más importantes de una escena (como una persona u objeto) mientras ignora los detalles innecesarios.
Esto hace que el sistema sea más preciso a la hora de identificar lo que está sucediendo, como reconocer a alguien que lanza una pelota en lugar de simplemente mover el brazo.
La segunda característica clave es un algoritmo de codificación posicional 2D con reconocimiento de movimiento, que ayuda a la IA a rastrear cómo se mueven las cosas a lo largo del tiempo.
Imagine ver un video en el que las personas cambian de posición constantemente: esta herramienta ayuda a la IA a recordar esos movimientos y comprender cómo se relacionan entre sí.
Al integrar estas funciones, SMAST puede reconocer con precisión acciones complejas en tiempo real, lo que lo hace más eficaz en escenarios de alto riesgo como la vigilancia, el diagnóstico de atención médica o la conducción autónoma.
SMAST redefine la forma en que las máquinas detectan e interpretan las acciones humanas.
Los sistemas actuales tienen problemas con secuencias de video contiguas, caóticas y sin editar, que a menudo pierden el contexto de los eventos.
Pero el diseño innovador de SMAST le permite capturar las relaciones dinámicas entre personas y objetos con una precisión notable, impulsada por los mismos componentes de IA que le permiten aprender y adaptarse a partir de los datos.
Este salto tecnológico significa que el sistema de IA puede identificar acciones como un corredor que cruza una calle, un médico que realiza un procedimiento preciso o incluso una amenaza de seguridad en un espacio lleno de gente.
SMAST ya ha superado las soluciones de primer nivel en los principales puntos de referencia académicos, incluidos AVA, UCF101-24 y EPIC-Kitchens, estableciendo nuevos estándares de precisión y eficiencia.
“El impacto social podría ser enorme“, dijo Matthew Korban, un investigador asociado postdoctoral en el laboratorio de Acton que trabaja en el proyecto.
“Estamos emocionados de ver cómo esta tecnología de IA podría transformar las industrias, haciendo que los sistemas basados en video sean más inteligentes y capaces de comprender en tiempo real”.
Fuente: IEEE Xplore