Transforman la percepción de las manos humanas por parte de los sistemas de IA

Transforman la percepción de las manos humanas por parte de los sistemas de IA

Comparta este Artículo en:

Lograr que los sistemas de inteligencia artificial perciban a los humanos de manera robusta sigue siendo uno de los desafíos más complejos en el campo de la visión artificial.

Uno de los problemas más complejos es reconstruir modelos 3D de manos humanas, una tarea con amplias aplicaciones en robótica, animación, interacción hombre-computadora y realidad aumentada y virtual.

La dificultad radica en la naturaleza de las propias manos, que a menudo quedan ocultas cuando se sostienen objetos o se contorsionan en orientaciones difíciles durante tareas como agarrar.

En el Instituto de Robótica de la Universidad Carnegie Mellon, se diseña un nuevo modelo, Hamba, que se presentó en la 38.ª Conferencia Anual sobre Sistemas de Procesamiento de Información Neural (NeurIPS 2024) en Vancouver.

Hamba ofrece un enfoque particularmente interesante para reconstruir manos 3D a partir de una sola imagen, sin necesidad de tener conocimientos previos de las especificaciones de la cámara o del contexto del cuerpo de la persona.

Lo que distingue a Hamba es que se aleja de las arquitecturas convencionales basadas en transformadores.

En cambio, aprovecha el modelado del espacio de estados basado en Mamba, lo que marca la primera vez que se aplica un enfoque de este tipo a la reconstrucción de formas articuladas en 3D.

El modelo también perfecciona el proceso de escaneo original de Mamba al introducir un escaneo bidireccional guiado por gráficos, que utiliza las capacidades de aprendizaje de gráficos de las redes neuronales de gráficos para capturar las relaciones espaciales entre las articulaciones de la mano con una precisión notable.

Hamba logra un rendimiento de vanguardia en puntos de referencia como FreiHAND, con un error posicional medio por vértice de solo 5,3 milímetros, una precisión que subraya su potencial para aplicaciones del mundo real.

Además, Hamba ocupa la primera posición (rango 1) en dos clasificaciones de competencia para la reconstrucción de manos en 3D.

Más allá de sus logros técnicos, Hamba tiene implicaciones más amplias para la interacción hombre-computadora.

Al permitir que las máquinas perciban e interpreten mejor las manos humanas, sienta las bases para futuros sistemas de Inteligencia Artificial General (AGI) y robots capaces de comprender las emociones e intenciones humanas con mayor matiz.

De cara al futuro, el equipo de investigación planea abordar las limitaciones del modelo y explorar su potencial para reconstruir modelos humanos tridimensionales de cuerpo completo a partir de imágenes individuales, otro desafío importante con amplias aplicaciones en industrias que van desde la atención médica hasta el entretenimiento.

Con su combinación única de precisión técnica y utilidad práctica, Hamba ejemplifica cómo la inteligencia artificial continúa ampliando los límites de cómo las máquinas pueden percibir a los humanos.

Fuente: arXiv

 

Leave a Reply

Your email address will not be published. Required fields are marked *