Categorías: Tecnología

Rompiendo barreras: IA para interpretar el lenguaje de señas americano en tiempo real

Comparta este Artículo en:

El lenguaje de señas es un medio de comunicación sofisticado y vital para las personas sordas o con problemas de audición, que se basa en movimientos de las manos, expresiones faciales y lenguaje corporal para transmitir significados matizados.

El lenguaje de señas americano ejemplifica esta complejidad lingüística con su gramática y sintaxis distintivas.

El lenguaje de señas no es universal; más bien, hay muchos lenguajes de señas diferentes que se utilizan en todo el mundo, cada uno con su propia gramática, sintaxis y vocabulario, lo que resalta la diversidad y complejidad de los lenguajes de señas a nivel mundial.

Se están explorando varios métodos para convertir los gestos de las manos en lenguaje de señas en texto o lenguaje hablado en tiempo real.

Para mejorar la accesibilidad de la comunicación para las personas sordas o con problemas de audición, existe la necesidad de un sistema confiable en tiempo real que pueda detectar y rastrear con precisión los gestos del lenguaje de señas americano.

Este sistema podría desempeñar un papel clave en la eliminación de las barreras de comunicación y garantizar interacciones más inclusivas.

Para abordar estas barreras de comunicación, investigadores de la Facultad de Ingeniería y Ciencias de la Computación de la Universidad Atlántica de Florida realizaron un estudio pionero centrado en el reconocimiento de los gestos del alfabeto de la lengua de señas estadounidense mediante visión artificial.

Desarrollaron un conjunto de datos personalizado de 29.820 imágenes estáticas de gestos de la mano en lengua de señas estadounidense.

Mediante MediaPipe, cada imagen se anotó con 21 puntos de referencia clave en la mano, lo que proporcionó información espacial detallada sobre su estructura y posición.

Estas anotaciones desempeñaron un papel fundamental en la mejora de la precisión de YOLOv8, el modelo de aprendizaje profundo que entrenaron los investigadores, al permitirle detectar mejor las diferencias sutiles en los gestos de la mano.

Los resultados del estudio revelan que al aprovechar esta información detallada sobre la postura de la mano, el modelo logró un proceso de detección más refinado, capturando con precisión la compleja estructura de los gestos de la lengua de señas estadounidense.

La combinación de MediaPipe para el seguimiento del movimiento de la mano con YOLOv8 para el entrenamiento dio como resultado un sistema potente para reconocer los gestos del alfabeto de la lengua de señas estadounidense con gran precisión.

“La combinación de MediaPipe y YOLOv8, junto con el ajuste fino de los hiperparámetros para lograr la mejor precisión, representa un enfoque innovador y revolucionario“, afirmó Bader Alsharif, primer autor y candidato a doctorado en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación de la FAU.

“Este método no se ha explorado en investigaciones anteriores, lo que lo convierte en una dirección nueva y prometedora para futuros avances”.

Los hallazgos muestran que el modelo funcionó con una precisión del 98 %, la capacidad de identificar correctamente los gestos (recuerdo) fue del 98 % y una puntuación de rendimiento general (puntuación F1) del 99 %.

También logró una precisión promedio (mAP) media del 98 % y una puntuación mAP50-95 más detallada del 93 %, lo que destaca su gran confiabilidad y precisión en el reconocimiento de gestos en lenguaje de señas estadounidense.

“Los resultados de nuestra investigación demuestran la capacidad de nuestro modelo para detectar y clasificar con precisión los gestos en lenguaje de señas estadounidense con muy pocos errores“, afirmó Alsharif.

“Es importante destacar que los hallazgos de este estudio no solo enfatizan la solidez del sistema, sino también su potencial para ser utilizado en aplicaciones prácticas en tiempo real para permitir una interacción hombre-computadora más intuitiva”.

La integración exitosa de las anotaciones de puntos de referencia de MediaPipe en el proceso de entrenamiento de YOLOv8 mejoró significativamente tanto la precisión del cuadro delimitador como la clasificación de gestos, lo que permitió que el modelo capturara variaciones sutiles en las posturas de las manos.

Este enfoque de dos pasos de seguimiento de puntos de referencia y detección de objetos resultó esencial para garantizar la alta precisión y eficiencia del sistema en escenarios del mundo real.

La capacidad del modelo para mantener altas tasas de reconocimiento incluso bajo diferentes posiciones y gestos de las manos resalta su fortaleza y adaptabilidad en diversos entornos operativos.

“Nuestra investigación demuestra el potencial de combinar algoritmos avanzados de detección de objetos con el seguimiento de puntos de referencia para el reconocimiento de gestos en tiempo real, ofreciendo una solución confiable para la interpretación del lenguaje de señas estadounidense“, dijo Mohammad Ilyas, Ph.D., coautor y profesor del Departamento de Ingeniería Eléctrica y Ciencias de la Computación de la FAU.

“El éxito de este modelo se debe en gran medida a la cuidadosa integración del aprendizaje por transferencia, la creación meticulosa de conjuntos de datos y el ajuste preciso de los hiperparámetros.

Esta combinación ha llevado al desarrollo de un sistema altamente preciso y confiable para reconocer los gestos del lenguaje de señas americano, lo que representa un hito importante en el campo de la tecnología de asistencia”.

Los esfuerzos futuros se centrarán en ampliar el conjunto de datos para incluir una gama más amplia de formas y gestos de las manos para mejorar la capacidad del modelo de diferenciar entre gestos que pueden parecer visualmente similares, mejorando así aún más la precisión del reconocimiento.

Además, la optimización del modelo para su implementación en dispositivos periféricos será una prioridad, garantizando que conserve su rendimiento en tiempo real en entornos con recursos limitados.

“Al mejorar el reconocimiento del lenguaje de señas americano, este trabajo contribuye a crear herramientas que pueden mejorar la comunicación para la comunidad sorda y con problemas de audición“, dijo Stella Batalama, Ph.D., decana de la Facultad de Ingeniería y Ciencias de la Computación de la FAU.

“La capacidad del modelo para interpretar gestos de manera confiable abre la puerta a soluciones más inclusivas que apoyan la accesibilidad, haciendo que las interacciones diarias, ya sea en la educación, la atención médica o los entornos sociales, sean más fluidas y efectivas para las personas que dependen del lenguaje de señas.

Este progreso es muy prometedor para fomentar una sociedad más inclusiva donde se reduzcan las barreras de comunicación”.

Fuente: Franklin Open

 

Editor PDM

Entradas recientes

Mano robótica capaz de manipular objetos

Recientemente, Sanctuary AI presentó su mano robótica que ahora es capaz de manipular objetos. (more…)

13 hours hace

Robots atraviesan entornos complejos sin sensores adicionales ni entrenamiento previo en terrenos difíciles

Especialistas en robótica de la Universidad de Leeds y el University College de Londres han…

13 hours hace

Dispositivo ayuda a personas con discapacidad visual a realizar tareas de localización tan bien como las personas videntes

Según un nuevo estudio dirigido por el Imperial College, una tecnología de navegación que utiliza…

13 hours hace

Google lanza una versión de Gemini 2.0 capaz de razonar

Gemini 2.0 Flash Thinking Experimental es una nueva versión de la IA de Google que…

13 hours hace

El siguiente paso de la computación cuántica: un nuevo algoritmo potencia la multitarea

Las computadoras cuánticas difieren fundamentalmente de las clásicas. En lugar de utilizar bits (0 y…

2 days hace

Desbloqueando la “caja negra”: revelan los pensamientos ocultos de la IA

Las redes neuronales profundas son un tipo de inteligencia artificial (IA) que imita la forma…

2 days hace
Click to listen highlighted text!