A pesar de los esfuerzos que se han venido realizando, las personas que no pueden hablar o escuchar o ninguna de ambas cosas, tienen dificultades para comunicarse en situaciones en las que no sea posible recurrir al texto escrito y no esté disponible un intérprete del lenguaje de signos empleado.
Últimamente se han desarrollado diferentes enfoques para tratar de resolver este problema.
Un grupo de investigadores de la Facultad de Informática de la Universidad del País Vasco (UPV/EHU) ha desarrollado un sistema de reconocimiento de la lengua de signos argentina que utiliza puntos de referencia de la mano extraídos de videos con el fin de distinguir entre diferentes signos.
Han realizado varios experimentos de los que se han obtenido resultados prometedores.
El estudio lo han llevado a cabo los investigadores Itsaso Rodríguez-Moreno, José María Martínez-Otzeta, Izaro Goienetxea y Basilio Sierra
Unos 70 millones de personas utilizan como primera lengua alguna de las más de 300 lenguas de signos que existen.
Sin embargo, tal como argumenta Basilio Sierra, catedrático del Departamento de Ciencias de la Computación e Inteligencia Artificial, como el conocimiento de las lenguas de signos no está extendido por todo el mundo, estas personas suelen tener dificultades para comunicarse en diferentes escenarios, y su interacción en la vida diaria se complica cuando no hay un intérprete que les ayude con la traducción.
Para tratar de resolver estos problemas, últimamente se han desarrollado muchos enfoques diferentes en el campo del reconocimiento automático del lenguaje de signos.
Algunos de estos enfoques son un poco intrusivos, ya que requieren que el signante (persona que usa el lenguaje de signos) utilice algún tipo de dispositivo para que el sistema sea capaz de interpretar lo que está diciendo.
Las lenguas de signos, tal como explica Itsaso Rodríguez, tienen, al igual que las lenguas orales, sus propias estructuras lingüísticas y son bastante difíciles de traducir a lenguas habladas debido a diferentes aspectos.
Cada lengua de signos está compuesta por miles de signos diferentes que muchas veces difieren por pequeños cambios.
Por ejemplo, algunos signos tienen la misma configuración de manos, pero diferente orientación.
Además, a veces el significado de un signo puede cambiar según el contexto o la frase en la que se utilice.
La expresión facial también es crucial para diferenciar algunos de los signos, lo que es muy importante, por ejemplo, a la hora de hacer frases interrogativas.
Por lo tanto, algunos signos difieren solo en pequeños detalles, como la configuración de la mano, el movimiento, la posición, la expresión facial o incluso el contexto.
Sin embargo, añade Basilio Sierra, varios signos se parecen mucho a los gestos que realizaría un oyente no experto para describir una acción.
Y, en la mayoría de los casos la relación signo-objeto es arbitraria y no tienen ninguna referencia visual.
“Otras características de las lenguas de signos son, por ejemplo, que el orden de las palabras puede ser diferente según el contexto o que algunos verbos no se signan.
También hay que tener en cuenta la ortografía dactilar, en la que las palabras se deletrean si no se conoce el signo de esa palabra.
El deletreo con los dedos se utiliza sobre todo para los nombres propios.
Hay muchas otras características que hacen que el reconocimiento del lenguaje de signos sea una tarea compleja, aunque no mencionamos todas en el estudio”.
Así, en este trabajo se presenta un enfoque para el reconocimiento de la lengua de signos basado en video.
“Como primer paso del proceso, se componen unas señales con las posiciones extraídas por MediaPipe (solución de detección facial ultrarrápida), que representan un conjunto de articulaciones de la mano que está realizando el signo.
A continuación, estas señales se transforman utilizando el algoritmo Common Spatial Patterns, un algoritmo de reducción de la dimensionalidad ampliamente utilizado en las señales de electroencefalograma.
Common Spatial Patterns también se ha aplicado en el campo de la electrocardiografía, la electromiografía o incluso en imágenes astronómicas para la detección de planetas, y recientemente se ha utilizado en tareas de reconocimiento de acciones en video obteniendo resultados alentadores.
Este enfoque permite un cálculo de forma cerrada y por lo tanto no es necesario decidir los criterios de terminación como ocurre en métodos iterativos ampliamente aplicados, por ejemplo, el descenso de gradiente en el aprendizaje profundo.”
En el nuevo estudio se presenta un enfoque de reconocimiento de la lengua de signos, en el que se utilizan videos de un conjunto de datos de la lengua de signos argentina.
“Para cada fotograma de video se obtienen varios puntos de referencia de la mano mediante la mencionada tecnología MediaPipe.
Estos puntos de referencia de la mano se utilizan para crear un conjunto de señales para cada video.
El algoritmo ya comentado Common Spatial Patterns se utiliza para transformar estas señales y después de extraer algunas características de las mismas (valores de varianza, máximo, mínimo y rango intercuartílico) se realiza la clasificación.
Para la clasificación se han utilizado diferentes clasificadores.
Hay que mencionar que el enfoque presentado no es intrusivo, ya que no es necesario colocar ningún tipo de dispositivo a los signantes, lo que hace que el sistema sea más cómodo para ellos.
Fuente: PLoS ONE