Un científico ruso de Google que ha desarrollado la manera de utilizar la inteligencia artificial para hacer la vida más fácil a las personas sordas.
La Organización Mundial de la Salud estima que para el año 2055, habrá 900 millones de personas con pérdidas de audición.
Pero gracias a la tecnología, y a la inteligencia artificial (IA), se desarrollan soluciones que son capaces de derribar barreras y hacerles la vida un poco más fácil a las personas con este tipo de discapacidad.
Euphonia o Parrotron son dos de las iniciativas que apuntan a solucionar en parte estos problemas, y que tienen como uno de sus creadores a un ingeniero ruso de Google llamado Dimitri Kanevsky.
Dimitri Kanevsky comenzó su carrera en Google trabajando en algoritmos de reconocimiento de voz para YouTube.
Pero antes de unirse a Google, fue miembro del personal de Investigación en el Departamento de Algoritmos de Habla y Lenguaje en el Centro de Investigación Watson en IBM.
Previamente, trabajó en varios centros de matemáticas superiores, como el Instituto de Ciencias Weizmann, el Instituto Max Planck en Alemania y el Instituto de Estudios Avanzados de Princeton.
Actualmente posee 274 patentes en los Estados Unidos.
Nació en Rusia de padres con una audición normal, pero ha sido sordo desde muy joven.
Aprendió a hablar inglés cuando era adolescente, usando representaciones fonéticas rusas de palabras en inglés, aprendiendo a pronunciar inglés usando la transliteración al ruso.
Ver y oir hablar a Dimitri, ayudado por uno de sus artilugios que le permiten comunicarse con el resto de las personas gracias a su proyecto Euphonia, resulta absolutamente espectacular.
Con Live Transcribe, que está disponible en más de 70 idiomas y dialectos, la voz de Dimitri se convertía en subtítulos en tiempo real usando sólo el micrófono de su teléfono.
La misma solución permitía las conversaciones bidireccionales a través de un teclado, que se conectaba con micrófonos externos para mejorar la precisión de la transcripción.
Pero Euphonia no está sólo.
Parrotron es otro de los proyectos, desarrollados con técnicas de inteligencia artificial, para la comunicación verbal de personas con impedimentos del habla.
Para los millones de personas que viven con impedimentos del habla causados por condiciones físicas o neurológicas, tratar de comunicarse con otros puede ser difícil y provocar frustración.
Si bien ha habido una gran cantidad de avances recientes en las tecnologías de reconocimiento automático de voz, estas interfaces pueden ser inaccesibles para las personas con impedimentos del habla.
Además, las aplicaciones que dependen del reconocimiento de voz como entrada para la síntesis de texto a voz pueden exhibir errores de sustitución, eliminación e inserción de palabras.
Críticamente, en el entorno tecnológico actual, el acceso limitado a las interfaces de voz, como los asistentes digitales que dependen de la comprensión directa de la voz, significa estar excluido de las herramientas y experiencias de vanguardia, ampliando la brecha entre lo que aquellos con y sin voz.
Parrotron integra una única red neuronal profunda de extremo a extremo entrenada para convertir el habla de un hablante con patrones de habla atípicos directamente en habla sintetizada fluida, sin un paso intermedio de generar texto, omitiendo por completo el reconocimiento de voz.
El enfoque de este proyecto se centra en el habla, mirando el problema solo desde el punto de vista de las señales del habla, por ejemplo, sin señales visuales como los movimientos de los labios.
De esta manera Parrotron puede ayudar a las personas con una variedad de patrones de habla atípicos, incluidos aquellos con ELA, sordera y distrofia muscular, para que se entiendan mejor tanto en las interacciones de persona a persona como en los sistemas de reconocimiento de voz automático.
Para demostrar la validez del proyecto Parrotron sus creadores trabajaron con Dimitri Kanevsky, quien grabó 15 horas de discurso que se utilizaron para adaptar su modelo base a los matices específicos de su discurso.
El sistema Parrotron resultante lo ayudó a ser mejor entendido tanto por las personas como por el reconocimiento de voz automático, lo que redujo significativamente la tasa de error de palabras del 89% al 32%.
Fuente: Muy Interesante