Investigadores crean software para leer los labios

Investigadores crean software para leer los labios

Comparta este Artículo en:

Uno de los momentos más inquietantes de 2001: Una odisea del espacio es cuando se revela que HAL 9000 puede leer los labios, no dejando secretos entre los astronautas y el computador de la nave.

Eso podría haber sido ciencia ficción, pero 15 años después de los acontecimientos de esa película, los investigadores en el mundo real finalmente han enseñado a los computadores cómo leer los labios.

LipNet, desarrollado por investigadores del Departamento de Ciencias de la Computación de la Universidad de Oxford, no es el primer software diseñado para predecir lo que dice una persona analizando el movimiento de sus labios.

Pero es con mucho el más exacto, logrando un impresionante 93,4 por ciento de precisión, en comparación con el 52 por ciento de precisión lograda por un lector de labios humano con experiencia.

Lipreading es la tarea de decodificar texto del movimiento de la boca de un orador.

Los enfoques tradicionales separaron el problema en dos etapas: diseñar o aprender características visuales y predicción.

Los enfoques más recientes de lipreading profundo son completos de extremo a extremo.

Todas las obras existentes, sin embargo, sólo realizan la clasificación de palabras, no la predicción de secuencias a nivel de oración.
Feel free to contact us / Always a question “viagra without rx or Silagra” arises in the mind of man when he want to purchase a drug like this one. This does not necessary mean that buying generic drugs in purchase levitra preference to branded counterparts is a bad habit for everyone. You can’t change the past.” To those people, I say this book will generic tadalafil tablets slovak-republic.org show you why it is so popular. Man can viagra without prescription pretend but fails in performing in bedroom which makes him feel guilty.
Los estudios han demostrado que el rendimiento humano de la lectura de los labios aumenta para las palabras más largas, indicando la importancia de las características que capturan el contexto temporal en un canal de comunicación ambiguo.

Motivado por esta observación, LipNet es un modelo que mapea una secuencia de longitud variable de fotogramas de video a texto, haciendo uso de convoluciones espacio-temporales, una red recurrente de LSTM y la pérdida de clasificación temporal conexionista, entrenado enteramente de extremo a extremo.

Entonces, ¿qué significa todo eso? Sobre la base de la investigación anterior, científicos de computación se dieron cuenta de que los seres humanos son mejores en la lectura de los labios, y descifran lo que se dice, cuando se hablan palabras más largas.

Así que en lugar de analizar las imágenes de alguien que habla sobre una base de palabra por palabra, LipNet va un paso más allá, tomando en consideración frases enteras, utilizando técnicas de aprendizaje profundo para luego retroceder y descifrar cada palabra.

Funcionando en un teléfono inteligente, registrando en vivo de la cámara, LipNet podría servir como una herramienta increíble para los discapacitados auditivos.

Incluso si ya saben cómo leer los labios, podría ayudar a impulsar su comprensión mientras miran a alguien hablar.

Y aquellos sin habilidades de lectura de labios no se sentirían frustrados cuando una persona con la que están hablando no conoce el lenguaje de señas.

Fuente: Gizmodo

Leave a Reply

Your email address will not be published. Required fields are marked *