Inteligencia artificial de Facebook puede aprender el habla sin transcripciones humanas

Comparta este Artículo en:

Podría ayudar a llevar traducciones automáticas a más países.

El reconocimiento de voz es un engranaje importante en la maquinaria de inteligencia artificial.

La tecnología impulsa los asistentes digitales en nuestros teléfonos, en los automóviles y en los parlantes inteligentes de nuestros hogares.

Pero, a pesar de su ubicuidad, el reconocimiento de voz todavía es un trabajo en progreso.

Facebook está presagiando un gran avance en la forma en que entrena estos sistemas para aprender nuevos idiomas.

La compañía dice que ha desarrollado un método para crear herramientas de reconocimiento de voz que no requieren datos transcritos.

Según Facebook, su novedoso sistema puede liberar a la tecnología de su dependencia de la entrada de texto a voz.

La tarea que lleva mucho tiempo implica que los humanos escuchen y transcriban horas de audio, un proceso monótono que debe repetirse para cada idioma.

Mientras que el sistema “no supervisado” de Facebook aprende puramente del audio del habla y del texto no emparejado para darle una mejor idea de cómo suena la comunicación humana.

El modelo de Facebook se basa esencialmente en un circuito de retroalimentación entre una red generativa de adversarios (GAN) compuesta por un “generador” y un “discriminador“.

El primero escupe representaciones de patrones de habla cargados que parecen un galimatías completo hasta que pasan por la red discriminadora correspondiente, que actúa como una especie de traductor.

For example, in http://donssite.com/Four-horses-and-pony-in-field-Caledonia-Ontario.htm cost of viagra 100mg the Oprah.com online community, the berry is described as the number one super food. Leg Length and Back Pain In two exquisitely designed studies (1962 and 1983), Denslow and Chase measured leg-length discrepancy in wholesale cialis 361 and 294 subjects presenting with low back uneasiness. In his study published buy cialis pharmacy in the British Journal of Urology International. Is not that crazy? 1600kr – 2000 SEK per month in order to have sex like everyone else? It cialis online pharmacy feels like there is something not quite right.

Al mismo tiempo, Facebook ingresa texto adicional escrito por humanos para ayudar al generador a distinguir la diferencia entre los resultados computarizados y del mundo real.

Este proceso se repite hasta que la salida del generador coincide con el texto real.

Facebook dice que su método le ha permitido crear sistemas de reconocimiento de voz sin ningún conjunto de datos anotados.

La compañía ya ha probado el modelo, conocido como Wav2vec-U (la U significa no supervisado), en swahili, kirguistán (hablado en la República de Kirguistán de Asia Central) y tártaro de Crimea, todos los cuales carecen de herramientas de reconocimiento de voz de alta calidad debido a una disparidad de datos de entrenamiento.

Las pruebas de Facebook mostraron que el sistema arrojó un 63 por ciento menos de errores que el siguiente mejor método sin supervisión.

Agrega que la herramienta es tan precisa como los sistemas supervisados de hace unos años.

Para acelerar su desarrollo, Facebook ha compartido el código de Wav2vec-U en GitHub.

La compañía dice que el avance podría marcar el comienzo de sistemas de reconocimiento de voz para más idiomas y dialectos en todo el mundo, ayudando a democratizar la tecnología.

Naturalmente, se beneficiará de esta proliferación: más del 76 por ciento de los 2.850 millones de usuarios mensuales de Facebook se encuentran fuera de América del Norte y Europa.

Y la traducción automática es fundamental para su objetivo de conectar a miles de millones de personas a través de su idioma preferido.

Fuente: Engadget