Inteligencia artificial puede hablar con la voz de Bill Gates

Comparta este Artículo en:

La voz de las máquinas es algo decepcionante. Incluso los mejores sistemas de texto a voz tienen una calidad mecánica y carecen de los cambios básicos en la entonación que usan los humanos.

El sistema de habla muy copiado de Stephen Hawking es un buen ejemplo.

Eso es una sorpresa dado los enormes avances en aprendizaje automático en los últimos años.

Seguramente las técnicas que han funcionado tan bien en el reconocimiento de caras y objetos y luego en la producción de imágenes realistas deberían funcionar igualmente bien con el audio. Realmente no.

Al menos, no hasta hoy.

Sean Vasquez y Mike Lewis en Facebook AI Research han encontrado una manera de superar las limitaciones de los sistemas de conversión de texto a voz para producir clips de audio increíblemente reales generados completamente por la máquina.

Su máquina, llamada MelNet, no solo reproduce la entonación humana, sino que puede hacerlo con la misma voz que personas reales.

Así que el equipo lo entrenó para hablar como Bill Gates, entre otros.

El trabajo abre la posibilidad de una interacción más realista entre humanos y computadoras, pero también levanta el espectro de una nueva era de contenido de audio falso.

Primero algunos antecedentes.

El lento progreso en sistemas realistas de texto a voz no es por falta de intentos.

Numerosos equipos han intentado entrenar algoritmos de aprendizaje profundo para reproducir patrones de voz reales utilizando grandes bases de datos de audio.

El problema con este enfoque, dicen Vásquez y Lewis, es con el tipo de datos.

Hasta ahora, la mayoría del trabajo se ha centrado en las grabaciones de forma de onda de audio.

Estas muestran cómo la amplitud del sonido cambia con el tiempo, y cada segundo de audio grabado consta de decenas de miles de pasos de tiempo.

Estas formas de onda muestran patrones específicos en varias escalas diferentes.

Durante unos pocos segundos de habla, por ejemplo, la forma de onda refleja los patrones característicos asociados con secuencias de palabras.

Pero en la escala de microsegundos, la forma de onda muestra características asociadas con el tono y el timbre de la voz.

Y en otras escalas, la forma de onda refleja la entonación del hablante, la estructura del fonema, etc.

Otra forma de pensar acerca de estos patrones es como correlaciones entre la forma de onda en un paso de tiempo y el siguiente paso de tiempo.

Entonces, para una escala de tiempo dada, el sonido al comienzo de una palabra se correlaciona con los sonidos que siguen.

Los sistemas de aprendizaje profundo deberían ser buenos para aprender este tipo de correlaciones y reproducirlas.

El problema es que las correlaciones actúan en diferentes escalas de tiempo, y los sistemas de aprendizaje profundo pueden estudiar las correlaciones solo en escalas de tiempo limitadas.

Esto se debe a un tipo de proceso de aprendizaje que emplean, llamado backpropagation, que vuelve a cablear la red repetidamente para mejorar su rendimiento sobre la base de los ejemplos que ve.

La tasa de repetición limita la escala de tiempo en la que se pueden aprender las correlaciones.

Por lo tanto, una red de aprendizaje profundo puede aprender correlaciones en formas de onda de audio en escalas de tiempo largas o cortas, pero no en ambas.

Es por eso que se desempeñan tan mal en la reproducción del habla.

Vásquez y Lewis tienen un enfoque diferente.

Who can suffer with ED? Typically associated with older men, men of any viagra prices age can suffer from the condition of ED. In any case, after levitra no prescription http://www.opacc.cv/lista_de_associados_scc.htm then lamentably the men’s sexual health and other health conditions. Reduced quality generic cialis pill of motor response such as coordination, balance, or sequencing. Cheap caverta 100mg is anticipated to enhance virility viagra pills from india among men going through from sexual barrier condition called erectile dysfunction.

En lugar de formas de onda de audio, utilizan espectrogramas para entrenar su red de aprendizaje profundo.

Los espectrogramas graban todo el espectro de frecuencias de audio y cómo cambian con el tiempo.

Entonces, mientras que las formas de onda capturan el cambio en el tiempo de un parámetro, la amplitud, los espectrogramas capturan el cambio en un amplio rango de diferentes frecuencias.

Esto significa que la información de audio se incluye más densamente en este tipo de representación de datos.

“El eje temporal de un espectrograma es un orden de magnitud más compacto que el de una forma de onda, es decir, las dependencias que abarcan decenas de miles de pasos de tiempo en las formas de onda solo abarcan cientos de pasos de tiempo en espectrogramas”, dicen Vásquez y Lewis.

Eso hace que las correlaciones sean más accesibles a un sistema de aprendizaje profundo.

“Esto permite que nuestros modelos de espectrograma generen muestras de voz y música incondicionales con consistencia durante varios segundos”, dicen.

Y los resultados son impresionantes.

Habiendo entrenado el sistema usando el habla común de las charlas TED, MelNet puede reproducir la voz del orador TED diciendo más o menos algo durante unos pocos segundos.

Los investigadores de Facebook demuestran su flexibilidad al usar la charla TED de Bill Gates para entrenar a MelNet y luego usar su voz para decir una serie de frases al azar.

Hay algunas limitaciones, por supuesto.

El habla ordinaria contiene correlaciones incluso en escalas de tiempo más largas.

Por ejemplo, los humanos usan cambios en la entonación para indicar cambios en el tema o el estado de ánimo a medida que las historias evolucionan en decenas de segundos o minutos.

La máquina de Facebook todavía no parece capaz de eso.

Entonces, mientras MelNet puede crear frases notablemente realistas, el equipo aún no ha perfeccionado oraciones más largas, párrafos o historias completas.

Eso no parece ser un objetivo que probablemente se alcance pronto.

Sin embargo, el trabajo podría tener un impacto significativo en la interacción humano-computadora.

Muchas conversaciones involucran solo frases cortas.

Los operadores de telefonía y los servicios de asistencia en particular pueden funcionar con un rango de frases relativamente cortas.

Entonces, esta tecnología podría automatizar estas interacciones de una manera que es mucho más humana que los sistemas actuales.

Por el momento, sin embargo, Vásquez y Lewis no hablan sobre posibles aplicaciones.

Y como siempre, hay problemas potenciales con las máquinas de sonido natural, particularmente aquellas que pueden imitar a los humanos de manera confiable.

No hace falta mucha imaginación para idear escenarios en los que esta tecnología podría usarse para hacer travesuras.

Y por esa razón, es otro avance relacionado con la inteligencia artificial que plantea más preguntas éticas que respuestas.

Fuente: MIT Technology Review