Generador de voz artificialmente inteligente puede imitar cualquier voz

Comparta este Artículo en:

La voz humana, con toda su sutileza y matiz, está resultando ser una cosa excepcionalmente difícil para las computadoras de emular.

Usando un algoritmo nuevo y potente, con inteligencia artificial sel ha desarrollado un generador de voz que puede imitar prácticamente cualquier voz de una persona e incluso añadir un golpe emocional cuando sea necesario.

El sistema no es perfecto, pero anuncia un futuro cuando las voces, como las fotos, se puedan falsificar fácilmente.

Cuando Siri, Alexa o nuestro GPS nos hablan, es bastante obvio que nos está hablando una máquina.

Esto se debe a que prácticamente todos los sistemas de conversión de texto a voz en el mercado se basan en un conjunto de palabras, frases y enunciados pregrabados (grabados por los actores de voz), que se enlazan a la manera de Frankenstein para producir palabras y frases completas.

El resultado final es una entrega vocal que suena claramente aburrida, robótica y a veces risible.

Este enfoque de síntesis de voz también significa que estamos atascados escuchando la misma voz pre-grabada y monótona una y otra vez.

En un esfuerzo por inyectar algo de vida en las voces automatizadas que salen de nuestras aplicaciones, AI Lyrebird ha desarrollado un algoritmo de imitación de voz que puede imitar la voz de cualquier persona y leer cualquier texto con una emoción o entonación predefinida.

Increíblemente, puede hacer esto después de analizar sólo unas pocas docenas de segundos de audio pregrabado.

En un esfuerzo por promover su nueva herramienta, Lyrebird produjo varias muestras de audio usando las voces de Barack Obama, Donald Trump y Hillary Clinton.

Los demos de Lyrebird también muestran el catálogo virtualmente ilimitado de voces, y la capacidad del sistema de articular la misma oración con diferentes entonaciones.

Todo esto se hace posible mediante el uso de redes neuronales artificiales, que funcionan de manera similar a las redes neuronales biológicas en el cerebro humano.

Esencialmente, el algoritmo aprende a reconocer patrones en el habla de una persona en particular, y luego reproduce esos patrones durante el habla simulada.

“Capacitamos nuestros modelos en un enorme conjunto de datos con miles de oradores”, dijo a José Sotelo, miembro del equipo de Lyrebird y experto en síntesis de voz.

“Entonces, para un nuevo orador, comprimimos su información en una pequeña clave que contiene su ADN de voz. Usamos esta llave para decir nuevas frases. ”

El resultado final está lejos de ser perfecto: las muestras todavía presentan artefactos digitales, problemas de claridad y otras rarezas, pero no hay duda de quién está siendo imitado por el generador de voz.

Los cambios en la entonación son también discernibles.

A diferencia de otros sistemas, la solución de Lyrebird requiere menos datos por altavoz para producir una nueva voz, y funciona en tiempo real.

La compañía planea ofrecer su herramienta a empresas que necesitan soluciones de síntesis de voz.

“Estamos trabajando en mejorar la calidad del audio para que sea menos robótico, y esperamos comenzar pronto la prueba beta”.

Huelga decir que esta forma de síntesis del habla introduce una serie de problemas éticos y preocupaciones de seguridad.

Eventualmente, una versión refinada de este sistema podría reproducir la voz de una persona con una precisión increíble, lo que hace prácticamente imposible para un oyente humano discernir el original de la emulación.

Llegará el día en que el habla vocal, como una imagen procesada en Photoshop, pueda ser manipulada sin nuestro conocimiento.

Los individuos inescrupulosos podrían fingir un discurso de un político prominente.

Los hackers podrían utilizar la síntesis del habla para la ingeniería social, engañando incluso a los expertos de seguridad más cuidadosos. Las posibilidades son casi infinitas.

Estos efectos potencialmente adversos no se pierden en Lyrebird, que argumenta que la era en la que podemos confiar grabaciones de audio está a punto de llegar a su fin.

“Tomamos en serio las posibles aplicaciones maliciosas de nuestra tecnología”, dijo Sotelo.

“Queremos que esta tecnología se utilice con buenos propósitos: devolver la voz a la gente que la perdió por enfermedad, ser capaz de grabar a sí mismo en diferentes etapas de su vida y escuchar su voz más tarde, etc.

Dado que esta tecnología podría desarrollarse por otros grupos con fines maliciosos, creemos que lo correcto es hacerla pública y conocida, por lo que dejamos de confiar en grabaciones de audio [como evidencia] “.

Pero también se podrían desarrollar soluciones para verificar la autenticidad de las grabaciones vocales.

Los seres humanos pueden ser engañados por tales sistemas, pero las computadoras no lo serán – al menos, no por un tiempo.

Al analizar la forma de onda, o frecuencias de la voz humana, una grabación de alta resolución puede producir una tremenda cantidad de datos para que una computadora analice.

Pasará mucho tiempo antes de que un programa de síntesis del habla pueda reproducir cada aspecto del discurso distintivo de una persona, como los detalles más finos del timbre vocal (es decir, la calidad del habla) y los ruidos en la boca como la respiración, los sonidos de la lengua y labios, hasta el punto en que incluso una máquina no puede detectar la diferencia.

Hay otros aspectos de una grabación a considerar también. Por ejemplo, la ausencia de ruidos de fondo, la presencia de un espacio acústico falso o los sonidos ambientales introducidos artificialmente deberían ser fácilmente detectables por una máquina diseñada para la tarea.

Con el tiempo, sin embargo, un programa de síntesis del habla puede ser capaz de falsificar todas estas cosas, en cuyo punto, nuestra capacidad de discernir la verdad de la fabricada será puesta a prueba.

Fuente: Gizmodo