Categorías: Tecnología

Microsoft crea inteligencia artificial capaz de imitar la voz de cualquier persona en tres segundos

Comparta este Artículo en:

El nuevo modelo de lenguaje para la síntesis de texto a voz es capaz de replicar la voz de cualquier hablante con tan solo escuchar 3 segundos de audio.

Microsoft está apostando fuerte por GPT-3, la inteligencia artificial diseñada por OpenAI, para varias de sus aplicaciones y servicios, como Bing o Word.

La compañía dirigida por Satya Nadella, sin embargo, también se encuentra desarrollando modelos propios.

Prueba de ello es VALL-E, una IA capaz de imitar la voz de cualquier persona con tan solo escuchar tres segundos de audio.

VALL-E, en concreto, es un modelo de lenguaje para la síntesis de texto a voz (TTS) basado en EnCodec, el códec de audio de Meta, y es muy similar a otras IA que permiten generar audios a través de una breve descripción de texto.

La propia Microsoft, de hecho, cuenta con un servicio similar: Text to Speech, que permite convertir texto en voz sintetizada.

La diferencia, sin embargo, es que VALL-E es capaz de analizar la voz de una persona, para posteriormente interpretar cómo sonaría esa voz con diferentes frases.

Todo ello, además, preservando la entonación y la emoción del hablante, afirma la compañía.

Y puede lograr grandes resultados con solo tres segundos de voz.

“Específicamente, entrenamos un modelo de lenguaje de códec neuronal (llamado VALL-E) utilizando códigos discretos derivados de un modelo de códec de audio neuronal estándar, y consideramos TTS como una tarea de modelado de lenguaje condicional en lugar de una regresión continua de señal como en trabajos anteriores.”

La nueva IA de Microsoft capaz de replicar la voz de cualquier persona, además, puede usarse con otros modelos de IA generativa.

Entre ellos, GPT-3.

De este modo, los usuarios, por ejemplo, podrían pedirle a ChatGPT que imite la voz de un individuo específico.

El objetivo, por tanto, es poder crear discursos de voz a través de una introducción de texto.

Esto, sin embargo, trae consigo un inconveniente importante.

Si finalmente VALL-E está disponible para el público, muchos podrían utilizarla para suplantar la identidad de las personas.

Microsoft, en este caso, detalla que “es posible construir un modelo de detección para discriminar si un clip de audio ha sido sintetizado por VALL-E”.

Fuente: VALL-E

Editor PDM

Entradas recientes

Crean un implante que ayuda a personas con Parkinson a caminar

El invento ya se probó en un paciente francés, de 63 años, al que le…

3 hours hace

Nuevo compuesto de sangre de cerdo reversa la edad biológica de las ratas

Un par de científicos han desvelado una nueva terapia antienvejecimiento, elaborada a partir de sangre…

3 hours hace

Nuevas y revolucionarias pinzas hechas de luz para atrapar y manipular microobjetos

La necesidad de manipular objetos sin interactuar de forma física con ellos o a través…

3 hours hace

Fluctuaciones cuánticas del vacío para cambiar el estado magnético de un material

Un capítulo reciente en la investigación de física de materiales ha sido el uso de…

3 hours hace

Crean transistor térmico para dirigir el movimiento del calor

Se ha presentado públicamente un transistor térmico de estado sólido, el primero de su tipo,…

3 hours hace

Descubren un nuevo efecto cuántico llamado “espinarón”

Por primera vez, físicos experimentales han demostrado un nuevo efecto cuántico llamado acertadamente espinarón, un…

1 day hace
Click to listen highlighted text!