Categorías: Tecnología

Microsoft crea inteligencia artificial capaz de imitar la voz de cualquier persona en tres segundos

Comparta este Artículo en:

El nuevo modelo de lenguaje para la síntesis de texto a voz es capaz de replicar la voz de cualquier hablante con tan solo escuchar 3 segundos de audio.

Microsoft está apostando fuerte por GPT-3, la inteligencia artificial diseñada por OpenAI, para varias de sus aplicaciones y servicios, como Bing o Word.

La compañía dirigida por Satya Nadella, sin embargo, también se encuentra desarrollando modelos propios.

Prueba de ello es VALL-E, una IA capaz de imitar la voz de cualquier persona con tan solo escuchar tres segundos de audio.

VALL-E, en concreto, es un modelo de lenguaje para la síntesis de texto a voz (TTS) basado en EnCodec, el códec de audio de Meta, y es muy similar a otras IA que permiten generar audios a través de una breve descripción de texto.

La propia Microsoft, de hecho, cuenta con un servicio similar: Text to Speech, que permite convertir texto en voz sintetizada.

La diferencia, sin embargo, es que VALL-E es capaz de analizar la voz de una persona, para posteriormente interpretar cómo sonaría esa voz con diferentes frases.

Todo ello, además, preservando la entonación y la emoción del hablante, afirma la compañía.

Y puede lograr grandes resultados con solo tres segundos de voz.

“Específicamente, entrenamos un modelo de lenguaje de códec neuronal (llamado VALL-E) utilizando códigos discretos derivados de un modelo de códec de audio neuronal estándar, y consideramos TTS como una tarea de modelado de lenguaje condicional en lugar de una regresión continua de señal como en trabajos anteriores.”

La nueva IA de Microsoft capaz de replicar la voz de cualquier persona, además, puede usarse con otros modelos de IA generativa.

Entre ellos, GPT-3.

De este modo, los usuarios, por ejemplo, podrían pedirle a ChatGPT que imite la voz de un individuo específico.

El objetivo, por tanto, es poder crear discursos de voz a través de una introducción de texto.

Esto, sin embargo, trae consigo un inconveniente importante.

Si finalmente VALL-E está disponible para el público, muchos podrían utilizarla para suplantar la identidad de las personas.

Microsoft, en este caso, detalla que “es posible construir un modelo de detección para discriminar si un clip de audio ha sido sintetizado por VALL-E”.

Fuente: VALL-E

Editor PDM

Entradas recientes

En China patrulla un nuevo robot policía

RT-G es un robot avanzado diseñado para escenarios de confrontación. (more…)

12 hours hace

Técnica reduce el sesgo en los modelos de IA y al mismo tiempo preserva o mejora la precisión

Los modelos de aprendizaje automático pueden fallar cuando intentan hacer predicciones para individuos que estaban…

12 hours hace

Curso de humanidades en universidad norteamericana utilizará un libro de texto generado por IA

La IA ha llegado a un mercado que estaba maduro para la disrupción: los libros…

12 hours hace

IA resuelve problemas complejos de ingeniería más rápido que las supercomputadoras

Modelar cómo se deforman los automóviles en un choque, cómo responden las naves espaciales a…

12 hours hace

Diseñan celdas que generan electricidad a oscuras

Investigadores chinos han afirmado que su unidad generó una producción de electricidad estable durante 160…

12 hours hace

Mano robótica capaz de manipular objetos

Recientemente, Sanctuary AI presentó su mano robótica que ahora es capaz de manipular objetos. (more…)

4 days hace
Click to listen highlighted text!