Categorías: Tecnología

Inteligencia artificial capaz de clonar cualquier voz con solo 15 segundos de muestra

Comparta este Artículo en:

Era solo cuestión de tiempo para que OpenAI, que tiene modelos de inteligencia artificial capaces de generar imágenes, texto y video, se animase a lanzar uno para generar voz.

H anunciado Voice Engine, una tecnología capaz de clonar cualquier voz a partir de una muestra de tan solo 15 segundos.

OpenAI empezó a desarrollarlo a finales de 2022 y lo han usado para generar la voz de su API de texto a voz.

Asimismo, lo utilizaron para crear la voz de ChatGPT en las apps móviles.

Desde 2023, un “reducido grupo de partners de confianza” lo han estado usando para explorar posibles casos de uso y lo cierto es que el resultado, lejos de ser totalmente creíble, es realmente convincente.

Eso, y un poco de texto, es lo único que necesita Voice Engine para clonar una voz.

Aunque no sabemos cuán grande es el modelo, según OpenAI “es notable que un modelo pequeño con una sola muestra de 15 segundos pueda crear voces emotivas y realistas”.

“Esperamos entablar un diálogo sobre el despliegue responsable de las voces sintéticas y sobre cómo la sociedad puede adaptarse a estas nuevas capacidades.

A partir de estas conversaciones y de los resultados de estas pruebas a pequeña escala, tomaremos una decisión más informada sobre si desplegar esta tecnología a gran escala y cómo hacerlo“.

Se puede usar para la asistencia a la lectura, que permite a los más pequeños o a las personas que no saben leer escuchar el texto con una voz más natural y amigable.

También tiene aplicaciones prácticas en el mundo de la traducción.

Usando una muestra de audio, Voice Engine puede traducir y doblar lo dicho a otros idiomas.

Curiosamente, la IA es capaz de conservar el acento, de forma que si usamos un audio en inglés como base para generar un audio en español, este último audio tendrá el acento de una persona de habla inglesa hablando español.

Audio original en inglés:

Audio generado en español:

Audio generado en japonés:

Esta IA también tiene potencial para personas con problemas de habla.

OpenAI ha expuesto un caso del Norman Prince Neurosciences Institute de Lifespan (Facultad de Medicina de la Universidad de Brown) que, gracias a que Voice Engine solo requiere de una muestra de 15 segundos, se pudo restaurar la voz de una paciente que había perdido la fluidez del habla debido a un tumor cerebral a partir de un video grabado para un proyecto escolar.

Estos son solo algunos de los casos de uso expuestos por OpenAI, pero la realidad es que Voice Engine puede ser usado para cosas no tan bonitas.

Podemos pensar en deepfakes y suplantaciones de identidad, y eso sin pensar demasiado.

A efectos prácticos, bastaría con el audio de una historia de Instagram para clonar nuestra voz.

OpenAI es consciente de los riesgos que esto supone y, precisamente por ello, no han desplegado el modelo.

“Creemos que cualquier despliegue generalizado de tecnología de voz sintética debe ir acompañado de experiencias de autenticación de voz que verifiquen que el hablante original está añadiendo su voz al servicio con conocimiento de causa, y de una lista de voces prohibidas que detecte e impida la creación de voces demasiado parecidas a figuras prominentes”.

OpenAI asegura que “hemos decidido presentar esta tecnología en primicia, pero no difundirla ampliamente en este momento” e invitan a tomar medias, como “eliminar progresivamente la autenticación basada en la voz como medida de seguridad para acceder a cuentas bancarias y otra información sensible”.

También invitan a “explorar políticas para proteger el uso de la voz de las personas en la IA”.

Fuente: OpenAI

Editor PDM

Entradas recientes

Mano robótica capaz de manipular objetos

Recientemente, Sanctuary AI presentó su mano robótica que ahora es capaz de manipular objetos. (more…)

2 days hace

Robots atraviesan entornos complejos sin sensores adicionales ni entrenamiento previo en terrenos difíciles

Especialistas en robótica de la Universidad de Leeds y el University College de Londres han…

2 days hace

Rompiendo barreras: IA para interpretar el lenguaje de señas americano en tiempo real

El lenguaje de señas es un medio de comunicación sofisticado y vital para las personas…

2 days hace

Dispositivo ayuda a personas con discapacidad visual a realizar tareas de localización tan bien como las personas videntes

Según un nuevo estudio dirigido por el Imperial College, una tecnología de navegación que utiliza…

2 days hace

Google lanza una versión de Gemini 2.0 capaz de razonar

Gemini 2.0 Flash Thinking Experimental es una nueva versión de la IA de Google que…

2 days hace

El siguiente paso de la computación cuántica: un nuevo algoritmo potencia la multitarea

Las computadoras cuánticas difieren fundamentalmente de las clásicas. En lugar de utilizar bits (0 y…

3 days hace
Click to listen highlighted text!