Era solo cuestión de tiempo para que OpenAI, que tiene modelos de inteligencia artificial capaces de generar imágenes, texto y video, se animase a lanzar uno para generar voz.
H anunciado Voice Engine, una tecnología capaz de clonar cualquier voz a partir de una muestra de tan solo 15 segundos.
OpenAI empezó a desarrollarlo a finales de 2022 y lo han usado para generar la voz de su API de texto a voz.
Asimismo, lo utilizaron para crear la voz de ChatGPT en las apps móviles.
Desde 2023, un “reducido grupo de partners de confianza” lo han estado usando para explorar posibles casos de uso y lo cierto es que el resultado, lejos de ser totalmente creíble, es realmente convincente.
Eso, y un poco de texto, es lo único que necesita Voice Engine para clonar una voz.
Aunque no sabemos cuán grande es el modelo, según OpenAI “es notable que un modelo pequeño con una sola muestra de 15 segundos pueda crear voces emotivas y realistas”.
“Esperamos entablar un diálogo sobre el despliegue responsable de las voces sintéticas y sobre cómo la sociedad puede adaptarse a estas nuevas capacidades.
A partir de estas conversaciones y de los resultados de estas pruebas a pequeña escala, tomaremos una decisión más informada sobre si desplegar esta tecnología a gran escala y cómo hacerlo“.
Se puede usar para la asistencia a la lectura, que permite a los más pequeños o a las personas que no saben leer escuchar el texto con una voz más natural y amigable.
También tiene aplicaciones prácticas en el mundo de la traducción.
Usando una muestra de audio, Voice Engine puede traducir y doblar lo dicho a otros idiomas.
Curiosamente, la IA es capaz de conservar el acento, de forma que si usamos un audio en inglés como base para generar un audio en español, este último audio tendrá el acento de una persona de habla inglesa hablando español.
Audio original en inglés:
Audio generado en español:
Audio generado en japonés:
Esta IA también tiene potencial para personas con problemas de habla.
OpenAI ha expuesto un caso del Norman Prince Neurosciences Institute de Lifespan (Facultad de Medicina de la Universidad de Brown) que, gracias a que Voice Engine solo requiere de una muestra de 15 segundos, se pudo restaurar la voz de una paciente que había perdido la fluidez del habla debido a un tumor cerebral a partir de un video grabado para un proyecto escolar.
Estos son solo algunos de los casos de uso expuestos por OpenAI, pero la realidad es que Voice Engine puede ser usado para cosas no tan bonitas.
Podemos pensar en deepfakes y suplantaciones de identidad, y eso sin pensar demasiado.
A efectos prácticos, bastaría con el audio de una historia de Instagram para clonar nuestra voz.
OpenAI es consciente de los riesgos que esto supone y, precisamente por ello, no han desplegado el modelo.
“Creemos que cualquier despliegue generalizado de tecnología de voz sintética debe ir acompañado de experiencias de autenticación de voz que verifiquen que el hablante original está añadiendo su voz al servicio con conocimiento de causa, y de una lista de voces prohibidas que detecte e impida la creación de voces demasiado parecidas a figuras prominentes”.
OpenAI asegura que “hemos decidido presentar esta tecnología en primicia, pero no difundirla ampliamente en este momento” e invitan a tomar medias, como “eliminar progresivamente la autenticación basada en la voz como medida de seguridad para acceder a cuentas bancarias y otra información sensible”.
También invitan a “explorar políticas para proteger el uso de la voz de las personas en la IA”.
Fuente: OpenAI