Meta ha presentado Voicebox, su modelo generativo de texto a voz que promete hacer por la palabra hablada lo que ChatGPT y Dall-E, respetuosamente, hicieron por la generación de texto e imágenes.
Esencialmente, es un generador de texto a salida como GPT o Dall-E, solo que en lugar de crear prosa o imágenes bonitas, escupe clips de audio.
Meta define el sistema como “un modelo de coincidencia de flujo no autorregresivo entrenado para rellenar el habla, dado el contexto de audio y el texto“.
Ha sido entrenado en más de 50,000 horas de audio sin filtrar.
Específicamente, Meta usó voz grabada y transcripciones de un montón de audiolibros de dominio público escritos en inglés, francés, español, alemán, polaco y portugués.
Ese conjunto diverso de datos permite que el sistema genere un discurso con un sonido más conversacional, independientemente de los idiomas que hable cada parte, según los investigadores.
“Nuestros resultados muestran que los modelos de reconocimiento de voz entrenados en voz sintética generada por Voicebox funcionan casi tan bien como los modelos entrenados en voz real”.
Además, el habla generada por computadora se realizó con una degradación de la tasa de error de solo el 1 por ciento, en comparación con la caída del 45 al 70 por ciento observada con los modelos TTS existentes.
Primero se le enseñó al sistema a predecir segmentos del habla en función de los segmentos que los rodean, así como de la transcripción del pasaje.
“Habiendo aprendido a rellenar el habla a partir del contexto, el modelo puede aplicar esto en las tareas de generación de voz, incluida la generación de partes en medio de una grabación de audio sin tener que recrear la entrada completa”, explicaron los investigadores de Meta.
Según los informes, Voicebox también es capaz de editar clips de audio de forma activa, eliminando el ruido del discurso e incluso reemplazando las palabras mal pronunciadas.
“Una persona podría identificar qué segmento sin procesar del discurso está corrompido por el ruido (como un perro ladrando), recortarlo e indicarle al modelo que regenere ese segmento”, dijeron los investigadores, al igual que usar un software de edición de imágenes para limpiar fotografías.
Los generadores de texto a voz han existido por un minuto: es la forma en que los TomTom pudieron dar direcciones de manejo poco fiables en la voz de Morgan Freeman.
Las iteraciones modernas como Speechify o Prime Voice AI de Elevenlab son mucho más capaces, pero aún requieren en gran medida montañas de material de origen para imitar adecuadamente a su tema, y luego otra montaña de datos diferentes para cada uno en el tema que desea que se entrene.
Voicebox no lo hace, gracias a un novedoso método de entrenamiento de texto a voz de tiro cero llamado Flow Matching.
Los resultados de referencia ni siquiera están cerca, ya que, según los informes, la IA de Meta superó el estado actual del arte tanto en inteligibilidad (una tasa de error de palabra del 1,9 por ciento frente al 5,9 por ciento) como en “similitud de audio” (una puntuación compuesta de 0,681 frente a 0,580 de SOA) todo mientras opera hasta 20 veces más rápido que los mejores sistemas TTS de la actualidad.
Ni la aplicación Voicebox ni su código fuente se lanzarán al público en este momento, confirmó Meta, citando “los riesgos potenciales de mal uso“.
En cambio, la compañía lanzó una serie de ejemplos de audio, así como un trabajo de investigación inicial del programa.
En el futuro, el equipo de investigación espera que la tecnología llegue a prótesis para pacientes con daños en las cuerdas vocales, NPC en juegos y asistentes digitales.
Fuente: Meta