Investigadores de la Universidad Jiao Tong de Shanghái y de la Universidad de Cambridge han desarrollado F5-TTS, un sistema de texto a voz totalmente no autorregresivo basado en la correspondencia de flujo con el Transformador de difusión (DiT).
En otras palabras, podría ser el mejor generador de texto a voz con IA hasta el momento.
Este modelo se entrenó en un conjunto de datos multilingües público de 100 000 horas y, como puede escuchar en las demostraciones F5-TTS exhibe una capacidad de ser sumamente natural y expresivo, una capacidad de cambio de código sin problemas y una eficiencia de control de velocidad.
“Sin necesidad de diseños complejos como un modelo de duración, un codificador de texto y una alineación de fonemas, la entrada de texto simplemente se rellena con tokens de relleno hasta alcanzar la misma longitud que el habla de entrada, y luego se realiza la eliminación de ruido para la generación del habla, lo que originalmente se demostró que era factible con E2 TTS“, dijeron los investigadores.
Fuente: GitHub