Investigadores de la Universidad Jiao Tong de Shanghái y de la Universidad de Cambridge han desarrollado F5-TTS, un sistema de texto a voz totalmente no autorregresivo basado en la correspondencia de flujo con el Transformador de difusión (DiT).
En otras palabras, podría ser el mejor generador de texto a voz con IA hasta el momento.
Este modelo se entrenó en un conjunto de datos multilingües público de 100 000 horas y, como puede escuchar en las demostraciones F5-TTS exhibe una capacidad de ser sumamente natural y expresivo, una capacidad de cambio de código sin problemas y una eficiencia de control de velocidad.
“Sin necesidad de diseños complejos como un modelo de duración, un codificador de texto y una alineación de fonemas, la entrada de texto simplemente se rellena con tokens de relleno hasta alcanzar la misma longitud que el habla de entrada, y luego se realiza la eliminación de ruido para la generación del habla, lo que originalmente se demostró que era factible con E2 TTS“, dijeron los investigadores.
Fuente: GitHub
RT-G es un robot avanzado diseñado para escenarios de confrontación. (more…)
Los modelos de aprendizaje automático pueden fallar cuando intentan hacer predicciones para individuos que estaban…
La IA ha llegado a un mercado que estaba maduro para la disrupción: los libros…
Modelar cómo se deforman los automóviles en un choque, cómo responden las naves espaciales a…
Investigadores chinos han afirmado que su unidad generó una producción de electricidad estable durante 160…
Recientemente, Sanctuary AI presentó su mano robótica que ahora es capaz de manipular objetos. (more…)