Investigadores de la Universidad Jiao Tong de Shanghái y de la Universidad de Cambridge han desarrollado F5-TTS, un sistema de texto a voz totalmente no autorregresivo basado en la correspondencia de flujo con el Transformador de difusión (DiT).
En otras palabras, podría ser el mejor generador de texto a voz con IA hasta el momento.
Este modelo se entrenó en un conjunto de datos multilingües público de 100 000 horas y, como puede escuchar en las demostraciones F5-TTS exhibe una capacidad de ser sumamente natural y expresivo, una capacidad de cambio de código sin problemas y una eficiencia de control de velocidad.
“Sin necesidad de diseños complejos como un modelo de duración, un codificador de texto y una alineación de fonemas, la entrada de texto simplemente se rellena con tokens de relleno hasta alcanzar la misma longitud que el habla de entrada, y luego se realiza la eliminación de ruido para la generación del habla, lo que originalmente se demostró que era factible con E2 TTS“, dijeron los investigadores.
Fuente: GitHub
El robot humanoide G1 de 1,3 metros de altura de Unitree estableció un nuevo récord…
Científicos han utilizado con éxito células madre humanas para reparar un agujero en la retina…
Un hacker utilizó una calculadora TI-84 Plus y un módulo Wi-Fi para instalar un mood…
Imagine farolas energizadas por las vibraciones del tráfico, neumáticos que recargan de energía eléctrica su…
El nuevo primo tiene más de 41 millones de dígitos: el anterior tenía solo "23"…
Un tratamiento basado en nanopartículas de última generación, diseñado para administrar moléculas terapéuticas directamente en…