La compañía liderada por Mark Zuckerberg, Meta, anunció nuevos modelos que pueden reconocer y reproducir idiomas con una capacidad 10 veces mayor que los sistemas disponibles.
Los desarrolladores utilizaron la biblia para entrenar las nuevas herramientas.
Meta anunció nuevos modelos de inteligencia artificial capaces de reconocer y reproducir el habla en más de 1.100 idiomas.
Resaltó que se trata de una iniciativa orientada a preservar idiomas que corren el riesgo de desaparecer.
Este Massively Multilingual Speech (MMS) fue puesto a disposición del público a través de GitHub, el servicio de alojamiento de código.
Meta explicó que lanzarlos como código abierto ayudará a desarrolladores a crear nuevas aplicaciones de voz más inclusivas.
Los nuevos modelos pueden leer texto y convertirlo en voz (y reconocer voz y convertirlo en texto) en más de 1.100 dialectos.
Sin embargo, pueden llegar a identificar más de 4.000, lo que representa una capacidad 40 veces mayor que la disponible hasta ahora.
Hay alrededor de 7.000 idiomas en el mundo, pero las herramientas de reconocimiento de voz convencionales existentes solo reconocen cerca de 100.
La mayoría de estos sistemas suelen necesitar grandes cantidades de datos de entrenamiento etiquetados, como las transcripciones.
El problema es que estos también están disponibles solo en algunos idiomas, entre ellos el español, el inglés y el chino.
Meta aprovechó un modelo de inteligencia artificial que desarrolló en 2020.
Este sistema ya podía aprender patrones de voz a partir de audio, sin necesidad de grandes cantidades de datos etiquetados como, por ejemplo, las transcripciones.
La empresa, casa matriz de Facebook e Instagram, utilizó dos nuevos conjuntos de datos.
El primero tiene grabaciones de audio más el texto del nuevo testamento de la Biblia, tomado de Internet en 1.107 idiomas.
El segundo contiene grabaciones de audio sin etiquetar del Nuevo testamento en 3.809 dialectos.
Los investigadores de Meta usaron un algoritmo diseñado para alinear las grabaciones de audio con el texto que las acompaña.
Después repitieron el mismo proceso con un segundo algoritmo, entrenado con los datos recién alineados.
Así, finalmente, el equipo logró entrenar al algoritmo para aprender un nuevo idioma más fácil, incluso sin necesidad del texto que lo acompaña.
Meta comparó sus modelos con los de OpenAI Whisper y otros competidores. El suyo, asegura, tiene la mitad de la tasa de error, a pesar de cubrir 11 veces más idiomas.
“Ahora podemos construir rápidamente sistemas de voz con muy, muy pocos datos”, explicó Michael Auli, científico que trabajó en el proyecto, al MIT.
Sin embargo, los investigadores advirtieron que estos modelos de idiomas impulsados por inteligencia artificial todavía pueden transcribir incorrectamente ciertas palabras o frases.
En la práctica, esto puede resultar en etiquetas inexactas o potencialmente ofensivas.
Fuente: Meta