Categorías: Tecnología

El traductor con inteligencia artificial de Meta puede interpretar idiomas no escritos

Comparta este Artículo en:

Casi la mitad de los aproximadamente 7000 idiomas conocidos del mundo, cuatro de cada diez de ellos existen sin un componente escrito que los acompañe.

Estos lenguajes no escritos plantean un problema único para los sistemas modernos de traducción de aprendizaje automático, ya que normalmente necesitan convertir el habla verbal en palabras escritas antes de traducir al nuevo idioma y revertir el texto al habla, pero Meta supuestamente lo ha abordado con su última versión abierta.

Como parte del programa Universal Speech Translator (UST) de Meta, que está trabajando para desarrollar una traducción de voz a voz en tiempo real para que los habitantes de Metaverse puedan interactuar más fácilmente.

Como parte de este proyecto, los investigadores de Meta observaron Hokkien, un idioma no escrito que se habla en toda la diáspora de Asia y uno de los idiomas oficiales de Taiwán.

Los sistemas de traducción de aprendizaje automático generalmente requieren extensos ejemplos etiquetables del idioma, tanto escrito como hablado, para entrenar, precisamente lo que los idiomas no escritos como Hokkien no tienen.

Para evitar eso, “utilizamos la traducción de voz a unidad (S2UT) para convertir el habla de entrada en una secuencia de unidades acústicas directamente en el camino previamente iniciado por Meta“, explicó el CEO Mark Zuckerberg .

Luego, generamos formas de onda a partir de las unidades.

Además, se adoptó UnitY para un mecanismo de decodificación de dos pasos en el que el decodificador de primer paso genera texto en un idioma relacionado (mandarín) y el decodificador de segundo paso crea unidades”.

Aprovechamos el mandarín como idioma intermedio para crear pseudoetiquetas, donde primero traducimos el habla en inglés (o Hokkien) a texto en mandarín, y luego traducimos a Hokkien (o inglés) y lo agregamos a los datos de entrenamiento”, continuó.

Actualmente, el sistema permite que alguien que hable Hokkien converse con alguien que hable inglés, aunque de manera forzada.

El modelo solo puede traducir una oración completa a la vez, pero Zuckerberg confía en que la técnica eventualmente se pueda aplicar a más idiomas y mejorará hasta el punto de ofrecer traducción en tiempo real.

Además de los modelos y los datos de entrenamiento que Meta ya está obteniendo de código abierto a partir de este proyecto, la compañía también está lanzando un sistema de evaluación comparativa de traducción de voz a voz, el primero en su tipo, basado en un corpus de voz de Hokkien llamado Taiwanese Across Taiwan, así como “la matriz de voz, un gran corpus de traducciones de voz a voz extraídas con la innovadora técnica de minería de datos de Meta llamada LASER”, anunció Zuckerberg.

Este sistema permitirá a los investigadores crear sus propios sistemas de traducción de voz a voz (S2ST).

Fuente: Engadget

Editor PDM

Entradas recientes

Mano robótica capaz de manipular objetos

Recientemente, Sanctuary AI presentó su mano robótica que ahora es capaz de manipular objetos. (more…)

3 days hace

Robots atraviesan entornos complejos sin sensores adicionales ni entrenamiento previo en terrenos difíciles

Especialistas en robótica de la Universidad de Leeds y el University College de Londres han…

3 days hace

Rompiendo barreras: IA para interpretar el lenguaje de señas americano en tiempo real

El lenguaje de señas es un medio de comunicación sofisticado y vital para las personas…

3 days hace

Dispositivo ayuda a personas con discapacidad visual a realizar tareas de localización tan bien como las personas videntes

Según un nuevo estudio dirigido por el Imperial College, una tecnología de navegación que utiliza…

3 days hace

Google lanza una versión de Gemini 2.0 capaz de razonar

Gemini 2.0 Flash Thinking Experimental es una nueva versión de la IA de Google que…

3 days hace

El siguiente paso de la computación cuántica: un nuevo algoritmo potencia la multitarea

Las computadoras cuánticas difieren fundamentalmente de las clásicas. En lugar de utilizar bits (0 y…

4 days hace
Click to listen highlighted text!