La nueva generación de tecnología de voz a texto ya está aquí, y llega potenciada por la inteligencia artificial.
Whisper es una nueva inteligencia artificial de OpenAI que planea revolucionar los traductores y las tecnologías de voz a texto.
Esta IA es capaz de transcribir y traducir entrevistas, podcasts, conversaciones y mucho más.
Pero lo mejor de todo es que su capacidad para hacerlo está casi al nivel de un humano.
Su inteligencia artificial se ha entrenado con más de 680.000 horas de audio.
Pero, además de escuchar, Whisper también ha tenido que hacer coincidir dichas palabras con texto escrito.
Gracias a la red neuronal de la inteligencia artificial, puede utilizar contexto a partir de los datos de entrada, para posteriormente aprender asociaciones que pueden traducirse en la salida del modelo.
“El audio de entrada se divide en trozos de 30 segundos“, describe OpenAI en la publicación oficial.
De esta forma, “se convierte en un espectrograma… y se pasa al codificador”.
Posteriormente, se entrena al codificador para predecir el texto correspondiente.
¿Cómo se hace? Se entremezclan tokens especiales que orientan al modelo a llevar a cabo una sola tarea, como la de identificación de idioma.
Después se añaden a la ecuación otras variables, como la identificación de las marcas de tiempo a nivel de frase, la transcripción del habla multilingüe y la traducción al inglés.
OpenAI ha decidido publicar su código para que pueda funcionar como base a los futuros procesadores del habla y herramientas de accesibilidad.
Por lo tanto, hay oportunidad de ver mejoras en la inteligencia artificial.
Utilizaron un episodio de podcast para probar su poder, mismo que contenía un fragmento donde se había usado un teléfono para transmitir audio, por lo que la calidad dejaba mucho que desear.
A pesar de esto, Whisper hizo un buen trabajo transcribiendo el texto mientras se encontraba corriendo en Python.
Eso sí, esta tecnología no funciona en tiempo real, se tomó un buen tiempo para finalizarlo en un procesador Intel de gama media.
Al final, el resultado fue “mucho mejor que servicios de transcripción impulsados por la inteligencia artificial que hayamos probado en el pasado”.
Pero ojo, que existe una letra pequeña en el código de Whisper.
Según sus creadores, es una herramienta que podría usarse también para el mal.
Por ejemplo, para identificar interlocutores en una conversación, o incluso para automatizar la vigilancia.
No obstante, desde OpenAI esperan que se use para el bien, y permita a desarrolladores el crear herramientas de traducción y transcripción mucho más complejas.
Fuente: Ars Technica