Auriculares con inteligencia artificial permiten escuchar a una sola persona entre la multitud

Comparta este Artículo en:

Ingenieros desarrollan un sistema de inteligencia artificial que permite seleccionar con la mirada a una persona de entre varias y escuchar solo su voz en tiempo real, incluso en ambientes ruidosos.

Los auriculares con supresión de ruido han conseguido crear una pizarra auditiva en blanco.

Pero permitir que ciertos sonidos del entorno del usuario pasen a través del borrado sigue siendo un reto para los investigadores.

La última versión de los AirPods Pro de Apple, por ejemplo, ajusta automáticamente los niveles de sonido para los usuarios, detectando cuándo están conversando, por ejemplo, pero el usuario tiene poco control sobre a quién escuchar o cuándo sucede esto.

Un equipo de la Universidad de Washington, en Estados Unidos, ha desarrollado un sistema de inteligencia artificial (IA) que permite al usuario mirar a una persona que habla durante tres a cinco segundos para registrarla.

El sistema, denominado Target Speech Hearing (TSH), cancela todos los demás sonidos del entorno y reproduce únicamente la voz del orador inscrito en tiempo real, incluso cuando el oyente se desplaza por lugares ruidosos y deja de estar frente al orador.

El código del dispositivo de prueba de concepto está disponible para que otros puedan desarrollarlo. El sistema no está disponible comercialmente.

“Tendemos a pensar en la IA como un chatbot basado en la web que responde a preguntas, explica Shyam Gollakota, autor principal y profesor de la Facultad de Informática e Ingeniería Paul G. Allen de la Universidad de Washington.

Y añade:

Pero en este proyecto desarrollamos IA para modificar la percepción auditiva de cualquier persona que lleve auriculares, dadas sus preferencias.

Con nuestros dispositivos, ahora puedes oír claramente a un solo orador aunque estés en un entorno ruidoso con muchas otras personas hablando”.

Para utilizar el sistema, una persona que lleve unos auriculares comerciales equipados con micrófonos toca un botón mientras dirige la cabeza hacia alguien que habla.

Las ondas sonoras de la voz de ese interlocutor deben llegar simultáneamente a los micrófonos de ambos lados de los auriculares; hay un margen de error de 16 grados.

Los auriculares envían esa señal a un computador integrado, donde el software de aprendizaje automático del equipo aprende los patrones vocales del orador deseado.

El sistema se fija en la voz de ese orador y sigue reproduciéndola al oyente, incluso cuando uno y otro se mueven.

La capacidad del sistema para centrarse en la voz seleccionada mejora a medida que el interlocutor sigue hablando, lo que proporciona al sistema más datos de entrenamiento.

El equipo probó el sistema con veintiún voluntarios, que, de media, valoraron la claridad de la voz del hablante registrado casi el doble que la del audio sin filtrar.

Este trabajo se basa en la investigación anterior del equipo sobre audición semántica, que permitía a los usuarios seleccionar clases específicas de sonidos, como cantos de pájaros y voces, que querían oír y cancelar otros sonidos del entorno.

Actualmente, el sistema TSH solo puede registrar un altavoz a la vez, y sólo es capaz de registrar un altavoz cuando no hay otra voz alta procedente de la misma dirección que la voz del altavoz objetivo.

Si el usuario no está satisfecho con la calidad del sonido, puede volver a inscribir el altavoz para mejorar la claridad.

El equipo está trabajando para ampliar el sistema a auriculares y audífonos en el futuro.

Fuente: MIT