Un equipo de científicos de Stanford afirma haber probado una nueva interfaz cerebro-computadora (BCI) que puede decodificar el habla hasta 62 palabras por minuto, mejorando el récord anterior en 3,4 veces.
Eso sería un gran paso hacia la conversión de voz en tiempo real al ritmo de una conversación humana natural.
Max Hodak, quien fundó la compañía de BCI Neuralink junto con Elon Musk, pero no participó en el estudio, calificó la investigación como “un cambio significativo en la utilidad de los BCI implantados“.
Como se detalla en un artículo que aún no ha sido revisado por pares, el equipo de científicos de Stanford descubrió que solo necesitaban analizar la actividad cerebral en una región relativamente pequeña de la corteza para convertirla en un habla coherente utilizando un algoritmo de aprendizaje automático.
El objetivo era devolverles la voz a aquellos que ya no pueden hablar debido a la ELA.
Si bien las soluciones basadas en el teclado han permitido que las personas con parálisis se comuniquen nuevamente hasta cierto punto, una interfaz de voz basada en el cerebro podría acelerar significativamente la decodificación.
“Aquí, demostramos una BCI de voz que puede decodificar oraciones sin restricciones de un amplio vocabulario a una velocidad de 62 palabras por minuto, la primera vez que una BCI ha superado con creces las tasas de comunicación que las tecnologías alternativas pueden proporcionar a las personas con parálisis, por ejemplo, rastreo de ojos”, escriben los investigadores.
En un experimento, el equipo registró la actividad neuronal de un paciente con ELA, que puede mover la boca pero tiene dificultades para formar palabras, a partir de dos pequeñas áreas del cerebro.
Usando un decodificador de red neuronal recurrente que puede predecir texto, los investigadores convirtieron estas señales en palabras, y a un ritmo sorprendentemente rápido.
Descubrieron que analizar estos movimientos orofaciales y su actividad neuronal asociada era “probablemente lo suficientemente fuerte como para respaldar un BCI del habla, a pesar de la parálisis y la cobertura estrecha de la superficie cortical“, según el artículo.
Pero el sistema no era perfecto.
La tasa de error del decodificador de red neuronal recurrente (RNN) de los investigadores seguía siendo de alrededor del 20 por ciento.
“Nuestra demostración es una prueba de concepto de que la decodificación de intentos de movimientos de habla a partir de grabaciones intracorticales es un enfoque prometedor, pero aún no es un sistema completo y clínicamente viable”, admitieron los investigadores en su artículo.
Para mejorar la tasa de error de su sistema, los científicos proponen sondear más áreas del cerebro y, al mismo tiempo, optimizar el algoritmo.
Fuente: BioRxiv