Un sistema de aprendizaje automático entrenado con millones de clips de audio humanos es prometedor para detectar COVID-19 y tuberculosis.
Un equipo dirigido por científicos de Google ha desarrollado una herramienta de aprendizaje automático que puede ayudar a detectar y controlar condiciones de salud mediante la evaluación de ruidos como la tos y la respiración.
El sistema de inteligencia artificial, basado en millones de clips de audio de sonidos humanos, algún día podría ser utilizado por los médicos para diagnosticar enfermedades como el COVID-19 y la tuberculosis y para evaluar qué tan bien están funcionando los pulmones de una persona.
Esta no es la primera vez que un grupo de investigación explora el uso del sonido como biomarcador de enfermedades.
El concepto ganó fuerza durante la pandemia de COVID-19, cuando los científicos descubrieron que era posible detectar la enfermedad respiratoria a través de la tos de una persona.
Lo nuevo del sistema de Google, llamado Representaciones acústicas de salud (HeAR), es el enorme conjunto de datos con el que fue entrenado y el hecho de que se puede ajustar para realizar múltiples tareas.
Los investigadores dicen que es demasiado pronto para saber si HeAR se convertirá en un producto comercial.
Por ahora, el plan es dar acceso al modelo a los investigadores interesados para que puedan utilizarlo en sus propias investigaciones.
“Nuestro objetivo como parte de Google Research es estimular la innovación en este campo incipiente“, dice Sujay Kakarmath, gerente de producto de Google en la ciudad de Nueva York que trabajó en el proyecto.
La mayoría de las herramientas de inteligencia artificial que se están desarrollando en este espacio se basan en grabaciones de audio (por ejemplo, de tos) que se combinan con información de salud de la persona que emitió los sonidos.
Por ejemplo, los clips podrían estar etiquetados para indicar que la persona tenía bronquitis en el momento de la grabación.
La herramienta llega a asociar características de los sonidos con la etiqueta de datos, en un proceso de entrenamiento llamado aprendizaje supervisado.
“En medicina, tradicionalmente hemos utilizado mucho el aprendizaje supervisado, lo cual es fantástico porque tienes una validación clínica”, dice Yael Bensoussan, laringóloga de la Universidad del Sur de Florida en Tampa.
“La desventaja es que realmente limita los conjuntos de datos que se pueden utilizar, porque faltan conjuntos de datos anotados”.
En cambio, los investigadores de Google utilizaron el aprendizaje autosupervisado, que se basa en datos sin etiquetar.
A través de un proceso automatizado, extrajeron más de 300 millones de clips de sonido cortos de tos, respiración, carraspeo y otros sonidos humanos de videos de YouTube disponibles públicamente.
Cada clip se convirtió en una representación visual del sonido llamada espectrograma.
Luego, los investigadores bloquearon segmentos de los espectrogramas para ayudar al modelo a aprender a predecir las partes faltantes.
Esto es similar a cómo se le enseñó al gran modelo de lenguaje que subyace al chatbot ChatGPT a predecir la siguiente palabra en una oración después de haber sido entrenado con innumerables ejemplos de texto humano.
Utilizando este método, los investigadores crearon lo que llaman un modelo básico, que, según dicen, puede adaptarse para muchas tareas.
En el caso de HeAR, el equipo de Google lo adaptó para detectar COVID-19, tuberculosis y características como si una persona fuma.
Debido a que el modelo fue entrenado en una gama tan amplia de sonidos humanos, para ajustarlo, los investigadores solo tuvieron que alimentarlo con conjuntos de datos muy limitados etiquetados con estas enfermedades y características.
En una escala donde 0,5 representa un modelo que no funciona mejor que una predicción aleatoria y 1 representa un modelo que hace una predicción precisa cada vez, HeAR obtuvo una puntuación de 0,645 y 0,710 para la detección de COVID-19, dependiendo del conjunto de datos en el que se probó: un mejor rendimiento que los modelos existentes entrenados con datos de voz o audio general.
Para la tuberculosis, la puntuación fue de 0,739.
El hecho de que los datos de entrenamiento originales fueran tan diversos (con diferentes calidades de sonido y fuentes humanas) también significa que los resultados son generalizables, dice Kakarmath.
Ali Imran, ingeniero de la Universidad de Oklahoma en Tulsa, dice que el gran volumen de datos utilizados por Google da importancia a la investigación.
“Nos da la confianza de que se trata de una herramienta fiable”, afirma.
Imran lidera el desarrollo de una aplicación llamada AI4COVID-19, que se ha mostrado prometedora para distinguir la tos de COVID-19 de otros tipos de tos.
Su equipo planea solicitar la aprobación de la Administración de Medicamentos y Alimentos de EE. UU. (FDA) para que la aplicación pueda llegar al mercado; actualmente está buscando financiación para realizar los ensayos clínicos necesarios.
Hasta el momento, ninguna herramienta aprobada por la FDA proporciona diagnóstico mediante sonidos.
El campo de la acústica sanitaria, o “audiómica”, es prometedor, afirma Bensoussan.
“La ciencia acústica existe desde hace décadas. La diferencia es que ahora, con la IA y el aprendizaje automático, tenemos los medios para recopilar y analizar una gran cantidad de datos al mismo tiempo”.
Codirige un consorcio de investigación centrado en explorar la voz como biomarcador para realizar un seguimiento de la salud.
“Existe un inmenso potencial no sólo para el diagnóstico, sino también para la detección y el seguimiento, afirma.
“No podemos repetir exploraciones o biopsias todas las semanas. Por eso la voz se convierte en un biomarcador realmente importante para el seguimiento de enfermedades”, añade.
“No es invasivo y requiere pocos recursos”.
Fuente: Nature