Inteligencia artificial narra el entorno para personas con discapacidad visual en tiempo real

Comparta este Artículo en:

Un mundo de color y texturas pronto podría volverse más accesible para las personas ciegas o con baja visión, gracias a un nuevo software que narra lo que graba una cámara.

La herramienta, llamada WorldScribe, fue diseñada por investigadores de la Universidad de Michigan.

La herramienta utiliza modelos de lenguaje de IA generativa (GenAI) para interpretar las imágenes de la cámara y producir descripciones de texto y audio en tiempo real para ayudar a los usuarios a tomar conciencia de su entorno más rápidamente.

Puede ajustar el nivel de detalle en función de los comandos del usuario o del tiempo que un objeto está en el marco de la cámara, y el volumen se adapta automáticamente a entornos ruidosos como habitaciones llenas de gente, calles concurridas y música alta.

“Para nosotros, las personas ciegas, esto podría realmente revolucionar las formas en que trabajamos con el mundo en la vida cotidiana“, dijo Sam Rau, quien nació ciego y participó en el estudio de prueba de WorldScribe.

“No tengo ningún concepto de la vista, pero cuando probé la herramienta, obtuve una imagen del mundo real y me emocioné con todo el color y la textura a los que no habría tenido acceso de otra manera“, dijo Rau.

“Como personas ciegas, vamos completando la imagen de lo que sucede a nuestro alrededor pieza por pieza, y puede requerir mucho esfuerzo mental crear una imagen más amplia.

Pero esta herramienta puede ayudarnos a obtener la información de inmediato y, en mi opinión, nos ayuda a centrarnos en ser humanos en lugar de tratar de averiguar qué está pasando.

No sé si puedo expresar con palabras el enorme milagro que esto supone para nosotros”.

Durante el estudio de prueba, Rau se puso un auricular equipado con un teléfono inteligente y caminó por el laboratorio de investigación.

La cámara del teléfono transfirió de forma inalámbrica las imágenes a un servidor, que generó casi instantáneamente descripciones de texto y audio de los objetos en el marco de la cámara: un portátil sobre un escritorio, una pila de papeles, un televisor y cuadros colgados en la pared cercana.

Las descripciones cambiaban constantemente para coincidir con lo que estaba a la vista de la cámara, priorizando los objetos que estaban más cerca de Rau.

Una mirada rápida a un escritorio producía una descripción simple de una palabra, pero una inspección más prolongada arrojaba información sobre las carpetas y los papeles dispuestos encima.

La herramienta puede ajustar el nivel de detalle de sus descripciones alternando entre tres modelos de lenguaje de IA diferentes.

El modelo YOLO World genera rápidamente descripciones muy simples de objetos que aparecen brevemente en el marco de la cámara.

Las descripciones detalladas de los objetos que permanecen en el marco durante un período de tiempo más largo son manejadas por GPT-4, el modelo detrás de ChatGPT.

Otro modelo, Moondream, proporciona un nivel intermedio de detalle.

“Muchas de las tecnologías de asistencia existentes que aprovechan la IA se centran en tareas específicas o requieren algún tipo de interacción paso a paso. Por ejemplo, tomas una foto y luego obtienes un resultado“, dijo Anhong Guo, profesor asistente de ciencias de la computación e ingeniería y autor correspondiente del estudio.

“Ofrecer descripciones ricas y detalladas para una experiencia en vivo es un gran desafío para las herramientas de accesibilidad“, dijo Guo.

“Vimos una oportunidad de usar los modelos de IA cada vez más capaces para crear descripciones automatizadas y adaptativas en tiempo real”.

Debido a que se basa en GenAI, WorldScribe también puede responder a las tareas o consultas proporcionadas por el usuario, como priorizar las descripciones de cualquier objeto que el usuario le haya pedido a la herramienta que encuentre.

Sin embargo, algunos participantes del estudio notaron que la herramienta tenía problemas para detectar ciertos objetos, como un frasco con gotero.

Rau dice que la herramienta todavía es un poco torpe para el uso diario en su estado actual, pero dice que la usaría todos los días si pudiera integrarse en anteojos inteligentes u otro dispositivo portátil.

Los investigadores han solicitado protección de patente con la ayuda de U-M Innovation Partnerships y están buscando socios que ayuden a refinar la tecnología y llevarla al mercado.

Fuente: TechXplore