Categorías: Tecnología

Inteligencia artificial puede visualizar un mundo entero a partir de una sola imagen

Comparta este Artículo en:

Científicos informáticos de Johns Hopkins han creado un sistema de inteligencia artificial capaz de “imaginar” su entorno sin tener que explorarlo físicamente, acercando la inteligencia artificial al razonamiento humano.

El nuevo sistema, llamado Generative World Explorer o GenEx, solo necesita una única imagen fija para evocar un mundo entero, lo que le da una ventaja significativa sobre los sistemas anteriores que requerían que un robot o agente se moviera físicamente a través de una escena para mapear el entorno circundante, lo que puede ser costoso, inseguro y consumir mucho tiempo.

“Digamos que estás en un área en la que nunca has estado antes: como humano, utilizas señales ambientales, experiencias pasadas y tu conocimiento del mundo para imaginar lo que podría estar a la vuelta de la esquina”, dice el autor principal Alan Yuille, profesor distinguido de Bloomberg de Ciencias Cognitivas Computacionales en Johns Hopkins.

GenEx ‘imagina’ y razona sobre su entorno de la misma manera que lo hacen los humanos, tomando decisiones informadas sobre los pasos que debe dar a continuación sin tener que verificar físicamente su entorno primero“.

GenEx utiliza un conocimiento sofisticado del mundo para generar múltiples posibilidades de lo que podría existir más allá de la imagen visible, asignando diferentes probabilidades a cada escenario en lugar de hacer una única suposición definitiva.

Esta capacidad de mapear mentalmente los alrededores a partir de datos visuales limitados es crucial para muchas aplicaciones del mundo real, incluso en escenarios como la respuesta a desastres.

Por ejemplo, los equipos de rescate podrían usar una sola imagen de vigilancia para ayudar a explorar sitios peligrosos desde lejos sin riesgo para los humanos o el equipo valioso.

“Esta tecnología también puede mejorar las aplicaciones de navegación, ayudar en el entrenamiento de robots autónomos y potenciar los juegos inmersivos y las experiencias de realidad virtual“, dice el autor principal Jieneng Chen, estudiante de doctorado en ciencias de la computación.

A partir de una sola imagen, GenEx genera un mundo virtual sintético realista donde los agentes de IA pueden navegar y tomar decisiones a través del razonamiento y la planificación.

El agente solo necesita una vista de su escena actual, una dirección de movimiento y la distancia a recorrer.

El agente puede avanzar, cambiar de dirección y explorar su entorno con una flexibilidad ilimitada.

Y a diferencia de las aplicaciones de exploración del mundo de la IA que parecen sueños y que ahora están ganando popularidad (como Oasis, un simulador de Minecraft generado por IA), los entornos de GenEx son consistentes.

Esto se debe a que el modelo se entrenó con datos a gran escala con una técnica llamada “aprendizaje de consistencia esférica“, que garantiza que sus predicciones de nuevos entornos encajen en una esfera panorámica.

Medimos esto haciendo que GenEx navegue por un camino cerrado muestreado al azar, volviendo al origen en un bucle fijo“, dice Chen.

“Nuestro objetivo era hacer que las vistas de inicio y fin fueran idénticas, asegurando así la coherencia en el modelado del mundo de GenEx“.

Si bien esta coherencia no es exclusiva de GenEx, el equipo de investigación dice que es el primer y único explorador de mundos generativo que permite a los agentes de IA tomar decisiones lógicas basadas en nuevas observaciones sobre el mundo que están explorando en un proceso que los científicos informáticos llaman “política aumentada por la imaginación”.

Por ejemplo, digamos que estás conduciendo y la luz que tienes delante está en verde, pero notas que el taxi que tienes delante se ha detenido de forma abrupta e inesperada.

Salir del carro para investigar sería peligroso, pero si imaginas la escena desde la perspectiva del taxista, puedes pensar en una posible razón para su parada repentina: tal vez se aproxima un vehículo de emergencia y tú también deberías abrirle paso.

“Si bien los humanos pueden usar otras señales, como las sirenas, para identificar este tipo de situaciones, los modelos de IA actuales desarrollados para la conducción autónoma y otras tareas similares solo tienen acceso a entradas de imágenes y lenguaje, lo que hace necesaria la exploración imaginativa en ausencia de otra información multimodal”, dice Chen.

El equipo de Hopkins evaluó la consistencia y la calidad de la salida de GenEx en comparación con los puntos de referencia de generación de video estándar.

Los investigadores también realizaron experimentos con usuarios humanos para determinar si GenEx podía aumentar sus habilidades lógicas y de planificación y cómo, y descubrieron que los usuarios tomaban decisiones más precisas e informadas cuando tenían acceso a las capacidades de exploración del modelo.

“Nuestros resultados experimentales demuestran que GenEx puede generar observaciones consistentes y de alta calidad durante una exploración prolongada de un gran mundo físico virtual“, dice Chen.

“Además, las creencias actualizadas con las observaciones generadas pueden informar a un modelo de toma de decisiones existente, como un agente de modelo de lenguaje grande, e incluso a usuarios humanos para hacer mejores planes“.

Junto con Tianmin Shu y Daniel Khashabi, ambos profesores adjuntos de informática, y el estudiante de grado TaiMing Lu, Yuille y Chen incorporarán datos de sensores del mundo real y escenas dinámicas para escenarios de planificación más realistas e inmersivos.

Rama Chellappa, profesor distinguido de Bloomberg en Visión artificial e Inteligencia artificial, y Cheng Peng, profesor asistente de investigación en el Instituto de Matemáticas para la Ciencia de Datos, ayudarán a conservar los datos de los sensores del mundo real.

El proyecto interdisciplinario, que involucra visión artificial, procesamiento del lenguaje natural y ciencia cognitiva, marca un logro significativo hacia el logro de una inteligencia similar a la humana en la IA encarnada, dice Yuille.

Fuente: arXiv

 

Editor PDM

Entradas recientes

OpenAI anuncia o3 y o3-mini: sus nuevos modelos de razonamiento avanzan a pasos de gigante

Estos son los sucesores directos de o1 y o1-mini, que se anunciaron en septiembre a…

15 hours hace

LG presenta televisor OLED transparente de 77 pulgadas

LG Electronics ha lanzado en Estados Unidos el LG SIGNATURE OLED T de 77 pulgadas,…

15 hours hace

Microsoft lanza IA para Windows que traduce y agrega subtítulos a sus videos en tiempo real

Microsoft ha lanzado una función para Windows 11 que ofrece subtítulos y traducción en tiempo…

15 hours hace

Seagate presenta el Exos M, un monstruoso disco duro de 32 TB

Seagate ha presentado el Exos M, su primer disco duro con grabación magnética asistida por…

15 hours hace

Demuestran la existencia de una nueva clase de magnetismo: “altermagnetismo”

Los materiales magnéticos son esenciales para nuestra tecnología, desde discos duros hasta microchips. (more…)

3 days hace

Trabajan en dispositivos portátiles alimentados por el calor corporal

Un equipo de investigación dirigido por la QUT ha desarrollado una película ultradelgada y flexible…

3 days hace
Click to listen highlighted text!