Crean inteligencia artificial que comprende las relaciones de objetos

Comparta este Artículo en:

Un nuevo modelo de aprendizaje automático podría permitir a los robots comprender las interacciones en el mundo de la forma en que lo hacen los humanos.

Cuando los humanos miran una escena, ven objetos y las relaciones entre ellos.

En la parte superior de su escritorio, puede haber una computadora portátil a la izquierda de un teléfono, que está frente a un monitor de computadora.

Muchos modelos de aprendizaje profundo luchan por ver el mundo de esta manera porque no comprenden las relaciones entrelazadas entre objetos individuales.

Sin el conocimiento de estas relaciones, un robot diseñado para ayudar a alguien en una cocina tendría dificultades para seguir un comando como “coge la espátula que está a la izquierda de la estufa y colócala encima de la tabla de cortar“.

En un esfuerzo por resolver este problema, investigadores del MIT han desarrollado un modelo que comprende las relaciones subyacentes entre los objetos en una escena.

Su modelo representa las relaciones individuales una a la vez, luego combina estas representaciones para describir la escena general.

Esto permite que el modelo genere imágenes más precisas a partir de descripciones de texto, incluso cuando la escena incluye varios objetos que están dispuestos en diferentes relaciones entre sí.

Este trabajo podría aplicarse en situaciones en las que los robots industriales deban realizar tareas complejas de manipulación de varios pasos, como apilar artículos en un almacén o ensamblar electrodomésticos.

También mueve el campo un paso más cerca de habilitar máquinas que puedan aprender e interactuar con sus entornos más como lo hacen los humanos.

“Cuando miro una mesa, no puedo decir que haya un objeto en la ubicación XYZ.

Nuestras mentes no funcionan así.

En nuestras mentes, cuando entendemos una escena, realmente la entendemos basándonos en las relaciones entre los objetos.

Creemos que al construir un sistema que pueda comprender las relaciones entre los objetos, podríamos usar ese sistema para manipular y cambiar nuestros entornos de manera más efectiva ”, dice Yilun Du, estudiante de doctorado en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) y co -autor principal del artículo.

El marco que desarrollaron los investigadores puede generar una imagen de una escena basada en una descripción textual de los objetos y sus relaciones, como “Una mesa de madera a la izquierda de un taburete azul. Un sofá rojo a la derecha de un taburete azul “.

Su sistema dividiría estas oraciones en dos partes más pequeñas que describieran cada relación individual (“una mesa de madera a la izquierda de un taburete azul” y “un sofá rojo a la derecha de un taburete azul“), y luego modelaría cada parte por separado.

Luego, esas piezas se combinan mediante un proceso de optimización que genera una imagen de la escena.

Los investigadores utilizaron una técnica de aprendizaje automático llamada modelos basados en energía para representar las relaciones de los objetos individuales en la descripción de una escena.

Esta técnica les permite usar un modelo basado en energía para codificar cada descripción relacional y luego componerlos juntos de una manera que infiera todos los objetos y relaciones.

Al dividir las oraciones en partes más cortas para cada relación, el sistema puede recombinarlas de varias formas, por lo que es más capaz de adaptarse a descripciones de escenas que no había visto antes, explica Li.

“Otros sistemas tomarían todas las relaciones de manera integral y generarían la imagen de una sola vez a partir de la descripción.

Sin embargo, estos enfoques fallan cuando tenemos descripciones fuera de distribución, como descripciones con más relaciones, ya que estos modelos no pueden realmente adaptar una toma para generar imágenes que contengan más relaciones.

Sin embargo, a medida que estamos componiendo estos modelos separados y más pequeños juntos, podemos modelar un mayor número de relaciones y adaptarnos a combinaciones novedosas ”, dice Du.

El sistema también funciona a la inversa: dada una imagen, puede encontrar descripciones de texto que coincidan con las relaciones entre los objetos de la escena.

Además, su modelo se puede utilizar para editar una imagen reorganizando los objetos en la escena para que coincidan con una nueva descripción.

Los investigadores compararon su modelo con otros métodos de aprendizaje profundo a los que se les dio descripciones de texto y se les asignó la tarea de generar imágenes que mostraran los objetos correspondientes y sus relaciones.

En cada caso, su modelo superó las líneas de base.

También pidieron a los humanos que evaluaran si las imágenes generadas coincidían con la descripción de la escena original.

En los ejemplos más complejos, donde las descripciones contenían tres relaciones, el 91 por ciento de los participantes concluyó que el nuevo modelo funcionó mejor.

“Una cosa interesante que encontramos es que para nuestro modelo, podemos aumentar nuestra oración de tener una descripción de relación a tener dos, o tres, o incluso cuatro descripciones, y nuestro enfoque continúa siendo capaz de generar imágenes que son correctamente descritas por aquellos descripciones, mientras que otros métodos fallan ”, dice Du.

Los investigadores también mostraron las imágenes modelo de escenas que no habían visto antes, así como varias descripciones de texto diferentes de cada imagen, y pudieron identificar con éxito la descripción que mejor se adaptaba a las relaciones de los objetos en la imagen.

Y cuando los investigadores le dieron al sistema dos descripciones de escenas relacionales que describían la misma imagen pero de diferentes maneras, el modelo pudo entender que las descripciones eran equivalentes.

Los investigadores quedaron impresionados por la solidez de su modelo, especialmente cuando trabajaban con descripciones que no habían encontrado antes.

“Esto es muy prometedor porque está más cerca de cómo funcionan los humanos.

Es posible que los humanos solo vean varios ejemplos, pero podemos extraer información útil de esos pocos ejemplos y combinarlos para crear combinaciones infinitas.

Y nuestro modelo tiene una propiedad tal que le permite aprender de menos datos pero generalizar a escenas o generaciones de imágenes más complejas ”, dice Li.

Si bien estos primeros resultados son alentadores, a los investigadores les gustaría ver cómo funciona su modelo en imágenes del mundo real que son más complejas, con fondos ruidosos y objetos que se bloquean entre sí.

También están interesados en incorporar eventualmente su modelo en sistemas robóticos, permitiendo que un robot infiera relaciones de objetos a partir de videos y luego aplique este conocimiento para manipular objetos en el mundo.

“Desarrollar representaciones visuales que puedan lidiar con la naturaleza compositiva del mundo que nos rodea es uno de los problemas abiertos clave en la visión por computadora.

Este artículo avanza significativamente en este problema al proponer un modelo basado en la energía que modela explícitamente múltiples relaciones entre los objetos representados en la imagen.

Fuente: MIT