Nueva técnica ayuda a los robots a empaquetar objetos en un espacio reducido

Comparta este Artículo en:

Investigadores convencieron a una familia de modelos de IA generativa para que trabajaran juntos para resolver problemas de manipulación de robots de varios pasos.

Cualquiera que haya intentado alguna vez empacar una cantidad de equipaje de tamaño familiar en el baúl de un sedán sabe que este es un problema difícil. Los robots también luchan con tareas de embalaje densas.

Para el robot, resolver el problema del embalaje implica satisfacer muchas limitaciones, como apilar el equipaje de manera que las maletas no se caigan del maletero, no colocar objetos pesados encima de los más ligeros y evitar colisiones entre el brazo robótico y el parachoques del auto.

Algunos métodos tradicionales abordan este problema de forma secuencial, adivinando una solución parcial que cumpla una restricción a la vez y luego verificando si se violó alguna otra restricción.

Con una larga secuencia de acciones que tomar y un montón de equipaje que empacar, este proceso puede llevar mucho tiempo.

Los investigadores del MIT utilizaron una forma de IA generativa, llamada modelo de difusión, para resolver este problema de manera más eficiente.

Su método utiliza una colección de modelos de aprendizaje automático, cada uno de los cuales está entrenado para representar un tipo específico de restricción.

Estos modelos se combinan para generar soluciones globales al problema del embalaje, teniendo en cuenta todas las limitaciones a la vez.

Su método fue capaz de generar soluciones efectivas más rápido que otras técnicas y produjo una mayor cantidad de soluciones exitosas en la misma cantidad de tiempo.

Es importante destacar que su técnica también pudo resolver problemas con combinaciones novedosas de restricciones y una mayor cantidad de objetos, que los modelos no vieron durante el entrenamiento.

Debido a esta generalización, su técnica se puede utilizar para enseñar a los robots cómo comprender y cumplir las limitaciones generales de los problemas de embalaje, como la importancia de evitar colisiones o el deseo de que un objeto esté al lado de otro.

Los robots entrenados de esta manera podrían aplicarse a una amplia gama de tareas complejas en diversos entornos, desde el cumplimiento de pedidos en un almacén hasta la organización de una estantería en la casa de alguien.

“Mi visión es impulsar a los robots a realizar tareas más complicadas que tienen muchas restricciones geométricas y decisiones más continuas que deben tomarse; estos son los tipos de problemas que enfrentan los robots de servicios en nuestros entornos humanos diversos y no estructurados.

Con la poderosa herramienta de los modelos de difusión composicional, ahora podemos resolver estos problemas más complejos y obtener excelentes resultados de generalización”, afirma Zhutian Yang, estudiante de posgrado en ingeniería eléctrica e informática y autor principal de un artículo sobre esta nueva técnica de aprendizaje automático.

Los problemas continuos de satisfacción de restricciones son particularmente desafiantes para los robots.

Estos problemas aparecen en tareas de manipulación de robots de varios pasos, como empacar artículos en una caja o poner la mesa para cenar.

A menudo implican lograr una serie de restricciones, incluidas restricciones geométricas, como evitar colisiones entre el brazo del robot y el entorno; limitaciones físicas, como apilar objetos para que sean estables; y restricciones cualitativas, como colocar una cuchara a la derecha de un cuchillo.

Puede haber muchas restricciones y varían según los problemas y entornos según la geometría de los objetos y los requisitos especificados por los humanos.

Para resolver estos problemas de manera eficiente, los investigadores del MIT desarrollaron una técnica de aprendizaje automático llamada Diffusion-CCSP.

Los modelos de difusión aprenden a generar nuevas muestras de datos que se asemejan a muestras en un conjunto de datos de entrenamiento refinando iterativamente su salida.

Para ello, los modelos de difusión aprenden un procedimiento para realizar pequeñas mejoras en una solución potencial.

Luego, para resolver un problema, comienzan con una solución aleatoria muy mala y luego la mejoran gradualmente.

Por ejemplo, imagine colocar platos y utensilios al azar sobre una mesa simulada, permitiendo que se superpongan físicamente.

Las restricciones sin colisiones entre objetos harán que se empujen entre sí, mientras que las restricciones cualitativas arrastrarán el plato hacia el centro, alinearán el tenedor de ensalada y el tenedor de cena, etc.

Los modelos de difusión son muy adecuados para este tipo de problema continuo de satisfacción de restricciones porque las influencias de múltiples modelos sobre la pose de un objeto pueden combinarse para fomentar la satisfacción de todas las restricciones, explica Yang.

Al partir cada vez de una suposición inicial aleatoria, los modelos pueden obtener un conjunto diverso de buenas soluciones.

Para Diffusion-CCSP, los investigadores querían capturar la interconexión de las limitaciones.

Al empaquetar, por ejemplo, una restricción podría requerir que un determinado objeto esté al lado de otro objeto, mientras que una segunda restricción podría especificar dónde debe ubicarse uno de esos objetos.

Diffusion-CCSP aprende una familia de modelos de difusión, uno para cada tipo de restricción.

Los modelos se entrenan juntos, por lo que comparten algunos conocimientos, como la geometría de los objetos que se van a empaquetar.

Luego, los modelos trabajan juntos para encontrar soluciones, en este caso ubicaciones para los objetos a colocar, que satisfagan conjuntamente las restricciones.

“No siempre llegamos a una solución a la primera. Pero cuando sigues refinando la solución y ocurre alguna infracción, debería llevarte a una solución mejor. Obtienes orientación al hacer algo mal”, dice.

Entrenar modelos individuales para cada tipo de restricción y luego combinarlos para hacer predicciones reduce en gran medida la cantidad de datos de entrenamiento necesarios, en comparación con otros enfoques.

Sin embargo, entrenar estos modelos todavía requiere una gran cantidad de datos que demuestren problemas resueltos.

Los humanos necesitarían resolver cada problema con métodos lentos tradicionales, lo que haría prohibitivo el costo de generar dichos datos, dice Yang.

En cambio, los investigadores revirtieron el proceso y propusieron soluciones primero.

Utilizaron algoritmos rápidos para generar cajas segmentadas y encajar un conjunto diverso de objetos 3D en cada segmento, asegurando un embalaje ajustado, poses estables y soluciones sin colisiones.

“Con este proceso, la generación de datos es casi instantánea en la simulación. Podemos generar decenas de miles de entornos en los que sabemos que los problemas tienen solución”, afirma.

Entrenados con estos datos, los modelos de difusión trabajan juntos para determinar las ubicaciones en las que la pinza robótica debe colocar los objetos para realizar la tarea de embalaje y cumplir con todas las restricciones.

Realizaron estudios de viabilidad y luego demostraron Diffusion-CCSP con un robot real resolviendo una serie de problemas difíciles, incluido encajar triángulos 2D en una caja, empaquetar formas 2D con restricciones de relación espacial, apilar objetos 3D con restricciones de estabilidad y empaquetar objetos 3D con un brazo robótico.

Su método superó a otras técnicas en muchos experimentos, generando una mayor cantidad de soluciones efectivas que eran estables y libres de colisiones.

En el futuro, Yang y sus colaboradores quieren probar Diffusion-CCSP en situaciones más complicadas, como con robots que puedan moverse por una habitación.

También quieren permitir que Diffusion-CCSP aborde problemas en diferentes dominios sin la necesidad de volver a capacitarse con nuevos datos.

“Diffusion-CCSP es una solución de aprendizaje automático que se basa en potentes modelos generativos existentes“, afirma Danfei Xu, profesor asistente en la Escuela de Computación Interactiva del Instituto de Tecnología de Georgia e investigador científico de NVIDIA AI, que no participó en este trabajo.

“Puede generar rápidamente soluciones que satisfacen simultáneamente múltiples restricciones al componer modelos de restricciones individuales conocidos.

Aunque todavía se encuentra en las primeras fases de desarrollo, los avances continuos en este enfoque prometen permitir sistemas autónomos más eficientes, seguros y confiables en diversas aplicaciones”.

Fuente: MIT News