Imagine un pizzero trabajando con una bola de masa. Podría usar una espátula para levantar la masa sobre una tabla de cortar y luego usar un rodillo para aplanarla en un círculo. Fácil, ¿verdad? No si este pizzero es un robot.
Para un robot, trabajar con un objeto deformable como la masa es complicado porque la forma de la masa puede cambiar de muchas formas, que son difíciles de representar con una ecuación.
Además, crear una nueva forma a partir de esa masa requiere varios pasos y el uso de diferentes herramientas.
Es especialmente difícil para un robot aprender una tarea de manipulación con una larga secuencia de pasos, donde hay muchas opciones posibles, ya que el aprendizaje a menudo ocurre a través de prueba y error.
Investigadores del MIT, la Universidad Carnegie Mellon y la Universidad de California en San Diego han encontrado una mejor manera.
Crearon un marco para un sistema de manipulación robótica que utiliza un proceso de aprendizaje de dos etapas, lo que podría permitir que un robot realice tareas complejas de manipulación de masa durante un largo período de tiempo.
Un algoritmo de “maestro” resuelve cada paso que el robot debe dar para completar la tarea.
Luego, entrena un modelo de aprendizaje automático de “estudiante” que aprende ideas abstractas sobre cuándo y cómo ejecutar cada habilidad que necesita durante la tarea, como usar un rodillo.
Con este conocimiento, el sistema razona sobre cómo ejecutar las habilidades para completar toda la tarea.
Los investigadores muestran que este método, al que llaman DiffSkill, puede realizar tareas de manipulación complejas en simulaciones, como cortar y esparcir masa, o juntar trozos de masa alrededor de una tabla de cortar, mientras supera a otros métodos de aprendizaje automático.
Más allá de la elaboración de pizzas, este método podría aplicarse en otros entornos en los que un robot necesita manipular objetos deformables, como un robot de cuidado que alimenta, baña o viste a una persona mayor o con discapacidad motora.
“Este método está más cerca de cómo nosotros, como humanos, planificamos nuestras acciones.
Cuando un ser humano realiza una tarea a largo plazo, no estamos escribiendo todos los detalles.
Tenemos un planificador de nivel superior que nos dice aproximadamente cuáles son las etapas y algunos de los objetivos intermedios que debemos alcanzar en el camino, y luego los ejecutamos”, dice Yunzhu Li, estudiante de posgrado en Ciencias de la Computación e Inteligencia Artificial. Laboratory (CSAIL), y autor de un artículo que presenta DiffSkill.
El “maestro” en el marco de DiffSkill es un algoritmo de optimización de trayectoria que puede resolver tareas de corto plazo, donde el estado inicial de un objeto y la ubicación del objetivo están muy juntos.
El optimizador de trayectoria funciona en un simulador que modela la física del mundo real (conocido como simulador de física diferenciable, que pone la “Diff” en “DiffSkill”).
El algoritmo del “maestro” usa la información en el simulador para aprender cómo debe moverse la masa en cada etapa, una a la vez, y luego genera esas trayectorias.
Luego, la red neuronal del “estudiante” aprende a imitar las acciones del maestro.
Como entradas, utiliza dos imágenes de cámara, una que muestra la masa en su estado actual y otra que muestra la masa al final de la tarea.
La red neuronal genera un plan de alto nivel para determinar cómo vincular diferentes habilidades para alcanzar la meta.
Luego genera trayectorias específicas de horizonte corto para cada habilidad y envía comandos directamente a las herramientas.
Los investigadores utilizaron esta técnica para experimentar con tres tareas diferentes de manipulación de masa simulada.
En una tarea, el robot usa una espátula para levantar la masa sobre una tabla de cortar y luego usa un rodillo para aplanarla.
En otra, el robot usa una pinza para recoger la masa de todo el mostrador, la coloca en una espátula y la transfiere a una tabla de cortar.
En la tercera tarea, el robot corta una pila de masa por la mitad con un cuchillo y luego usa una pinza para transportar cada pieza a diferentes lugares.
DiffSkill pudo superar las técnicas populares que se basan en el aprendizaje por refuerzo, donde un robot aprende una tarea a través de prueba y error.
De hecho, DiffSkill fue el único método que pudo completar con éxito las tres tareas de manipulación de la masa.
Curiosamente, los investigadores descubrieron que la red neuronal del “estudiante” incluso podía superar al algoritmo del “maestro“, dice Lin.
“Nuestro marco proporciona una forma novedosa para que los robots adquieran nuevas habilidades.
Estas habilidades se pueden encadenar para resolver tareas más complejas que están más allá de la capacidad de los sistemas de robots anteriores”, dice Lin.
Debido a que su método se enfoca en controlar las herramientas (espátula, cuchillo, rodillo, etc.), podría aplicarse a diferentes robots, pero solo si usan las herramientas específicas definidas por los investigadores.
En el futuro, planean integrar la forma de una herramienta en el razonamiento de la red “estudiante” para que pueda aplicarse a otros equipos.
Los investigadores tienen la intención de mejorar el rendimiento de DiffSkill mediante el uso de datos 3D como entradas, en lugar de imágenes que pueden ser difíciles de transferir de la simulación al mundo real.
También quieren hacer que el proceso de planificación de redes neuronales sea más eficiente y recopilar datos de entrenamiento más diversos para mejorar la capacidad de DiffSkill de generalizar a nuevas situaciones.
A la larga, esperan aplicar DiffSkill a tareas más diversas, incluida la manipulación de telas.
Fuente: Openreview