Mejoras para que los robots aprendan a través de videos de demostración humana

Comparta este Artículo en:

Para implementarse con éxito en entornos del mundo real, los robots deben ser capaces de completar de manera confiable diversas tareas cotidianas, desde tareas domésticas hasta procesos industriales.

Algunas de las tareas que podrían realizar implican manipular telas, por ejemplo, doblar ropa para guardarla en un armario o ayudar a adultos mayores con problemas de movilidad a anudarse las corbatas antes de un evento social.

Hasta ahora, desarrollar robots que puedan abordar eficazmente estas tareas ha resultado ser un desafío.

Muchos enfoques propuestos para entrenar robots en tareas de manipulación de telas se basan en el aprendizaje por imitación, una técnica para entrenar el control de robots utilizando videos, imágenes de captura de movimiento y otros datos de humanos que completan las tareas de interés.

Si bien algunas de estas técnicas lograron resultados alentadores, para funcionar bien normalmente requieren cantidades sustanciales de datos de demostración en humanos.

Estos datos pueden ser costosos y difíciles de recopilar, mientras que los conjuntos de datos de código abierto existentes no siempre contienen tantos datos como los utilizados para entrenar otras técnicas computacionales, como la visión por computadora o los modelos generativos de IA.

Investigadores de la Universidad Nacional de Singapur, la Universidad Jiao Tong de Shanghai y la Universidad de Nanjing introdujeron recientemente un enfoque alternativo que podría mejorar y simplificar el entrenamiento de algoritmos robóticos mediante demostraciones humanas.

Este enfoque está diseñado para aprovechar algunos de los muchos videos publicados en línea todos los días, utilizándolos como demostraciones humanas de tareas cotidianas.

“Este trabajo comienza con una idea simple, la de construir un sistema que permita a los robots utilizar innumerables videos de demostración humana en línea para aprender habilidades de manipulación complejas“, dijo Weikun Peng, coautor del artículo.

“En otras palabras, dado un vídeo de demostración humano arbitrario, queríamos que el robot completara la misma tarea que se muestra en el vídeo”.

Si bien estudios anteriores también introdujeron técnicas de aprendizaje por imitación que aprovechaban secuencias de video, utilizaron videos de dominios específicos (es decir, videos de humanos completando tareas específicas en el mismo entorno en el que el robot luego abordaría la tarea), a diferencia de videos arbitrarios. recogidos en cualquier entorno.

El marco desarrollado por Peng y sus colegas, por otro lado, está diseñado para permitir el aprendizaje por imitación de robots a partir de videos de demostración arbitrarios que se encuentran en línea.

El enfoque del equipo tiene tres componentes principales, denominados Real2Sim, Learn@Sim y Sim2Real.

El primero de estos componentes es la parte central y más importante del marco.

“Real2Sim rastrea el movimiento del objeto en el video de demostración y replica el mismo movimiento en un modelo de malla en una simulación“, explicó Peng.

“En otras palabras, intentamos replicar la demostración humana en la simulación.

Finalmente, obtenemos una secuencia de mallas de objetos, que representan la trayectoria real del objeto en el terreno”.

El enfoque de los investigadores utiliza mallas (es decir, representaciones digitales precisas de la geometría, la forma y la dinámica de un objeto) como representaciones intermedias.

Después de que el componente Real2Sim replica una demostración humana en un entorno simulado, el segundo componente del marco, denominado Learn@Sim, aprende los puntos de agarre y colocación que permitirían a un robot realizar las mismas acciones mediante el aprendizaje por refuerzo.

“Después de aprender a captar puntos y colocar puntos en la simulación, implementamos la política en un robot real de doble brazo, que es el tercer paso de nuestro proceso (es decir, Sim2Real)”, dijo Peng.

“Entrenamos una política residual para mitigar la brecha Sim2Real”.

Los investigadores evaluaron el enfoque propuesto en una serie de pruebas, centrándose específicamente en la tarea de anudar una corbata.

Si bien esta tarea puede ser extremadamente difícil para los robots, el enfoque del equipo permitió que un manipulador robótico la completara con éxito.

“En particular, muchos trabajos anteriores requieren videos de demostración ‘en el dominio’, lo que significa que la configuración de los videos de demostración debe ser la misma que la configuración del entorno de ejecución del robot“, dijo Peng.

“Nuestro método, por otro lado, puede aprender de videos de demostración ‘fuera de dominio’, ya que extraemos el movimiento del objeto en el espacio 3D del video de demostración“.

En el futuro, el nuevo enfoque introducido por Peng y sus colegas podría aplicarse a otras tareas complejas y desafiantes de manipulación de robots.

En última instancia, podría facilitar el entrenamiento de robots mediante el aprendizaje por imitación, lo que podría permitir nuevos avances en sus habilidades.

“Mi plan para el trabajo futuro sería ampliar la idea Real-Sim-Real a otras tareas“, añadió Peng.

“Si podemos replicar el movimiento de un objeto en simulación, ¿podríamos replicar el mundo real en simulación?

La comunidad de robótica se enfrenta a un problema de escasez de datos y, en mi opinión, si podemos replicar el mundo real en simulación, podremos recopilar más datos, transferir mejor y más eficientemente la política aprendida a robots reales”.

Fuente: TechXplore