Si bien los expertos en robótica han introducido sistemas robóticos cada vez más sofisticados en las últimas décadas, la mayoría de las soluciones introducidas hasta ahora están preprogramadas y entrenadas para abordar tareas específicas.
La capacidad de enseñar continuamente a los robots nuevas habilidades mientras se interactúa con ellos podría ser muy beneficiosa y podría facilitar su uso generalizado.
Investigadores de la Universidad Estatal de Arizona (ASU) desarrollaron recientemente un nuevo enfoque computacional que podría permitir a los usuarios entrenar continuamente a los robots en nuevas tareas a través de interacciones basadas en el diálogo.
Este enfoque se utilizó inicialmente para enseñar a un manipulador robótico cómo preparar con éxito un sándwich frío.
“Nuestro objetivo es contribuir al despliegue de robots en los hogares de las personas que puedan aprender a cocinar comidas frías“, dijo Nakul Gopalan, autor supervisor del artículo.
“Queremos esto desde una perspectiva del usuario donde entendamos qué comportamientos necesitan las personas de un robot doméstico.
“Esta perspectiva del usuario nos ha llevado a utilizar el lenguaje y el diálogo al comunicarnos con los robots. Desafortunadamente, estos robots podrían no saberlo todo, como por ejemplo cómo cocinar pasta para ti”.
El objetivo principal del reciente trabajo de Gopalan y sus colegas era idear un método que permitiera a los robots adquirir rápidamente habilidades o comportamientos previamente desconocidos de los agentes humanos.
En un artículo anterior, presentado en la Conferencia AAAI sobre Inteligencia Artificial, el equipo se centró en enseñar a los robots a completar tareas visuales mediante interacciones basadas en diálogos.
Su nuevo estudio se basa en este esfuerzo anterior, presentando un método más completo para el entrenamiento de robots basado en diálogos.
“Nuestro objetivo de este trabajo es mejorar la aplicabilidad de los robots al permitir que los usuarios personalicen sus robots”, dijo Weiwei Gu, coautor del artículo.
“Como los robots necesitan completar diferentes tareas para diferentes usuarios, y completar estas tareas requiere diferentes habilidades, es imposible para los fabricantes entrenar previamente a los robots con todas las habilidades que necesitan para todos estos escenarios.
Por lo tanto, los robots necesitan obtener estas habilidades y conocimientos relevantes para la tarea de los usuarios”.
Para garantizar que un robot pueda adquirir efectivamente nuevas habilidades de los usuarios, el equipo tuvo que superar varios desafíos.
En primer lugar, tuvieron que asegurarse de que los usuarios humanos estuvieran involucrados mientras enseñaban a un robot y que el robot comunicara cualquier duda o solicitara información adicional de maneras que los usuarios no expertos pudieran entender.
“En segundo lugar, el robot necesita capturar el conocimiento de solo unas pocas interacciones con los usuarios, ya que los usuarios no pueden quedarse con el robot una cantidad infinita de tiempo“, dijo Gu.
“Por último, el robot no debe olvidar ningún conocimiento preexistente a pesar de obtener nuevos conocimientos”.
Gopalan, Gu y sus colegas Suresh Kondepudi y Lixiao Huang se propusieron abordar colectivamente todos estos requisitos de aprendizaje continuo.
Su sistema de aprendizaje continuo interactivo propuesto aborda estas tres subtareas a través de tres componentes distintos.
“En primer lugar, un sistema de diálogo basado en un modelo de lenguaje grande (LLM) hace preguntas a los usuarios para adquirir cualquier conocimiento que podrían no tener o continuar interactuando con personas“, explicó Gopalan.
“Pero, ¿cómo sabe el robot que no sabe algo?
“Para solucionar este problema, hemos entrenado un segundo componente en una biblioteca de habilidades robóticas y hemos aprendido sus asignaciones a comandos de lenguaje.
Si una habilidad solicitada no se acerca al lenguaje que el robot ya conoce, pide una demostración.”
El sistema recientemente desarrollado por el equipo también incluye un mecanismo que permite a los robots entender cuándo los humanos están demostrando cómo completar una tarea.
Si las demostraciones proporcionadas fueron insuficientes y aún no adquirieron una habilidad de manera confiable, el módulo permite a los robots solicitar otras adicionales.
“Utilizamos conjuntamente representaciones de habilidades y representaciones de lenguaje para modelar el conocimiento de los robots de una habilidad“, dijo Gu.
“Cuando el robot necesita realizar una habilidad, primero estima si posee la capacidad de realizarla directamente comparando las representaciones de lenguaje de la habilidad y las de todas las habilidades que posee el robot.
“El robot realiza directamente la habilidad si está seguro de que puede hacerlo. De lo contrario, le pide al usuario que demuestre la habilidad realizándola él mismo frente a los robots.”
Básicamente, después de que un robot observa a un usuario completar una tarea específica, el sistema del equipo determina que ya posee las habilidades necesarias para completarla, basándose en la información visual recopilada.
Si el sistema predice que el robot aún no ha adquirido la nueva habilidad, el robot le pedirá al usuario que delinee las trayectorias asociadas al robot utilizando un control remoto, de modo que pueda agregarlas a su biblioteca de habilidades y completar la misma tarea de forma independiente en el futuro.
“Conectamos estas representaciones de habilidades con un LLM para permitir que el robot exprese sus dudas, de modo que incluso los usuarios no expertos puedan comprender los requisitos del robot y ayudar en consecuencia”, dijo Gu.
El segundo módulo del sistema se basa en transformadores de fragmentación de acciones (ACT) preentrenados y ajustados con adaptación de bajo rango (LoRA).
Finalmente, el equipo desarrolló un módulo de aprendizaje continuo que permite que un robot agregue continuamente nuevas habilidades a su biblioteca de habilidades.
“Después de que el robot se entrena previamente con ciertas habilidades preseleccionadas, los pesos mayoritarios de la red neuronal son fijos, y solo una pequeña parte de los pesos introducidos por la adaptación de bajo rango se utiliza para aprender nuevas habilidades para los robots“, dijo Gu.
“Descubrimos que nuestro algoritmo era capaz de aprender nuevas habilidades de manera eficiente sin olvidar catastróficamente ninguna habilidad preexistente”.
Los investigadores evaluaron su sistema de aprendizaje de habilidades de circuito cerrado propuesto en una serie de pruebas del mundo real, aplicándolo a un manipulador robótico Franka FR3.
Este robot interactuó con ocho usuarios humanos y aprendió gradualmente a realizar una tarea cotidiana sencilla, como preparar un sándwich.
“El hecho de que podamos demostrar un método de entrenamiento de habilidades de circuito cerrado con diálogo con usuarios reales es impresionante por sí solo“, dijo Gopalan.
“Mostramos que el robot puede preparar sándwiches enseñados por usuarios que vinieron a nuestro laboratorio”.
Los resultados iniciales obtenidos por los investigadores fueron muy prometedores, ya que se descubrió que el componente ACT-LORA adquiría nuevas habilidades perfeccionadas con una precisión del 100% después de solo cinco demostraciones humanas.
Además, el modelo mantuvo una precisión del 74,75% en las habilidades previamente entrenadas, superando a otros modelos similares.
“Estamos muy emocionados de que el sistema robótico que diseñamos fuera capaz de funcionar con usuarios reales, ya que muestra un futuro prometedor para las aplicaciones robóticas reales para este trabajo”, dijo Gu.
“Sin embargo, encontramos margen para mejorar la eficacia de la comunicación de un sistema de este tipo”.
Aunque el sistema de aprendizaje recientemente desarrollado arrojó buenos resultados en los experimentos del equipo, también tiene algunas limitaciones.
Por ejemplo, el equipo descubrió que no podía permitir que los robots y los usuarios humanos se turnaran, por lo que dependía de los investigadores para dilucidar a quién le tocaba realizar la tarea en cuestión.
“Si bien nuestros hallazgos fueron emocionantes para nosotros, también observamos que el robot tarda en aprender y esto puede resultar irritante para los usuarios“, dijo Gopalan.
“Aún tenemos que encontrar mecanismos para acelerar este proceso, que es un problema central de aprendizaje automático que pretendemos resolver a continuación.
“Queremos que este trabajo llegue a los hogares de las personas para realizar experimentos reales, de modo que sepamos dónde existen los desafíos en el uso de robots en una situación de cuidado domiciliario”.
El sistema desarrollado por Gu, Gopalan y sus colegas pronto podría mejorarse aún más y probarse en una gama más amplia de tareas de cocina.
Los investigadores ahora están trabajando en resolver los problemas de turnos que observaron y en ampliar el conjunto de comidas que los usuarios pueden enseñar a los robots a cocinar.
También planean realizar más experimentos con un grupo más grande de participantes humanos.
“El problema de los turnos es un problema interesante en las interacciones naturales“, agregó Gu.
“Este problema de investigación también tiene fuertes implicaciones de aplicación en robots domésticos interactivos.
“Además de abordar este problema, estamos interesados en ampliar el tamaño de este trabajo introduciendo más tareas diferentes y experimentando con nuestro sistema con usuarios de demografías del mundo real”.
Fuente: arXiv