En la clásica serie de dibujos animados “Los Supersónicos“, Rosie, la criada robótica, pasa sin problemas de pasar la aspiradora por la casa a cocinar la cena o a sacar la basura. Pero en la vida real, entrenar a un robot de uso general sigue siendo un gran desafío.
Normalmente, los ingenieros recopilan datos específicos de un determinado robot y tarea, que utilizan para entrenar al robot en un entorno controlado.
Sin embargo, la recopilación de estos datos es costosa y lleva mucho tiempo, y es probable que el robot tenga dificultades para adaptarse a entornos o tareas que no haya visto antes.
Para entrenar mejores robots de uso general, investigadores del MIT desarrollaron una técnica versátil que combina una enorme cantidad de datos heterogéneos de muchas fuentes en un sistema que puede enseñar a cualquier robot una amplia gama de tareas.
Su método implica alinear datos de diversos dominios, como simulaciones y robots reales, y múltiples modalidades, incluidos sensores de visión y codificadores de posición del brazo robótico, en un “lenguaje” compartido que un modelo de IA generativa puede procesar.
Al combinar una cantidad tan enorme de datos, este enfoque se puede utilizar para entrenar a un robot para que realice una variedad de tareas sin la necesidad de comenzar a entrenarlo desde cero cada vez.
Este método podría ser más rápido y menos costoso que las técnicas tradicionales porque requiere muchos menos datos específicos de la tarea.
Además, superó al entrenamiento desde cero en más del 20% en simulaciones y experimentos del mundo real.
“En robótica, la gente suele afirmar que no tenemos suficientes datos de entrenamiento.
Pero en mi opinión, otro gran problema es que los datos provienen de muchos dominios, modalidades y hardware de robots diferentes.
Nuestro trabajo muestra cómo se podría entrenar a un robot con todos ellos juntos“, dice Lirui Wang, estudiante de posgrado en ingeniería eléctrica y ciencias de la computación (EECS) y autor principal del artículo sobre esta técnica.
Una “política” robótica toma observaciones de sensores, como imágenes de cámaras o mediciones propioceptivas que rastrean la velocidad y la posición de un brazo robótico, y luego le dice al robot cómo y dónde moverse.
Las políticas se suelen entrenar mediante aprendizaje por imitación, es decir, un humano demuestra acciones o teleopera un robot para generar datos que se introducen en un modelo de IA que aprende la política.
Como este método utiliza una pequeña cantidad de datos específicos de la tarea, los robots suelen fallar cuando su entorno o tarea cambia.
Para desarrollar un mejor enfoque, Wang y sus colaboradores se inspiraron en grandes modelos de lenguaje como GPT-4.
Estos modelos se entrenan previamente utilizando una enorme cantidad de datos de lenguaje diversos y luego se afinan alimentándolos con una pequeña cantidad de datos específicos de la tarea.
El preentrenamiento con tantos datos ayuda a los modelos a adaptarse para desempeñarse bien en una variedad de tareas.
“En el dominio del lenguaje, los datos son solo oraciones. En robótica, dada toda la heterogeneidad de los datos, si desea realizar un preentrenamiento de una manera similar, necesitamos una arquitectura diferente“, dice.
Los datos robóticos adoptan muchas formas, desde imágenes de cámara hasta instrucciones de lenguaje y mapas de profundidad.
Al mismo tiempo, cada robot es mecánicamente único, con una cantidad y orientación diferentes de brazos, pinzas y sensores.
Además, los entornos en los que se recopilan los datos varían ampliamente.
Los investigadores del MIT desarrollaron una nueva arquitectura llamada Transformadores preentrenados heterogéneos (HPT, por sus siglas en inglés) que unifica los datos de estas variadas modalidades y dominios.
Colocaron un modelo de aprendizaje automático conocido como transformador en el centro de su arquitectura, que procesa las entradas de visión y propiocepción.
Un transformador es el mismo tipo de modelo que forma la columna vertebral de los grandes modelos de lenguaje.
Los investigadores alinean los datos de visión y propiocepción en el mismo tipo de entrada, llamada token, que el transformador puede procesar.
Cada entrada se representa con el mismo número fijo de tokens.
Luego, el transformador asigna todas las entradas a un espacio compartido, y crece hasta convertirse en un enorme modelo preentrenado a medida que procesa y aprende de más datos.
Cuanto más grande sea el transformador, mejor funcionará.
Un usuario solo necesita proporcionar a HPT una pequeña cantidad de datos sobre el diseño de su robot, la configuración y la tarea que desea que realice.
Luego, HPT transfiere el conocimiento que el transformador adquirió durante el preentrenamiento para aprender la nueva tarea.
Uno de los mayores desafíos del desarrollo de HPT fue la creación de un conjunto de datos masivo para entrenar previamente al transformador, que incluía 52 conjuntos de datos con más de 200.000 trayectorias de robots en cuatro categorías, incluidos videos de demostración y simulación de humanos.
Los investigadores también necesitaban desarrollar una forma eficiente de convertir las señales de propiocepción sin procesar de una serie de sensores en datos que el transformador pudiera procesar.
“La propiocepción es clave para permitir muchos movimientos diestros.
Debido a que la cantidad de tokens en nuestra arquitectura es siempre la misma, le damos la misma importancia a la propiocepción y a la visión”, explica Wang.
Cuando probaron el HPT, el rendimiento del robot mejoró más del 20% en tareas de simulación y del mundo real, en comparación con el entrenamiento desde cero cada vez.
Incluso cuando la tarea era muy diferente de los datos previos al entrenamiento, el HPT siguió mejorando el rendimiento.
“Este artículo proporciona un enfoque novedoso para entrenar una única política en múltiples implementaciones de robots.
Esto permite el entrenamiento en diversos conjuntos de datos, lo que permite que los métodos de aprendizaje de robots amplíen significativamente el tamaño de los conjuntos de datos con los que pueden entrenarse.
También permite que el modelo se adapte rápidamente a nuevas implementaciones de robots, lo que es importante ya que continuamente se producen nuevos diseños de robots“, dice David Held, profesor asociado en el Instituto de Robótica de la Universidad Carnegie Mellon, que no participó en este trabajo.
En el futuro, los investigadores quieren estudiar cómo la diversidad de datos podría impulsar el rendimiento del HPT.
También quieren mejorar el HPT para que pueda procesar datos no etiquetados como GPT-4 y otros modelos de lenguaje grandes.
“Nuestro sueño es tener un cerebro robótico universal que se pueda descargar y utilizar en el robot sin necesidad de ningún tipo de entrenamiento.
Aunque estamos en las primeras etapas, vamos a seguir trabajando duro y esperamos que la ampliación conduzca a un avance en las políticas robóticas, como ocurrió con los grandes modelos lingüísticos“, afirma.
Fuente: arXiv