Deepmind, empresa propiedad de Google y especializada en inteligencia artificial, presenta RT-2, un nuevo algoritmo que permite el control de robots a través de instrucciones basadas en el lenguaje y la visión.
En general, los robots controlados por inteligencia artificial (IA) suelen requerir algún nivel de entrenamiento o programación inicial para que puedan realizar tareas de manera eficiente y precisa.
Esto implica proporcionar a la IA información sobre la tarea, el entorno, las instrucciones y los comandos necesarios para llevar a cabo el recado de manera segura y eficaz.
Sin embargo, en los últimos años, ha habido avances en la IA y el aprendizaje automático que permiten a los robots adquirir habilidades y adaptarse a situaciones sin necesidad de un entrenamiento exhaustivo.
Algunos enfoques de IA, como el aprendizaje por refuerzo y el aprendizaje profundo, han demostrado la capacidad de los robots para aprender y mejorar su rendimiento a medida que interactúan con su entorno.
Ahora, Deepmind, una empresa británica de IA propiedad de Google ha ido un paso más allá.
Este sistema aprende de datos encontrados en Internet e implementa ese conocimiento a un robot capaz de realizar tareas o seguir órdenes en el plano físico.
Se trata de “un novedoso modelo de visión-lenguaje-acción (VLA) que aprende tanto de datos web como robóticos y traduce ese conocimiento en instrucciones generales para el control robótico”, como explican los investigadores.
Según los expertos, este avance se ha basado en un modelo anterior (Robotic Transformer 1 o RT-1) que fue entrenado para demostraciones multifunción y que fue capaz de aprender -en datos robóticos- sobre combinaciones de tareas y objetos observados.
“Nuestro proyecto ha empleado datos de demostraciones robóticas de RT-1 que se tomaron de 13 robots durante 17 meses”, detallan en su artículo científico.
Y ahora, con esos datos, RT-2 “muestra una mayor capacidad de generalización y comprensión semántica y visual más allá de los datos robóticos a los que estuvo expuesto”, tal y como sostiene el grupo de científicos.
Es decir, ahora esta inteligencia artificial incluye la interpretación de nuevas órdenes y la respuesta a órdenes del usuario mediante la realización de razonamientos básicos como lo relativo a categorías de objetos o descripciones más exhaustivas.
Concretamente, los investigadores han comprobado que estos robots pueden por sí mismos colocar por ejemplo un objeto en un número o icono concreto o incluso saber cuál es el objeto más pequeño, más grande o el más cercano respecto a otro.
Al mismo tiempo, estos investigadores demuestran que la novedad de ‘encadenar’ conceptos permite a este sistema realizar razonamientos semánticos en varias etapas.
Por ejemplo, es capaz de decidir qué objeto de los que se le muestran podría utilizarse como un martillo improvisado (una roca) o qué tipo de bebida es mejor para una persona cansada (bebida energética).
“Hemos constatado (tras 6.000 pruebas de evaluación) que nuestro planteamiento da lugar a políticas robóticas eficaces y que permiten a RT-2 obtener una serie de capacidades emergentes a partir de un entrenamiento basado principalmente en datos de Internet”, aseguran los responsables.
Para explorar las posibilidades de RT-2, primero buscaron tareas en las que se pudiera combinar el conocimiento de los datos web y la experiencia del robot, y después se definieron tres categorías de habilidades: comprensión de símbolos, razonamiento y reconocimiento humano.
Así, se le dieron órdenes como “recoge la bolsa que está a punto de caerse de la mesa” o “mueve el plátano hasta la suma de dos más uno”, en las que se le pedía al robot que realizase una tarea de manipulación de objetos o escenarios nunca vistos en los datos robóticos.
Para sorpresa de los investigadores, se observó un mayor rendimiento en general en comparación con modelos anteriores.
“También realizamos una serie de evaluaciones con distintos grados de objetos, fondos y entornos no vistos previamente por el robot que requerían que éste aprendiera a partir del preentrenamiento de modelos de lenguaje y visión”, explica el plantel de científicos.
Los resultados mostraron que RT-2 mantuvo el rendimiento en las tareas originales observadas en los datos del anterior robot y mejoró el rendimiento en escenarios previamente no vistos con respecto a su predecesor, del 32 % de RT-1 al 62 %, lo que refleja un avance más que considerable.
En resumen, RT-2 demuestra que los modelos basados en visión y lenguaje pueden transformarse en potentes sistemas que traduzcan esos datos en acciones, capaces de controlar directamente un robot.
En palabras de los investigadores, “RT-2 no solo es una modificación sencilla y eficaz de los modelos existentes, sino que también promete construir un robot físico de uso general capaz de razonar, resolver problemas e interpretar información para realizar una amplia gama de tareas en el mundo real”.
Fuente: DeepMind