PaLM-E: El modelo de lenguaje visual que revoluciona el control robótico

Comparta este Artículo en:

Google acaba de desvelar un nuevo modelo de lenguaje visual (VLM) al que ha llamado PaLM-E y que está pensado para dar nuevas capacidades a los robots del futuro.

Este modelo es especialmente sorprendente porque va un paso más allá de lo que logran motores como ChatGPT.

No solo comprende nuestra petición, sino que la usa para que un robot ejecute ciertas acciones relacionadas con esa petición.

En su demostración Google mostró cómo al darle esa orden a un robot en una cocina, PaLM-E fue capaz de generar un plan de acción para que un robot desarrollado por Google Robotics fuera capaz de ejecutar esas acciones por sí mismo.

El modelo VLM (Visual-Language Model) se alimenta de 562.000 millones de parámetros e integra tanto la visión como el lenguaje para ese control robótico.

Una cámara recolecta datos que el sistema analiza sin que se necesite preprocesar la localización.

Eso permite evitar pasos previos y que el control robótico sea mucho más autónomo.

El modelo es una iteración de PaLM, del que Google ya nos habló hace un año que se combina con el trabajo previo en el modelo llamado ViT-22B.

Este sistema de IA permite incluso que el robot se adapte y supere obstáculos.

En el video se puede ver cómo uno de los investigadores cambiaba la posición de la bolsa de patatas una vez el robot la tenía preparada.

Tras unos instantes, el robot reconocía la situación y volvía a cogerla para acabar completando la tarea.

Los investigadores observaron además efectos llamativos de este trabajo, como la llamada “transferencia positiva” en la cual el conocimiento adquirido al realizar una tarea se transfiere en otra.

El robot aprende con la experiencia, y la aplica para tareas posteriores como también hacemos los humanos.

Este modelo, Microsoft avanza también en este segmento con su “ChatGPT for Robotics“, demuestra cómo los avances que se están produciendo en los últimos meses pueden tener un impacto real (y muy práctico) en futuros robots autónomos que aprenden, se adaptan y logran completar tareas a partir del lenguaje natural.

Fuente: PaLM-E