Modelo de visión, lenguaje y acción ayuda a robots humanoides a recoger casi cualquier objeto

Comparta este Artículo en:

Helix de Figure es un nuevo modelo de visión, lenguaje y acción (VLA) que puede ayudar a los robots de la empresa a recoger casi cualquier objeto doméstico pequeño, incluidos varios objetos que nunca han visto antes, simplemente siguiendo indicaciones en lenguaje natural.

Este modelo básicamente unifica la percepción, la comprensión del lenguaje y el control aprendido para superar múltiples desafíos de larga data en robótica.

Se afirma que Helix es el primer modelo VLA que produce un control continuo de alta velocidad de todo el cuerpo superior humanoide, incluidas las muñecas, el torso, la cabeza y los dedos individuales.

También puede funcionar simultáneamente en dos robots, lo que les permite resolver una tarea de manipulación compartida de largo plazo con elementos que nunca han visto antes.

A diferencia de otros modelos, este utiliza un solo conjunto de pesos de red neuronal para aprender todos los comportamientos: recoger y colocar elementos, usar cajones y refrigeradores e interacción entre robots, todo sin requerir ningún ajuste fino específico de la tarea.

“Esta arquitectura desacoplada permite que cada sistema funcione en su escala de tiempo óptima.

S2 puede “pensar lentamente” sobre objetivos de alto nivel, mientras que S1 puede “pensar rápido” para ejecutar y ajustar acciones en tiempo real.

Por ejemplo, durante el comportamiento colaborativo S1 se adapta rápidamente a los movimientos cambiantes de un robot asociado mientras mantiene los objetivos semánticos de S2, dijo Figure.

Fuente: Figure