Este robot ya responde como un humano, gracias a la inteligencia artificial de Open AI

Comparta este Artículo en:

Figure 01 es un robot humanoide que utiliza inteligencia artificial y redes neuronales para razonar y llevar a cabo acciones de una persona.

Figure 01, un robot humanoide impulsado por la inteligencia artificial de OpenAI, ha mostrado capacidades de razonamiento visual y comprensión de lenguaje.

Apoyándose de redes neuronales, sus creadores consiguieron que ejecutara acciones y respondiera usando una voz sintética.

El robot es obra de Figure, una empresa de inteligencia que busca “ampliar las capacidades humanas” a través de la IA avanzada.

La compañía tiene como objetivo “revolucionar la cadena de producción” con robots humanoides capaces de desempeñar trabajos inseguros o indeseables.

Para llegar a ese futuro, Figure ha cerrado un acuerdo con OpenAI para integrar su inteligencia artificial en el Figure 01.

Con ello, el robot sería capaz de comprender el lenguaje y actuar en consecuencia, pudiendo integrarse como trabajador en una fábrica.

La empresa ha mostrado el primer fruto de esa colaboración en una demostración en video.

En ella, el Figure 01 responde a una serie de comandos con acciones específicas.

El robot humanoide es capaz de identificar los objetos que tiene al frente y comprende el lenguaje de la persona con la que interactúa.

— Figure 01, ¿qué ves ahora?

— Veo una manzana roja sobre un plato al centro de la mesa, un escurridor con platos y vasos y a ti parado cerca con una mano en la mesa

Al solicitarle algo de comer, Figure 01 le da la manzana a la persona y le explica que lo hizo porque es el único comestible que hay en la mesa.

Todo esto mientras coloca basura en una caja de plástico.

Posteriormente, efectúa un ejercicio de razonamiento al colocar los vasos y platos en el escurridor, seguido de una autoevaluación de su desempeño.

De acuerdo con Brett Adcock, fundador de Figure, el robot Figure 01 ejecuta las acciones por medio de redes neuronales de un extremo a otro.

La demostración fue grabada en tiempo real y no existe teleoperación.

“Las cámaras integradas se alimentan de un modelo grande de lenguaje visual (VLM) entrenado por OpenAI“, dijo Adcock.

“Las redes neuronales toman imágenes a 10 Hz a través de cámaras en el robot. Luego, la red neuronal genera acciones de 24 grados de libertad a 200 Hz“.

Corey Lynch, director de IA en la empresa, detalló que todos los comportamientos del robot se aprenden y ejecutan a velocidad normal.

Lynch, quien también es líder del proyecto Figure 01, reveló que la inteligencia artificial de OpenAI toma las imágenes de las cámaras y transcribe a texto las instrucciones capturadas en audio por los micrófonos del robot.

“El modelo procesa toda la historia de la conversación, incluidas imágenes pasadas, para generar respuestas lingüísticas, que se responden al ser humano a través de texto a voz“, dijo Lynch.

“El mismo modelo es responsable de decidir qué comportamiento aprendido debe ejecutar en el robot para cumplir un comando determinado, cargar la tarea de las redes neuronales en la GPU y ejecutar una política.“

Lynch explica que el modelo de OpenAI permite que el robot pueda describir su entorno y utilizar el razonamiento con sentido común para tomar decisiones.

La inteligencia artificial también le otorga el poder de comprender peticiones ambiguas y actuar en consecuencia.

Pero nada de esto sería posible sin la integración de redes neuronales para generar movimientos.

Todos los comportamientos están impulsados por políticas visomotoras de redes neuronales, que asignan pixeles directamente a acciones.

El modelo de OpenAI efectúa el razonamiento y diseña un plan.

Las políticas aprendidas de la red neuronal ejecutan el plan por medio de movimientos rápidos y reactivos, apoyándose de un controlador de cuerpo entero para mantener el equilibrio.

“Hace algunos años hubiera pensado que tener una conversación con un robot humanoide mientras planifica y lleva a cabo sus propios comportamientos completamente aprendidos sería algo que tendríamos que esperar décadas para ver“, dijo Lynch.

“Obviamente, muchas cosas han cambiado”.

En octubre del año pasado, el robot apenas demostraba sus capacidades motoras.

Fuente: Figure

Editor PDM

Siguiente GPU para inteligencia artificial con 900 mil núcleos, competencia fuerte para NVIDIA »

Anterior « Devin, el primer ingeniero de software con inteligencia artificial

Deja un comentario

Publicado por

Editor PDM

Etiquetas: Figure 01inteligencia artificialOpenAIrobot

9 months hace

Mano robótica capaz de manipular objetos

Recientemente, Sanctuary AI presentó su mano robótica que ahora es capaz de manipular objetos. (more…)

3 days hace

Tecnología

Robots atraviesan entornos complejos sin sensores adicionales ni entrenamiento previo en terrenos difíciles

Especialistas en robótica de la Universidad de Leeds y el University College de Londres han…

3 days hace

Tecnología

Rompiendo barreras: IA para interpretar el lenguaje de señas americano en tiempo real

El lenguaje de señas es un medio de comunicación sofisticado y vital para las personas…

3 days hace

Tecnología

Dispositivo ayuda a personas con discapacidad visual a realizar tareas de localización tan bien como las personas videntes

Según un nuevo estudio dirigido por el Imperial College, una tecnología de navegación que utiliza…

3 days hace

Tecnología

Google lanza una versión de Gemini 2.0 capaz de razonar

Gemini 2.0 Flash Thinking Experimental es una nueva versión de la IA de Google que…

3 days hace

Tecnología

El siguiente paso de la computación cuántica: un nuevo algoritmo potencia la multitarea

Las computadoras cuánticas difieren fundamentalmente de las clásicas. En lugar de utilizar bits (0 y…

4 days hace

Este robot ya responde como un humano, gracias a la inteligencia artificial de Open AI

Artículos relacionados:

Entrada Relacionada

Entradas recientes

Mano robótica capaz de manipular objetos

Robots atraviesan entornos complejos sin sensores adicionales ni entrenamiento previo en terrenos difíciles

Rompiendo barreras: IA para interpretar el lenguaje de señas americano en tiempo real

Dispositivo ayuda a personas con discapacidad visual a realizar tareas de localización tan bien como las personas videntes

Google lanza una versión de Gemini 2.0 capaz de razonar

El siguiente paso de la computación cuántica: un nuevo algoritmo potencia la multitarea