Categorías: Tecnología

Han enseñado a máquinas cómo seguir los manuales de instrucciones de Lego

Comparta este Artículo en:

El atractivo perdurable de Lego no proviene de la complejidad de los sets, ni de las adorables versiones en minifigura de los íconos de la cultura pop, sino del proceso de construcción en sí mismo y de convertir una caja de piezas aparentemente aleatorias en un modelo completo.

Es una experiencia satisfactoria, y otra que los robots podrían robarle algún día, gracias a investigadores de la Universidad de Stanford.

Los manuales de instrucciones de Lego son una clase magistral sobre cómo transmitir visualmente un proceso de ensamblaje a un constructor, sin importar su formación, su nivel de experiencia o el idioma que hable.

Preste mucha atención a las piezas requeridas y las diferencias entre una imagen del modelo parcialmente ensamblado y la siguiente, y podrá averiguar dónde deben ir todas las piezas antes de pasar al siguiente paso.

Lego ha refinado y pulido el diseño de sus manuales de instrucciones a lo largo de los años, pero a pesar de que son fáciles de seguir para los humanos, las máquinas apenas están aprendiendo a interpretar las guías paso a paso.

Uno de los mayores desafíos cuando se trata de máquinas que aprenden a construir con Lego es interpretar las imágenes bidimensionales de los modelos 3D en los manuales de instrucciones impresos tradicionales (aunque ahora se pueden ensamblar varios modelos de Lego a través de la aplicación móvil de la compañía, que proporciona modelos 3D completos de cada paso que se pueden girar y examinar desde cualquier ángulo).

Los humanos pueden mirar una imagen de un ladrillo Lego y determinar instantáneamente su estructura 3D para encontrarlo en una pila de ladrillos, pero para que los robots hagan eso, los investigadores de la Universidad de Stanford tuvieron que desarrollar un nuevo marco basado en el aprendizaje que llaman la red Manual-to-Executable-Plan, o MEPNet, para abreviar.

La red neuronal no solo tiene que extrapolar la forma y estructura 3D de las piezas individuales identificadas en el manual para cada paso, sino que también necesita interpretar la forma general de los modelos semiensamblados que aparecen en cada paso, sin importar su orientación.

Dependiendo de dónde se deba agregar una pieza, los manuales de Lego a menudo proporcionarán una imagen de un modelo semiensamblado desde una perspectiva completamente diferente a la del paso anterior.

El marco MEPNet tiene que descifrar lo que está viendo y cómo se correlaciona con el modelo 3D que generó, como se ilustra en los pasos anteriores.

Luego, el marco debe determinar dónde encajan las nuevas piezas en cada paso en el modelo 3D generado previamente comparando la siguiente iteración del modelo semiensamblado con las anteriores.

Los manuales de Lego no usan flechas para indicar la ubicación de las piezas y, como máximo, usan un color ligeramente diferente para indicar dónde deben colocarse las piezas nuevas, lo que puede ser demasiado sutil para detectarlo en una imagen escaneada de una página impresa.

El marco de MEPNet tiene que resolver esto por sí solo, pero lo que hace que el proceso sea un poco más fácil es una característica exclusiva de los ladrillos Lego: las tachuelas en la parte superior y las tachuelas en la parte inferior que les permiten unirse de forma segura entre sí.

MEPNet comprende las limitaciones posicionales de cómo se pueden apilar y unir los ladrillos de Lego en función de la ubicación de los montantes de una pieza, lo que ayuda a delimitar en qué parte del modelo semiensamblado se pueden unir.

Entonces, ¿puede dejar caer una pila de ladrillos de plástico y un manual frente a un brazo robótico y esperar volver a tener un modelo completo en unas pocas horas? Todavía no.

El objetivo de esta investigación fue simplemente traducir las imágenes 2D de un manual de Lego en pasos de ensamblaje que una máquina pueda comprender funcionalmente.

Enseñar a un robot a manipular y ensamblar ladrillos de Lego es otro desafío, este es solo el primer paso, aunque no estamos seguros de si hay fanáticos de Lego que quieran empeñar el proceso de construcción real en una máquina.

Donde esta investigación podría tener aplicaciones más interesantes es potencialmente convertir automáticamente los viejos manuales de instrucciones de Lego en las guías de construcción interactivas en 3D incluidas en la aplicación móvil de Lego ahora.

Y con una mejor comprensión de la traducción de imágenes 2D en estructuras tridimensionales construidas con ladrillos, este marco podría usarse potencialmente para desarrollar software que podría traducir imágenes de cualquier objeto y escupir instrucciones sobre cómo convertirlo en un modelo Lego.

Fuente: Stanford

Editor PDM

Entradas recientes

Mano robótica capaz de manipular objetos

Recientemente, Sanctuary AI presentó su mano robótica que ahora es capaz de manipular objetos. (more…)

3 days hace

Robots atraviesan entornos complejos sin sensores adicionales ni entrenamiento previo en terrenos difíciles

Especialistas en robótica de la Universidad de Leeds y el University College de Londres han…

3 days hace

Rompiendo barreras: IA para interpretar el lenguaje de señas americano en tiempo real

El lenguaje de señas es un medio de comunicación sofisticado y vital para las personas…

3 days hace

Dispositivo ayuda a personas con discapacidad visual a realizar tareas de localización tan bien como las personas videntes

Según un nuevo estudio dirigido por el Imperial College, una tecnología de navegación que utiliza…

3 days hace

Google lanza una versión de Gemini 2.0 capaz de razonar

Gemini 2.0 Flash Thinking Experimental es una nueva versión de la IA de Google que…

3 days hace

El siguiente paso de la computación cuántica: un nuevo algoritmo potencia la multitarea

Las computadoras cuánticas difieren fundamentalmente de las clásicas. En lugar de utilizar bits (0 y…

4 days hace
Click to listen highlighted text!