Han enseñado a máquinas cómo seguir los manuales de instrucciones de Lego

Comparta este Artículo en:

El atractivo perdurable de Lego no proviene de la complejidad de los sets, ni de las adorables versiones en minifigura de los íconos de la cultura pop, sino del proceso de construcción en sí mismo y de convertir una caja de piezas aparentemente aleatorias en un modelo completo.

Es una experiencia satisfactoria, y otra que los robots podrían robarle algún día, gracias a investigadores de la Universidad de Stanford.

Los manuales de instrucciones de Lego son una clase magistral sobre cómo transmitir visualmente un proceso de ensamblaje a un constructor, sin importar su formación, su nivel de experiencia o el idioma que hable.

Preste mucha atención a las piezas requeridas y las diferencias entre una imagen del modelo parcialmente ensamblado y la siguiente, y podrá averiguar dónde deben ir todas las piezas antes de pasar al siguiente paso.

Lego ha refinado y pulido el diseño de sus manuales de instrucciones a lo largo de los años, pero a pesar de que son fáciles de seguir para los humanos, las máquinas apenas están aprendiendo a interpretar las guías paso a paso.

Uno de los mayores desafíos cuando se trata de máquinas que aprenden a construir con Lego es interpretar las imágenes bidimensionales de los modelos 3D en los manuales de instrucciones impresos tradicionales (aunque ahora se pueden ensamblar varios modelos de Lego a través de la aplicación móvil de la compañía, que proporciona modelos 3D completos de cada paso que se pueden girar y examinar desde cualquier ángulo).

Los humanos pueden mirar una imagen de un ladrillo Lego y determinar instantáneamente su estructura 3D para encontrarlo en una pila de ladrillos, pero para que los robots hagan eso, los investigadores de la Universidad de Stanford tuvieron que desarrollar un nuevo marco basado en el aprendizaje que llaman la red Manual-to-Executable-Plan, o MEPNet, para abreviar.

La red neuronal no solo tiene que extrapolar la forma y estructura 3D de las piezas individuales identificadas en el manual para cada paso, sino que también necesita interpretar la forma general de los modelos semiensamblados que aparecen en cada paso, sin importar su orientación.

Dependiendo de dónde se deba agregar una pieza, los manuales de Lego a menudo proporcionarán una imagen de un modelo semiensamblado desde una perspectiva completamente diferente a la del paso anterior.

El marco MEPNet tiene que descifrar lo que está viendo y cómo se correlaciona con el modelo 3D que generó, como se ilustra en los pasos anteriores.

Luego, el marco debe determinar dónde encajan las nuevas piezas en cada paso en el modelo 3D generado previamente comparando la siguiente iteración del modelo semiensamblado con las anteriores.

Los manuales de Lego no usan flechas para indicar la ubicación de las piezas y, como máximo, usan un color ligeramente diferente para indicar dónde deben colocarse las piezas nuevas, lo que puede ser demasiado sutil para detectarlo en una imagen escaneada de una página impresa.

El marco de MEPNet tiene que resolver esto por sí solo, pero lo que hace que el proceso sea un poco más fácil es una característica exclusiva de los ladrillos Lego: las tachuelas en la parte superior y las tachuelas en la parte inferior que les permiten unirse de forma segura entre sí.

MEPNet comprende las limitaciones posicionales de cómo se pueden apilar y unir los ladrillos de Lego en función de la ubicación de los montantes de una pieza, lo que ayuda a delimitar en qué parte del modelo semiensamblado se pueden unir.

Entonces, ¿puede dejar caer una pila de ladrillos de plástico y un manual frente a un brazo robótico y esperar volver a tener un modelo completo en unas pocas horas? Todavía no.

El objetivo de esta investigación fue simplemente traducir las imágenes 2D de un manual de Lego en pasos de ensamblaje que una máquina pueda comprender funcionalmente.

Enseñar a un robot a manipular y ensamblar ladrillos de Lego es otro desafío, este es solo el primer paso, aunque no estamos seguros de si hay fanáticos de Lego que quieran empeñar el proceso de construcción real en una máquina.

Donde esta investigación podría tener aplicaciones más interesantes es potencialmente convertir automáticamente los viejos manuales de instrucciones de Lego en las guías de construcción interactivas en 3D incluidas en la aplicación móvil de Lego ahora.

Y con una mejor comprensión de la traducción de imágenes 2D en estructuras tridimensionales construidas con ladrillos, este marco podría usarse potencialmente para desarrollar software que podría traducir imágenes de cualquier objeto y escupir instrucciones sobre cómo convertirlo en un modelo Lego.

Fuente: Stanford