Ingenieros de investigación de Disney han hecho posible que un robot aprenda políticas a partir de datos de movimiento no estructurados.
Primero, extrajeron una codificación espacial latente entrenando un autocodificador variacional y luego tomando breves ventanas de movimiento de datos no estructurados como entrada.
Luego, utilizaron incrustación de código latente variable en el tiempo para entrenar una política condicional en una segunda etapa, proporcionando así un mapeo de la entrada cinemática a una salida consciente de la dinámica.
Al mantener estas dos etapas separadas, el equipo pudo beneficiarse de métodos autosupervisados para obtener mejores códigos latentes y recompensas de imitación explícitas para evitar el colapso del modo.
La eficiencia y la solidez se demostraron en la simulación, con movimientos especificados por el usuario que no se vieron, y en un robot bípedo, donde movimientos dinámicos se llevaron al mundo real.
Fuente: Disney