Investigadores de UC Berkley utilizaron el aprendizaje por refuerzo de muestra eficiente, junto con un objetivo de preentrenamiento relevante para la tarea y un marco de práctica autónomo, para enseñar al automóvil políticas de conducción a alta velocidad en el mundo real con tan solo 20 minutos de interacciones.
El método consta de dos fases: Preentrenamiento y Práctica Autónoma con Aprendizaje por Refuerzo Online.
Pretrain utiliza el aprendizaje por refuerzo fuera de línea (IQL) para extraer un conjunto de datos fuera de línea diverso recopilado en un robot diferente, utilizando un objetivo de tarea similar, mientras que APORL aplica una técnica de aprendizaje por refuerzo en línea eficiente en muestras recientes que hace uso de una pequeña cantidad de datos previos para aprender un Política de conducción rápida en tiempo real.
En otras palabras, la primera etapa de preentrenamiento permite conducir manualmente el robot para evitar obstáculos y la segunda permite colocarlo en una pista, mostrándole al automóvil a dónde ir antes de que comience a aprenderlo de forma autónoma.
“Este entorno consiste en un recorrido al aire libre a gran escala (bucle de 120 metros) entre una densa arboleda de un lado y un árbol y varios troncos caídos del otro lado.
Una política exitosa debe navegar entre los árboles y los troncos. Además, el suelo cerca de los árboles está cubierto de hojas, palos y otros materiales sueltos, lo que provoca dinámicas complejas que incluyen sobreviraje/subviraje altamente dependientes de la velocidad”, dijeron los investigadores.
Fuente: FastRLAP