Desarrollan técnica de aprendizaje automático para conducir un automóvil o hacer volar un avión de forma autónoma

Comparta este Artículo en:

Un nuevo enfoque basado en IA para controlar robots autónomos satisface los objetivos, a menudo contradictorios, de seguridad y estabilidad.

En la película “Top Gun: Maverick”, Maverick, interpretado por Tom Cruise, está a cargo de entrenar a jóvenes pilotos para completar una misión aparentemente imposible: volar sus aviones a lo profundo de un cañón rocoso, permaneciendo tan cerca del suelo que no pueden ser detectados por radar, luego salir rápidamente del cañón en un ángulo extremo, evitando las paredes rocosas.

Una máquina, por otro lado, tendría dificultades para completar la misma tarea acelerada.

Para una aeronave autónoma, por ejemplo, el camino más directo hacia el objetivo está en conflicto con lo que la máquina debe hacer para evitar chocar con las paredes del cañón o pasar desapercibida.

Muchos métodos de IA existentes no pueden superar este conflicto, conocido como el problema de estabilizar y evitar, y no podrían alcanzar su objetivo de manera segura.

Investigadores del MIT han desarrollado una nueva técnica que puede resolver problemas complejos de estabilización y evitación mejor que otros métodos.

Su enfoque de aprendizaje automático iguala o supera la seguridad de los métodos existentes al tiempo que proporciona un aumento de diez veces en la estabilidad, lo que significa que el agente alcanza y permanece estable dentro de su región objetivo.

En un experimento que enorgullecería a Maverick, su técnica pilotó efectivamente un avión a reacción simulado a través de un corredor estrecho sin estrellarse contra el suelo.

“Este ha sido un problema desafiante y de larga data. Mucha gente lo ha mirado, pero no sabía cómo manejar una dinámica tan compleja y de dimensiones tan altas”, dice Chuchu Fan, profesor asistente de aeronáutica y astronáutica de Wilson, miembro del Laboratorio de Sistemas de Información y Decisión (LIDS, por sus siglas en inglés) y autor principal de un nuevo artículo sobre esta técnica.

Fan está acompañado por el autor principal Oswin So, un estudiante de posgrado.

Muchos enfoques abordan problemas complejos de estabilización y evitación mediante la simplificación del sistema para que puedan resolverlo con matemáticas sencillas, pero los resultados simplificados a menudo no se mantienen a la altura de la dinámica del mundo real.

Las técnicas más efectivas utilizan el aprendizaje por refuerzo, un método de aprendizaje automático en el que un agente aprende por ensayo y error con una recompensa por el comportamiento que lo acerca a un objetivo.

Pero en realidad hay dos objetivos aquí: permanecer estable y evitar obstáculos, y encontrar el equilibrio adecuado es tedioso.

Los investigadores del MIT dividieron el problema en dos pasos.

Primero, reformulan el problema de estabilizar-evitar como un problema de optimización con restricciones.

En esta configuración, resolver la optimización permite que el agente alcance y se estabilice en su objetivo, lo que significa que permanece dentro de una determinada región.

Al aplicar restricciones, se aseguran de que el agente evite los obstáculos, explica So.

Luego, para el segundo paso, reformulan ese problema de optimización con restricciones en una representación matemática conocida como forma de epígrafe y lo resuelven utilizando un algoritmo de aprendizaje de refuerzo profundo.

La forma del epígrafe les permite eludir las dificultades que enfrentan otros métodos cuando se utiliza el aprendizaje por refuerzo.

“Pero el aprendizaje de refuerzo profundo no está diseñado para resolver la forma de epígrafe de un problema de optimización, por lo que no podíamos simplemente conectarlo a nuestro problema.

Tuvimos que derivar las expresiones matemáticas que funcionan para nuestro sistema.

Una vez que tuvimos esas nuevas derivaciones, las combinamos con algunos trucos de ingeniería existentes utilizados por otros métodos”, dice So.

Para probar su enfoque, diseñaron una serie de experimentos de control con diferentes condiciones iniciales.

Por ejemplo, en algunas simulaciones, el agente autónomo necesita alcanzar y permanecer dentro de una región objetivo mientras realiza maniobras drásticas para evitar obstáculos que están en curso de colisión con ella.

En comparación con varias líneas de base, su enfoque fue el único que pudo estabilizar todas las trayectorias manteniendo la seguridad.

Para impulsar su método aún más, lo usaron para volar un avión a reacción simulado en un escenario que uno podría ver en una película de “Top Gun“.

El jet tuvo que estabilizarse en un objetivo cerca del suelo mientras mantenía una altitud muy baja y permanecía dentro de un estrecho corredor de vuelo.

Este modelo de jet simulado fue de código abierto en 2018 y había sido diseñado por expertos en control de vuelo como un desafío de prueba.

¿Podrían los investigadores crear un escenario en el que su controlador no pudiera volar?

Pero el modelo era tan complicado que era difícil trabajar con él, y aun así no podía manejar escenarios complejos, dice Fan.

El controlador de los investigadores del MIT pudo evitar que el avión se estrellara o se detuviera mientras se estabilizaba en la meta mucho mejor que cualquiera de las líneas de base.

En el futuro, esta técnica podría ser un punto de partida para diseñar controladores para robots altamente dinámicos que deben cumplir requisitos de seguridad y estabilidad, como los drones de reparto autónomos.

O podría implementarse como parte de un sistema más grande. Quizás el algoritmo solo se active cuando un automóvil patine en un camino nevado para ayudar al conductor a regresar de manera segura a una trayectoria estable.

Navegar por escenarios extremos que un humano no podría manejar es donde su enfoque realmente brilla, agrega So.

“Creemos que un objetivo por el que debemos esforzarnos como campo es dar al aprendizaje de refuerzo las garantías de seguridad y estabilidad que necesitaremos para brindarnos seguridad cuando implementemos estos controladores en sistemas de misión crítica.

Creemos que este es un primer paso prometedor para lograr ese objetivo”, dice.

En el futuro, los investigadores quieren mejorar su técnica para que sea más capaz de tener en cuenta la incertidumbre al resolver la optimización.

También quieren investigar qué tan bien funciona el algoritmo cuando se implementa en hardware, ya que habrá discrepancias entre la dinámica del modelo y la del mundo real.

“El equipo del profesor Fan ha mejorado el rendimiento del aprendizaje por refuerzo para sistemas dinámicos donde la seguridad importa.

En lugar de solo alcanzar un objetivo, crean controladores que aseguran que el sistema pueda alcanzar su objetivo de manera segura y permanecer allí indefinidamente”, dice Stanley Bak, profesor asistente en el Departamento de Ciencias de la Computación de la Universidad de Stony Brook, que no participó en esta investigación.

“Su formulación mejorada permite la generación exitosa de controladores seguros para escenarios complejos, incluido un modelo de avión a reacción no lineal de 17 estados diseñado en parte por investigadores del Laboratorio de Investigación de la Fuerza Aérea (AFRL), que incorpora ecuaciones diferenciales no lineales con tablas de elevación y arrastre. ”

Fuente: arXiv