El aprendizaje por refuerzo profundo es una modalidad de inteligencia artificial y consiste, a grandes rasgos, en una red neuronal que aprende la mejor acción a realizar en cada momento basándose en una serie de recompensas.
Científicos han demostrado que el aprendizaje por refuerzo profundo permite a robots submarinos localizar y realizar un seguimiento esmerado de objetos y animales marinos que se encuentran debajo del agua.
El equipo de investigación lo integran expertos de la Universidad Politécnica de Cataluña – BarcelonaTech (UPC), la Universidad de Girona (UdG), el Instituto de Ciencias del Mar (ICM) de Barcelona (adscrito al CSIC) en España, y el MBARI (Monterey Bay Aquarium Research Institute) de California en Estados Unidos, y lo encabeza Ivan Masmitjà del ICM).
En la actualidad, la robótica submarina se erige como una herramienta clave para mejorar el conocimiento de los océanos frente a las numerosas dificultades para explorarlos, con vehículos capaces de bajar hasta los 4.000 metros de profundidad.
Además, los datos in situ que proporcionan ayudan a complementar otros, como los obtenidos a través de los satélites.
Esta tecnología permite estudiar fenómenos que pasan a pequeña escala, como por ejemplo la captura de dióxido de carbono (CO2) por parte de organismos marinos, que contribuyen a regular el cambio climático.
En concreto, este nuevo trabajo revela que el aprendizaje por reforzamiento, muy utilizado en el ámbito del control y de la robótica así como en el desarrollo de herramientas actuales para procesamiento del lenguaje natural como el sistema ChatGPT, permite que los robots submarinos aprendan cuáles son las acciones deben realizar en cada momento para alcanzar un objetivo específico.
Estas políticas de acción igualan, o incluso mejoran en determinadas circunstancias, los métodos tradicionales basados en un desarrollo analítico.
Para la elaboración del trabajo, los autores han utilizado técnicas de acústica de rango, que permiten estimar la posición de un objeto teniendo en cuenta medidas de distancia tomadas en distintos puntos.
Sin embargo, este hecho hace que la precisión en la localización del objeto dependa mucho del lugar donde se toman las medidas acústicas de rango.
Es aquí donde toma importancia la aplicación de la inteligencia artificial, en concreto, el aprendizaje por reforzamiento, que permite identificar los mejores puntos y, por tanto, la trayectoria óptima que debe realizar el robot.
Las redes neuronales fueron entrenadas, en parte, utilizando el cluster de computadores del Barcelona Supercomputing Center (BSC-CNS), donde se encuentra el supercomputador más potente del Estado español y uno de los más potentes de Europa.
“Esto ha permitido ajustar los parámetros de diferentes algoritmos de forma mucho más rápida que utilizando computadores convencionales“, indica el profesor de la UPC Mario Martin.
Una vez entrenados, los algoritmos se probaron en diferentes vehículos autónomos, entre ellos el AUV Sparus II desarrollado por VICOROB, en una serie de misiones experimentales desarrolladas en el puerto de Sant Feliu de Guíxols, en el Baix Empordà, y en la bahía de Monterey (California), en colaboración con la investigadora principal del Bioinspiration Lab del MBARI, Kakani Katija.
De cara a futuras investigaciones, el equipo estudiará la posibilidad de aplicar los mismos algoritmos para resolver misiones más complicadas.
Por ejemplo, el uso de múltiples vehículos para localizar objetos, detectar frentes y termoclinas, o afloramiento de algas de forma cooperativa, a través de técnicas de aprendizaje por refuerzo multiplataforma.
Fuente: Science Robotics