Algoritmo de aprendizaje por refuerzo proporciona una forma eficiente de entrenar IAs más fiables

Comparta este Artículo en:

Campos que van desde la robótica hasta la medicina y la ciencia política están intentando entrenar sistemas de IA para que tomen decisiones significativas de todo tipo.

Por ejemplo, usar un sistema de IA para controlar de forma inteligente el tráfico en una ciudad congestionada podría ayudar a los automovilistas a llegar a sus destinos más rápido, al tiempo que mejora la seguridad o la sostenibilidad.

Desafortunadamente, enseñar a un sistema de IA a tomar buenas decisiones no es una tarea fácil.

Los modelos de aprendizaje por refuerzo, que son la base de estos sistemas de toma de decisiones de IA, todavía suelen fallar cuando se enfrentan a variaciones incluso pequeñas en las tareas para las que están entrenados.

En el caso del tráfico, un modelo puede tener dificultades para controlar un conjunto de intersecciones con diferentes límites de velocidad, número de carriles o patrones de tráfico.

Para aumentar la fiabilidad de los modelos de aprendizaje por refuerzo para tareas complejas con variabilidad, investigadores del MIT han introducido un algoritmo más eficiente para entrenarlos.

El algoritmo selecciona estratégicamente las mejores tareas para entrenar a un agente de IA para que pueda realizar eficazmente todas las tareas en una colección de tareas relacionadas.

En el caso del control de semáforos, cada tarea podría ser una intersección en un espacio de tareas que incluye todas las intersecciones de la ciudad.

Al centrarse en un número menor de intersecciones que contribuyen más a la eficacia general del algoritmo, este método maximiza el rendimiento y mantiene bajo el costo de entrenamiento.

Los investigadores descubrieron que su técnica era entre cinco y 50 veces más eficiente que los enfoques estándar en una serie de tareas simuladas.

Esta ganancia en eficiencia ayuda al algoritmo a aprender una mejor solución de una manera más rápida, mejorando en última instancia el rendimiento del agente de IA.

“Pudimos ver increíbles mejoras de rendimiento, con un algoritmo muy simple, al pensar de manera innovadora.

Un algoritmo que no es muy complicado tiene más posibilidades de ser adoptado por la comunidad porque es más fácil de implementar y más fácil de entender para otros”, dice la autora principal Cathy Wu, profesora asociada de Desarrollo Profesional Thomas D. y Virginia W. Cabot en Ingeniería Civil y Ambiental (CEE) y el Instituto de Datos, Sistemas y Sociedad (IDSS), y miembro del Laboratorio de Sistemas de Información y Decisión (LIDS).

Para entrenar un algoritmo para controlar los semáforos en muchas intersecciones de una ciudad, un ingeniero normalmente elegiría entre dos enfoques principales.

Puede entrenar un algoritmo para cada intersección de forma independiente, utilizando solo los datos de esa intersección, o entrenar un algoritmo más grande utilizando datos de todas las intersecciones y luego aplicarlo a cada una.

Pero cada enfoque tiene sus desventajas.

Entrenar un algoritmo separado para cada tarea (como una intersección determinada) es un proceso que requiere mucho tiempo y una enorme cantidad de datos y cálculos, mientras que entrenar un algoritmo para todas las tareas a menudo conduce a un rendimiento inferior al esperado.

Wu y sus colaboradores buscaron un punto óptimo entre estos dos enfoques.

Para su método, eligen un subconjunto de tareas y entrenan un algoritmo para cada tarea de forma independiente.

Es importante destacar que seleccionan estratégicamente las tareas individuales que tienen más probabilidades de mejorar el rendimiento general del algoritmo en todas las tareas.

Aprovechan un truco común del campo del aprendizaje de refuerzo llamado aprendizaje de transferencia de disparo cero, en el que un modelo ya entrenado se aplica a una nueva tarea sin entrenarlo más.

Con el aprendizaje de transferencia, el modelo a menudo se desempeña notablemente bien en la nueva tarea vecina.

“Sabemos que sería ideal entrenar en todas las tareas, pero nos preguntamos si podríamos salirnos con la nuestra entrenando en un subconjunto de esas tareas, aplicar el resultado a todas las tareas y aún así ver un aumento en el rendimiento“, dice Wu.

Para identificar qué tareas deberían seleccionar para maximizar el rendimiento esperado, los investigadores desarrollaron un algoritmo llamado Aprendizaje de Transferencia Basado en Modelos (MBTL).

El algoritmo MBTL tiene dos partes.

Por un lado, modela qué tan bien se desempeñaría cada algoritmo si se entrenara de forma independiente en una tarea.

Luego modela cuánto se degradaría el rendimiento de cada algoritmo si se transfiriera a cada una de las otras tareas, un concepto conocido como rendimiento de generalización.

El modelado explícito del rendimiento de la generalización permite a MBTL estimar el valor del entrenamiento en una nueva tarea.

MBTL hace esto de manera secuencial, eligiendo primero la tarea que genera la mayor ganancia de rendimiento y luego seleccionando tareas adicionales que brindan las mayores mejoras marginales posteriores al rendimiento general.

Dado que MBTL solo se centra en las tareas más prometedoras, puede mejorar drásticamente la eficiencia del proceso de entrenamiento.

Cuando los investigadores probaron esta técnica en tareas simuladas, incluido el control de señales de tráfico, la gestión de avisos de velocidad en tiempo real y la ejecución de varias tareas de control clásicas, fue de cinco a 50 veces más eficiente que otros métodos.

Esto significa que podrían llegar a la misma solución entrenando con muchos menos datos.

Por ejemplo, con un aumento de eficiencia de 50 veces, el algoritmo MBTL podría entrenarse en solo dos tareas y lograr el mismo rendimiento que un método estándar que utiliza datos de 100 tareas.

“Desde la perspectiva de los dos enfoques principales, eso significa que los datos de las otras 98 tareas no fueron necesarios o que el entrenamiento en las 100 tareas es confuso para el algoritmo, por lo que el rendimiento termina siendo peor que el nuestro“, dice Wu.

Con MBTL, agregar incluso una pequeña cantidad de tiempo de entrenamiento adicional podría conducir a un rendimiento mucho mejor.

En el futuro, los investigadores planean diseñar algoritmos MBTL que puedan extenderse a problemas más complejos, como espacios de tareas de alta dimensión.

También están interesados en aplicar su enfoque a problemas del mundo real, especialmente en sistemas de movilidad de próxima generación.

Fuente: arXiv