Durante su primera clase de manejo, el instructor probablemente se sentó a su lado y le ofreció consejos inmediatos en cada giro, parada y ajuste menor.
Si era un padre, es posible que incluso haya agarrado el volante varias veces y gritado “¡Frena!”.
Con el tiempo, esas correcciones y conocimientos desarrollaron experiencia e intuición, convirtiéndolo en un conductor independiente y capaz.
Aunque los avances en inteligencia artificial (IA) han hecho realidad los autos que se conducen solos, los métodos de enseñanza utilizados para entrenarlos siguen estando muy lejos incluso del conductor más nervioso.
En lugar de matices e instrucciones en tiempo real, la IA aprende principalmente a través de conjuntos de datos masivos y simulaciones exhaustivas, independientemente de la aplicación.
Ahora, investigadores de la Universidad de Duke y el Laboratorio de Investigación del Ejército han desarrollado una plataforma para ayudar a la IA a aprender a realizar tareas complejas de manera más parecida a los humanos.
El marco de IA, se denomina GUIDE.
“Sigue siendo un desafío para la IA manejar tareas que requieren una toma de decisiones rápida basada en información de aprendizaje limitada“, explicó Boyuan Chen, profesor de ingeniería mecánica y ciencia de los materiales, ingeniería eléctrica e informática y ciencias de la computación en Duke, donde también dirige el Laboratorio de Robótica General de Duke.
“Los métodos de entrenamiento existentes a menudo se ven limitados por su dependencia de amplios conjuntos de datos preexistentes y también luchan con la adaptabilidad limitada de los enfoques de retroalimentación tradicionales“, dijo Chen.
“Nuestro objetivo era cerrar esta brecha incorporando retroalimentación humana continua en tiempo real”.
GUIDE funciona al permitir que los humanos observen las acciones de la IA en tiempo real y brinden retroalimentación continua y matizada.
Es como si un entrenador de conducción experto no solo gritara “izquierda” o “derecha“, sino que, en cambio, ofreciera una guía detallada que fomenta mejoras incrementales y una comprensión más profunda.
En su estudio de debut, GUIDE ayuda a la IA a aprender la mejor manera de jugar al escondite.
El juego involucra a dos jugadores con forma de escarabajo, uno rojo y otro verde.
Si bien ambos están controlados por computadoras, solo el jugador rojo está trabajando para hacer avanzar su controlador de IA.
El juego se desarrolla en un campo de juego cuadrado con una barrera en forma de C en el centro.
La mayor parte del campo de juego permanece negro y desconocido hasta que el buscador rojo ingresa a nuevas áreas para revelar lo que contienen.
Mientras el jugador rojo de la IA persigue al otro, un entrenador humano le brinda comentarios sobre su estrategia de búsqueda.
Si bien los intentos anteriores de este tipo de estrategia de entrenamiento solo permitieron tres entradas humanas (buena, mala o neutral), GUIDE hace que los humanos pasen el cursor del mouse sobre una escala de gradiente para brindar comentarios en tiempo real.
El experimento involucró a 50 participantes adultos sin capacitación previa ni conocimientos especializados, lo que es, por lejos, el estudio a mayor escala de este tipo.
Los investigadores descubrieron que tan solo 10 minutos de retroalimentación humana condujeron a una mejora significativa en el rendimiento de la IA.
GUIDE logró un aumento de hasta el 30% en las tasas de éxito en comparación con los métodos de aprendizaje de refuerzo de última generación guiados por humanos.
“Esta sólida evidencia cuantitativa y cualitativa resalta la eficacia de nuestro enfoque“, dijo Lingyu Zhang, autor principal y estudiante de doctorado de primer año en el laboratorio de Chen.
“Muestra cómo GUIDE puede aumentar la adaptabilidad, ayudando a la IA a navegar y responder de forma independiente a entornos complejos y dinámicos”.
Los investigadores también demostraron que los entrenadores humanos solo son realmente necesarios durante un corto período de tiempo.
A medida que los participantes proporcionaban retroalimentación, el equipo creó una IA entrenadora humana simulada en función de sus conocimientos en escenarios particulares en puntos específicos del tiempo.
Esto permite que la IA buscadora se entrene continuamente mucho después de que un humano se haya cansado de ayudarla a aprender.
Entrenar a un “entrenador” de IA que no es tan bueno como la IA a la que está entrenando puede sonar contradictorio, pero como explica Chen, en realidad es algo muy humano de hacer.
“Si bien es muy difícil que alguien domine una determinada tarea, no es tan difícil para alguien juzgar si está mejorando o no en ella“, dijo Chen.
“Muchos entrenadores pueden guiar a jugadores a campeonatos sin haber sido campeones ellos mismos”.
Otra dirección fascinante de GUIDE es explorar las diferencias individuales entre los entrenadores humanos.
Las pruebas cognitivas realizadas a los 50 participantes revelaron que ciertas habilidades, como el razonamiento espacial y la toma rápida de decisiones, influían significativamente en la eficacia con la que una persona podía guiar a una IA.
Estos resultados resaltan posibilidades intrigantes como la mejora de estas habilidades a través de un entrenamiento específico y el descubrimiento de otros factores que podrían contribuir a una guía exitosa de la IA.
Estas preguntas apuntan a un potencial emocionante para desarrollar marcos de entrenamiento más adaptativos que no solo se centren en enseñar IA, sino también en aumentar las capacidades humanas para formar futuros equipos de humanos e IA.
Al abordar estas preguntas, los investigadores esperan crear un futuro en el que la IA aprenda no solo de manera más efectiva sino también de manera más intuitiva, cerrando la brecha entre la intuición humana y el aprendizaje automático, y permitiendo que la IA funcione de manera más autónoma en entornos con información limitada.
“A medida que las tecnologías de IA se vuelven más frecuentes, es crucial diseñar sistemas que sean intuitivos y accesibles para los usuarios cotidianos“, dijo Chen.
“GUIDE allana el camino para una IA más inteligente y con mayor capacidad de respuesta, capaz de funcionar de manera autónoma en entornos dinámicos e impredecibles”.
El equipo prevé una investigación futura que incorpore diversas señales de comunicación utilizando el lenguaje, las expresiones faciales, los gestos de las manos y más para crear un marco más completo e intuitivo para que la IA aprenda de las interacciones humanas.
Su trabajo es parte de la misión del laboratorio de construir sistemas inteligentes de siguiente nivel que se asocien con los humanos para abordar tareas que ni la IA ni los humanos solos podrían resolver.
Fuente: arXiv