La inteligencia artificial “DeepNash” tuvo una tasa de victorias del 97 % frente a otros modelos y una tasa de victorias del 84 % frente a los mejores jugadores humanos.
Los humanos se están quedando rápidamente sin juegos de mesa que aún podamos jugar sin ser completamente derrotados por la inteligencia artificial.
En el pasado, los investigadores demostraron la capacidad de la IA para superar a los humanos en ajedrez, Go y, recientemente, Diplomacia.
Ahora, puede agregar el juego de estrategia Stratego a esa lista en constante crecimiento.
Los investigadores de DeepMind, propiedad de Alphabet, según una nueva investigación, dicen que han creado un nuevo agente de IA capaz de jugar Stratego a un “nivel de experto humano”.
La IA, llamada DeepNash, ganó casi todos los partidos que jugó contra otras IA y tuvo una tasa general de victorias del 84 % cuando compitió contra jugadores humanos en juegos en línea.
DeepNash, que aprendió a dominar el juego jugando contra sí mismo, pudo tomar decisiones complejas y considerar compensaciones de formas “extraordinarias” que los sistemas de IA anteriores no podían.
Si bien Stratego puede no parecer inicialmente el ejemplo más obvio para entrenar una IA, los investigadores dicen que la combinación del juego de toma de decisiones a largo plazo y la afluencia imperfecta de información imperfecta lo convierten en un banco de pruebas único.
El juego generalmente lo juegan dos jugadores e involucra tanto estrategia como engaño.
Cada jugador tiene sus propios “ejércitos” formados por piezas, cada una con sus respectivos valores.
Los jugadores ganan capturando la bandera de un oponente o capturando todas sus piezas móviles.
Todas esas piezas con sus diferentes valores dan como resultado una gran cantidad de posibles movimientos y resultados.
Los investigadores dijeron que Stratego tiene muchos más “estados posibles” que el póquer Texas Hold’em, e incluso más que Go, que a menudo se anuncia por su inmensa variedad de opciones posibles.
Para ganar, DeepNash mezcló la estrategia a largo plazo y la toma de decisiones a corto plazo, como farolear y correr riesgos.
Es raro que un agente de IA pueda hacer dos de esas cosas al mismo tiempo tan bien.
La combinación de Stratego de pensamiento largo y estratégico y toma de decisiones basadas en información incompleta o limitada ha frustrado en su mayoría los modelos de IA anteriores.
“DeepNash fue capaz de hacer compensaciones no triviales entre la información y el material, ejecutar engaños y apostar cuando fue necesario”, escriben los investigadores.
DeepNash parece estar influenciado por el matemático estadounidense John Nash quien, entre otras cosas, acuñó The Nash Equilibrium.
En pocas palabras, ese equilibrio se refiere a una solución en la teoría de juegos en la que ambos oponentes que se enfrentan ya no tienen ningún incentivo para desviarse de su estrategia inicial.
De los muchos escenarios posibles, el Equilibrio de Nash, en la teoría de juegos, a menudo se considera el resultado “óptimo”.
DeepNash en su núcleo intenta ubicar el Equilibrio de Nash en los juegos de Stratego utilizando una nueva combinación de aprendizaje de algoritmos de refuerzo sin modelo y juego automático llamado “R-NaD“.
Al usar tanto ese algoritmo como la arquitectura de red neuronal profunda, los investigadores pudieron crear un bot ganador, incluso en situaciones extremadamente complejas.
Aunque DeepNash fue entrenado para competir en Stratego, DeepMind parece haber creado un genio en la teoría de juegos.
Los investigadores probaron DeepNash enfrentándolo a otros bots y a los “mejores jugadores humanos” en la plataforma de juegos en línea Gravon.
DeepNash logró una tasa mínima de ganancias del 97 % contra los bots.
Su desempeño contra humanos fue solo un poco peor, con una tasa general de victorias del 84%.
La IA se ubicó entre los tres mejores jugadores tanto en la clasificación del año hasta la fecha como en la de todos los tiempos.
“Hasta donde sabemos, esta es la primera vez que un algoritmo de IA pudo aprender a jugar Stratego a un nivel de experto humano”, dijeron los investigadores.
Fuente: Gizmodo