El algoritmo de Meta aborda tanto el lenguaje como la estrategia en un juego de mesa clásico que implica negociación.
Muchos estadistas han argumentado que la diplomacia es un arte: uno que requiere no solo estrategia, sino también intuición, persuasión e incluso subterfugios, habilidades humanas que durante mucho tiempo han estado fuera del alcance incluso de los enfoques de inteligencia artificial (IA) más poderosos.
Ahora, un algoritmo de inteligencia artificial de la empresa Meta ha demostrado que puede vencer a muchos humanos en el juego de mesa Diplomacia, que requiere tanto planificación estratégica como negociaciones verbales con otros jugadores.
El trabajo, dicen los investigadores, podría señalar el camino hacia entrenadores de ejercicios virtuales y mediadores de disputas.
La diplomacia internacional de chatbots puede no quedarse atrás.
“Estos son nuevos resultados espectaculares”, dice Yoram Bachrach, científico informático de DeepMind que ha trabajado en el juego Diplomacy pero que no participó en la nueva investigación.
“Estoy especialmente entusiasmado con Diplomacy porque es un entorno excepcional para estudiar la IA cooperativa”, en el que las máquinas no solo compiten, sino que colaboran.
La IA ya ha superado a los humanos en juegos de estrategia como el ajedrez, el Go, el póquer y el videojuego Dota 2.
También está demostrando ser poderosa en el procesamiento del lenguaje natural, en el que puede generar texto similar al humano y mantener conversaciones.
El juego de Diplomacia requiere ambos.
Se trata de siete jugadores que compiten por el control de Europa.
En cada turno, los jugadores emiten órdenes sobre el movimiento de las unidades navales y del ejército, luego de discutir con otros jugadores, a quienes pueden atacar o apoyar.
El éxito generalmente requiere generar confianza y, ocasionalmente, abusar de ella.
Tanto el expresidente John F. Kennedy como el exsecretario de Estado Henry Kissinger eran fanáticos del juego.
Investigaciones anteriores de IA se han centrado en una versión del juego Diplomacia sin prensa, en la que los jugadores no se comunican.
Eso en sí mismo es un desafío para las computadoras porque la combinación de cooperación y competencia del juego requiere perseguir objetivos contradictorios.
El nuevo trabajo es el primero en lograr resultados respetables en el juego completo.
Noam Brown, científico informático de Meta y coautor del artículo, dice que cuando comenzó el proyecto, en 2019, pensó que el éxito requeriría una década.
“La idea de que puedes tener una IA que está hablando de estrategia con otra persona y planificando cosas, negociando y generando confianza parecía ciencia ficción”.
El agente de IA de Meta, CICERO, une un módulo de razonamiento estratégico y un módulo de diálogo.
Al igual que en otras IA de aprendizaje automático, los módulos se entrenaron en grandes conjuntos de datos, en este caso, 125 261 juegos que los humanos habían jugado en línea, tanto los juegos como las transcripciones de las negociaciones de los jugadores.
Los investigadores entrenaron el módulo de razonamiento estratégico haciendo que el agente jugara contra copias de sí mismo.
Aprendió a elegir acciones en función del estado del juego, cualquier diálogo anterior y las acciones previstas de otros jugadores, mirando varios movimientos por delante.
Durante el entrenamiento, los investigadores también lo recompensaron por jugar como un humano para que sus acciones no confundieran a otros jugadores.
En cualquier dominio, ya sea en los modales en la mesa o en la conducción, las convenciones tienden a facilitar las interacciones.
El módulo de diálogo también requirió ajuste.
Fue entrenado no solo para imitar el tipo de cosas que la gente dice en los juegos, sino para hacerlo dentro del contexto del estado del juego, el diálogo previo y lo que pretendía hacer el módulo de planificación estratégica.
Por sí solo, el agente aprendió a equilibrar el engaño y la honestidad.
En un juego promedio, envió y recibió 292 mensajes que imitaban la jerga típica del juego.
Por ejemplo, un mensaje decía: “¿Cómo crees que se abrirá Alemania?
Puede que tenga una oportunidad en Bélgica, pero necesitaría su ayuda en Dinamarca el próximo año”.
Jonathan Gratch, científico informático de la Universidad del Sur de California que estudia agentes de negociación y brindó orientación temprana para un programa de la Agencia de Proyectos de Investigación Avanzada de Defensa que también está tratando de dominar Diplomacia, señala dos innovaciones técnicas.
En primer lugar, CICERO basa su comunicación en una planificación de varios pasos y, en segundo lugar, mantiene sus comentarios y juegos dentro del ámbito de la convención humana.
Para probar su habilidad, los investigadores hicieron que CICERO jugara 40 juegos en línea contra humanos (que en su mayoría asumieron que era un humano).
Se colocó en el 10% superior de los jugadores que habían jugado al menos dos juegos.
“En un juego que involucra lenguaje y negociación, que los agentes puedan alcanzar la paridad humana es muy emocionante”, dice Zhou Yu, científico informático de la Universidad de Columbia que estudia sistemas de diálogo.
Gratch dice que el trabajo es “impresionante” e “importante“.
Pero cuestiona cuánto contribuyó a su éxito el diálogo de CICERO, a diferencia de su planificación estratégica.
Según el documento, los expertos en Diplomacia calificaron alrededor del 10% de los mensajes de CICERO como inconsistentes con su plan o estado del juego.
“Eso sugiere que está diciendo muchas tonterías”, dice Gratch.
Yu está de acuerdo, señalando que CICERO a veces pronuncia non sequiturs.
Brown dice que el trabajo podría conducir a aplicaciones prácticas en nichos que ahora requieren un toque humano.
Un ejemplo concreto: los asistentes personales virtuales podrían ayudar a los consumidores a negociar mejores precios en los boletos de avión.
Gratch y Yu ven oportunidades para los agentes que persuaden a las personas para que tomen decisiones saludables o se abran durante terapia.
Gratch dice que los agentes de negociación podrían ayudar a resolver disputas entre oponentes políticos.
Los investigadores también ven riesgos.
Agentes similares podrían manipular puntos de vista políticos, ejecutar estafas financieras o extraer información confidencial.
“La idea de la manipulación no es necesariamente mala”, dice Gratch.
“Solo tiene que tener barandillas”, lo que incluye informar a las personas que están interactuando con una IA y que no les mentirá.
“Lo ideal es que las personas estén de acuerdo, y no hay engaño”.
Fuente: Science