En lo que podemos calificar de hito en los enfrentamientos entre hombre y máquina sobre un tablero de juego, una inteligencia artificial ha sido capaz de ganar a otros cinco jugadores (profesionales, todos ellos ganadores de al menos un millón de dólares) en la modalidad de póquer Texas Hold’em sin límite, la primera vez que se logra en un juego así de complejo frente a más de dos jugadores.
En estos últimos años, los juegos de mesa han tenido un papel protagonista en muchos de los hitos de la inteligencia artificial.
Dos décadas después de que Deep Blue batiese a Garry Kásparov, las técnicas de aprendizaje por refuerzo, que permiten que sea la propia máquina quien aprenda a jugar compitiendo contra sí misma, están detrás de las últimas victorias de IAs en partidas de ajedrez, shogi y Go.
Pero todos estos hitos se han limitado a juegos para dos jugadores.
Sin embargo, concretamente en el caso del póquer lo habitual es jugarlo entre más personas.
Pero los juegos de mesa multijugador presentan retos adicionales, ausentes en los de uno contra uno.
La importancia del póquer, por otra parte, reside en que, gracias a los ‘faroles’ y otros recursos del juego, “ningún otro juego recreativo popular captura los desafíos de la información oculta con la misma eficacia” que el mismo, según explican Noam Brown y Tuomas Sandholm, investigadores de la Univ. Carnegie Mellon y de Facebook.
De hecho, varios de los textos más relevantes de la Teoría de Juegos han utilizado el póquer como modo de ilustrar sus conceptos.
La importancia de saber dar respuesta al reto que representa el póquer multijugador radica en que la mayoría de las interacciones estratégicas del mundo real son como este juego: implican información asimétrica y más de dos jugadores, lo que las convierte en algo mucho más complejo.
De ahí la importancia del artículo ‘Superhuman AI for multiplayer poker’ que acaban de publicar en Science Brown y Sandholm.
En el mismo presentan a Pluribus (‘muchos’, en latín), una IA capaz de derrotar a cinco jugadores profesionales del póquer de la modalidad Texas Hold’em sin límite (una bastante compleja, pues los jugadores desarrollan estrategias de apuestas a largo plazo, que duran decenas de manos).
Lo que tienen en común los juegos que hemos citado antes es que todos ellos, además de ser para dos jugadores, son juegos de suma cero (lo que un jugador pierde, el otro lo gana).
Por eso, las IAs exitosas en ese campo ganan adoptando modelos basados en el ‘equilibrio de Nash’, que parte de asumir que los jugadores están aplicando su mejor estrategia y que ambos conocen la táctica del oponente.
Sin embargo, basarse en el equilibrio de Nash en un juego entre más de dos jugadores suele ser ineficaz, pues resulta bastante complejo por la dificultad para coordinar estrategias entre ellos.
De ahí que se imponga la necesidad de cambiar de estrategia.
La combinación de sistemas de aprendizaje reforzado con nuevos algoritmos ha sido clave para dotar de sus capacidades a Pluribus; la IA traza una estrategia para la primera ronda de apuestas con base en el resultado de partidas que juega contra otras cinco copias de sí misma en un entorno virtual (unas 10.000 manos a lo largo de 12 días).
Una vez superada esa ronda, Pluribus realiza comprobaciones más detalladas de los posibles movimientos a dar con varias manos de antelación.
Sin embargo, no elabora una simulación hasta el final mismo de la partida, dada la gran cantidad de variables a tener en cuenta en un juego como éste.
Threatening our health are powerful chemicals, levitra best price air and water pollution, radiation, and nuclear waste. Survey shows that the acai berry has abundant nutritional value devensec.com canada cialis generic and is used as a popular supplement. As the PDE5 blocked, CGMP could build tadalafil online order up in the penis and increases the blood flow to the penis. A lot of men have problems with this but the fact is that if you are enjoying yourself, your partner feeds off your enjoyment and greed and their level of fear and anxiety about experiencing an ICD shock.In the survey questionnaire, survey included questions about confidence, satisfaction and the ability to maintain an erection cialis cheap generic purchasing that during sexual intercourse.Esto, según Darren Elias, jugador profesional que posee el récord de títulos del World Poker Tour, permitió al robot “pasar de ser un jugador mediocre a poder competir con los mejores del mundo en unas pocas semanas.
Su fortaleza radica en su capacidad para usar estrategias mixtas, del mismo modo en que lo hacen los seres humanos”.
Pero, al contrario que nosotros, es capaz de hacerlo de forma perfectamente aleatoria y consistente.
Por ejemplo, la IA logró eliminar a sus competidores humanos utilizando con frecuencia apuestas que los humanos acostumbramos a evitar, las llamadas ‘donk bets’.
En apariencia ilógicas, su único fin es el de confundir al jugador que domina una mano.
Pluribus salió victorioso frente a 13 jugadores profesionales de póker, entre los que están algunos de los mejores del mundo, en 15.000 manos. En ocasiones, su estrategia confirmó lecciones tradicionales del juego, pero en otros casos resultó desconcertante.
Pluribus crea un boceto para las partidas, con una lista de posibles estrategias, que se va ajustando en tiempo real en las manos sucesivas, de forma que a lo largo de los días va mejorando su habilidad.
Además, el programa apila manos similares, y hace abstracciones para simplificar el manejo de información.
Otro de los logros de esta investigación es que el programa ha reducido la potencia de computación necesaria para elaborar su boceto de jugadas.
Le bastó con ocho días de computación en los que usó 12.400 horas/núcleo, y con emplear 28 núcleos durante las partidas, mientras que sistemas anteriores requirieron del orden de 1.000 veces más recursos.
Contra sus oponentes humanos profesionales con dinero real involucrado, Pluribus logró recaudar ganancias a una tasa asombrosa de US$1,000 por hora.
Las partidas con cinco humanos y Pluribus involucraron 10,000 manos jugadas durante 12 días.
Para incentivar a los jugadores humanos, se distribuyó un total de US$50,000 entre los participantes, incluido Pluribus.
Los juegos fueron ciegos en el sentido de que a ninguno de los jugadores humanos se les dijo quiénes estaban jugando, aunque cada jugador tenía un alias consistente usado durante la competencia.
Para las pruebas que incluyeron un ser humano solitario y cinco Pluribuses, a cada jugador se le dieron US$2,000 por participar y un bono de US$2,000 por jugar mejor que su cohorte humana.
En todos los escenarios, Pluribus registró victorias con “significación estadística” y, en cierta medida, los investigadores se refirieron a “superhumano”.
Los investigadores creen que la estrategia usada para entrenar a Pluribus puede ir más allá del póquer, y aplicarse en otras situaciones en los que numerosos actores tienen una capacidad limitada para coordinarse, como las subastas, los atascos de tráfico o las finanzas.
Fuente: Xataca