MuZero representa un probable avance en inteligencia artificial de propósito general.
En 2016, DeepMind de Alphabet lanzó AlphaGo, una IA que venció constantemente a los mejores jugadores humanos de Go.
Un año después, la subsidiaria continuó refinando su trabajo, creando AlphaGo Zero.
Donde su predecesor aprendió a jugar al Go observando partidos de aficionados y profesionales, AlphaGo Zero dominó el antiguo juego simplemente jugando contra sí mismo.
DeepMind luego creó AlphaZero, que podía jugar al Go, al ajedrez y al shogi con un solo algoritmo.
Lo que unía a todas esas IA es que conocían las reglas de los juegos que tenían que dominar antes de entrenar.
La última IA de DeepMind, MuZero, no necesitó que le dijeran las reglas de go, ajedrez, shogi y un conjunto de juegos de Atari para dominarlos.
En cambio, los aprendió todos por sí sola y es tan capaz o mejor en ellos que cualquiera de los algoritmos anteriores de DeepMind.
Crear un algoritmo que pueda adaptarse a una situación en la que no conoce todas las reglas que rigen una simulación, pero aún puede encontrar una manera de planificar el éxito ha sido un desafío que los investigadores de IA han estado tratando de resolver durante un tiempo.
DeepMind ha intentado constantemente abordar el problema utilizando un enfoque llamado búsqueda anticipada.
Con este método, un algoritmo considerará estados futuros para planificar un curso de acción.
La mejor manera de entender esto es pensar en cómo jugaría un juego de estrategia como el ajedrez o Starcraft II.
Antes de hacer un movimiento, considerará cómo reaccionará su oponente e intentará planificar en consecuencia.
De la misma manera, una IA que utiliza el método de anticipación intentará planificar varios movimientos por adelantado.
Incluso con un juego tan relativamente sencillo como el ajedrez, es imposible considerar todos los posibles estados futuros, por lo que una IA priorizará los que tienen más probabilidades de ganar la partida.
Safe purchase viagra raindogscine.com and sure care- The medication has been stuffed with Sildenafil citrate which leads for such potential responses of getting treated from the firm actions of PDE5 enzymes & thus, it leads for swift circulation of the blood along the penile region which helps with the harder erection during the sessions of intercourse. Matter of fact one of the first signs that many chiropractors see in patients with chronic back or neck pain cialis pills effects of is poor breathing. On headaches, two 2011 reviews found that chiropractic may correspond to. cialis generic usa This also leads to some sildenafil canada online males to continue living in great dissatisfaction with their lives.El problema con este enfoque es que la mayoría de las situaciones del mundo real, e incluso algunos juegos, no tienen un conjunto simple de reglas que rijan su funcionamiento.
Por eso, algunos investigadores han intentado solucionar el problema utilizando un enfoque que intenta modelar cómo un juego o escenario en particular afectará un resultado y luego usar ese conocimiento para hacer un plan.
El inconveniente de este sistema es que algunos dominios son tan complejos que modelar cada aspecto es casi imposible.
Este ha demostrado ser el caso de la mayoría de los juegos de Atari, por ejemplo.
En cierto modo, MuZero combina lo mejor de ambos mundos.
En lugar de modelar todo, solo intenta considerar aquellos factores que son importantes para tomar una decisión.
Como señala DeepMind, esto es algo que hace como ser humano.
Cuando la mayoría de la gente mira por la ventana y ve que se forman nubes oscuras en el horizonte, por lo general no se quedan atrapados pensando en cosas como la condensación y los frentes de presión.
En cambio, piensan en cómo deben vestirse para mantenerse secos si salen al aire libre. MuZero hace algo similar.
Tiene en cuenta tres factores a la hora de tomar una decisión.
Considerará el resultado de su decisión anterior, la posición actual en la que se encuentra y el mejor curso de acción a seguir.
Ese enfoque aparentemente simple convierte a MuZero en el algoritmo más eficaz que DeepMind ha creado hasta la fecha.
En sus pruebas, descubrió que MuZero era tan bueno como AlphaZero en ajedrez, Go y shogi, y mejor que todos sus algoritmos anteriores, incluido Agent57, en los juegos de Atari.
También descubrió que cuanto más tiempo le daba a MuZero para considerar una acción, mejor funcionaba.
DeepMind también realizó pruebas en las que puso un límite a la cantidad de simulaciones que MuZero podía completar antes de comprometerse con un movimiento en Ms Pac-Man.
En esas pruebas, encontró que MuZero aún podía lograr buenos resultados.
Obtener puntuaciones altas en los juegos de Atari está muy bien, pero ¿qué pasa con las aplicaciones prácticas de la última investigación de DeepMind?
En una palabra, podrían ser innovadores.
Si bien aún no hemos llegado a ese punto, MuZero es lo más cerca que han estado los investigadores de desarrollar un algoritmo de propósito general.
La subsidiaria dice que las capacidades de aprendizaje de MuZero algún día podrían ayudarlo a abordar problemas complejos en campos como la robótica, donde no hay reglas sencillas.
Fuente: Engadget