La inteligencia artificial ya no necesita al ser humano

Comparta este Artículo en:

Un pequeño paso para el hombre, pero un gran salto para la inteligencia artificial.

DeepMind, la compañía que Google adquirió en 2014, ha presentado la última versión disponible de su inteligencia artificial, AlphaGo.

El software, al que han denominado AlphaGo Zero, es capaz de aprender por sí solo sin ayuda humana y sin conocimientos previos de Go, el tradicional juego chino al que las máquinas batieron por primera vez el año pasado.

La última versión de la inteligencia artificial de Google, AlphaGo Zero, ha batido a su predecesora por cien juegos a cero.

El anterior AlphaGo logró vencer a Lee Se-dol, campeón mundial de Go, en marzo de 2016, por lo que el nuevo software podría considerarse como prácticamente imbatible.

Según explica en el trabajo publicado en Nature el equipo de Demis Hassabis, CEO de DeepMind, la última versión de la inteligencia artificial de Google utiliza una única red neuronal y cuatro chips especializados para el entrenamiento de redes neuronales.

Por el contrario, el software anterior empleaba múltiples máquinas y 48 chips especializados (TPU, por sus siglas en inglés).

El programa está diseñado para aprender desde cero de forma autodidacta con el objetivo de predecir la selección de movimientos y el ganador de sus partidas, mejorando con cada repetición del juego.

Tras unos días de entrenamiento, AlphaGo Zero consiguió completar más de cinco millones de partidas consigo mismo y batir la capacidad humana y de las anteriores versiones conocidas.

El autoaprendizaje de la inteligencia artificial permitió que el programa de DeepMind descubriera por sí mismo los principios del mismo juego que tardaron en conocer los seres humanos miles de años, además de conceptualizar y desarrollar estrategias novedosas para resultar imbatible en este pasatiempo ancestral de origen asiático.

“Es increíble ver lo lejos que ha llegado AlphaGo en solo dos años.

AlphaGo Zero es ahora la versión más sólida de nuestro programa y demuestra el progreso que podemos alcanzar incluso con una menor potencia de computación y evitando el uso de datos humanos”, destaca Demis Hassabis, cofundador y CEO de la compañía.

El investigador, que llegó a ser descrito por The Guardian como “el superhéroe de la inteligencia artificial”, destaca que avances como los conseguidos por su algoritmo podrían ayudar a resolver “todo tipo de problemas apremiantes del mundo real”, como resolver el plegamiento de las proteínas o ayudar en el diseño de nuevos materiales.

Satinder Singh, especialista en Computación de la Universidad de Michigan, valora el trabajo como “un gran avance”.

El científico señala en una tribuna publicada en Nature News & Views que el método de aprendizaje del software es “novedoso”, aunque combina “aspectos básicos y familiares” del aprendizaje por refuerzo autónomo.

Las conclusiones de DeepMind, a juicio del investigador, que no ha participado en el estudio, muestran que probablemente los resultados de la inteligencia artificial sean mejores si emplean esta técnica que si se apoyan en la experiencia humana.

No obstante, Singh alerta de la “obsesión de los medios de comunicación” por el enfrentamiento entre la inteligencia artificial y los humanos.

“Sí, otro bello y popular juego ha caído en poder de las máquinas, y sí, el método de aprendizaje por refuerzo autónomo puede ser aplicado en otras tareas.

Sin embargo, este no es el principio del fin porque AlphaGo Zero, como otros programas exitosos, es extremadamente limitado en lo que sabe y respecto a lo que puede hacer en comparación con los humanos e incluso con otros animales”, advierte el experto.

Al jugar a Go, el sistema considera los próximos movimientos más probables (una “red de políticas”), y luego estima la probabilidad de ganar según esos movimientos (su “red de valor”).

AGZ requiere aproximadamente 0.4 segundos para hacer estas dos evaluaciones.

El AlphaGo original estaba equipado con un par de redes neuronales para realizar evaluaciones similares, pero para AGZ, los desarrolladores de Deepmind fusionaron las redes de políticas y de valores en una sola, permitiendo que el sistema aprendiera más eficientemente.

Después de solo tres días de entrenamiento autodidáctico y un total de 4.9 millones de juegos jugados contra sí mismo, AGZ adquirió la experiencia necesaria para derrotar a AlphaGo (en comparación, el AlphaGo original tenía 30 millones de juegos como inspiración).

Después de 40 días de autoaprendizaje, AGZ derrotó a otra versión más sofisticada de AlphaGo llamada AlphaGo “Master” que derrotó a los mejores jugadores de Go y al mejor jugador de Go del mundo, Ke Jie.

A principios de este año, tanto AlphaGo como AlphaGo Master originales ganaron un combinado de 60 juegos contra los mejores profesionales.

El aumento de AGZ, ahora parece, ha hecho que estas versiones anteriores sean obsoletas.

“Hasta ahora, el algoritmo descrito solo funciona para problemas donde hay una cantidad contable de acciones que puede tomar, por lo que necesitaría modificaciones antes de que pueda usarse para problemas de control continuo como locomoción [por ejemplo]”, dijo Hynes .

“Además, requiere que tengas un modelo del medio ambiente realmente bueno.

En este caso, literalmente conoce todas las reglas. Eso sería como si tuvieras un robot para el cual pudieras predecir exactamente los resultados de las acciones, lo cual es imposible para los sistemas físicos reales e imperfectos “.

Por su parte, el CEO de DeepMind también destaca el lado positivo de sus investigaciones, al resaltar que “si podemos hacer los mismos progresos con los problemas actuales que los avances conseguidos con AlphaGo, tendremos el potencial de impulsar la comprensión humana y tener un impacto positivo en nuestras vidas”.

Fuentes: Hipertextual, Gizmodo