Encuentran la clave del poder de aprendizaje de las IAs: una navaja de Occam incorporada

Encuentran la clave del poder de aprendizaje de las IAs: una navaja de Occam incorporada

Comparta este Artículo en:

Un estudio de la Universidad de Oxford ha descubierto por qué las redes neuronales profundas (DNN) que impulsan la inteligencia artificial moderna son tan eficaces a la hora de aprender de los datos.

Los hallazgos demuestran que las DNN tienen una “navaja de Occam” incorporada, lo que significa que cuando se les presentan múltiples soluciones que se ajustan a los datos de entrenamiento, tienden a favorecer las más simples.

Lo especial de esta versión de la navaja de Occam es que el sesgo cancela exactamente el crecimiento exponencial del número de posibles soluciones con complejidad.

Para hacer buenas predicciones sobre datos nuevos e invisibles, incluso cuando hay millones o incluso miles de millones de parámetros más que puntos de datos de entrenamiento, los investigadores plantearon la hipótesis de que las DNN necesitarían una especie de “guía incorporada” que les ayudara a elegir los patrones correctos en los que centrarse.

Si bien sabíamos que la eficacia de las redes neuronales profundas depende de algún tipo de sesgo inductivo hacia la simplicidad (una especie de navaja de Occam), existen muchas versiones de esta navaja.

La naturaleza precisa de la navaja que utilizan las redes neuronales profundas sigue siendo difícil de determinar“, dijo el físico teórico Profesor Ard Louis (Departamento de Física, Universidad de Oxford), quien dirigió el estudio.

Para descubrir el principio rector de las redes neuronales profundas, los autores investigaron cómo estas aprenden funciones booleanas (reglas fundamentales en computación donde un resultado solo puede tener uno de dos valores posibles: verdadero o falso).

Descubrieron que, si bien las redes neuronales profundas pueden técnicamente ajustar cualquier función a los datos, tienen una preferencia incorporada por las funciones más simples que son más fáciles de describir.

Esto significa que las redes neuronales profundas están naturalmente sesgadas hacia las reglas simples en lugar de las complejas.

Además, los autores descubrieron que esta navaja de Occam inherente tiene una propiedad única: contrarresta exactamente el aumento exponencial en el número de funciones complejas a medida que crece el tamaño del sistema.

Esto permite que las DNN identifiquen las funciones simples y poco comunes que se generalizan bien (haciendo predicciones precisas tanto en los datos de entrenamiento como en los datos no vistos), mientras evitan la gran mayoría de funciones complejas que se ajustan a los datos de entrenamiento pero funcionan mal en los datos no vistos.

Este principio emergente ayuda a que las DNN funcionen bien cuando los datos siguen patrones simples.

Sin embargo, cuando los datos son más complejos y no se ajustan a patrones simples, las DNN no funcionan tan bien, a veces no mejor que las suposiciones aleatorias.

Afortunadamente, los datos del mundo real suelen ser bastante simples y estructurados, lo que se alinea con la preferencia de las DNN por la simplicidad.

Esto ayuda a las DNN a evitar el sobreajuste (donde el modelo se “ajusta” demasiado a los datos de entrenamiento) cuando trabajan con datos simples del mundo real.

Para profundizar en la naturaleza de esta navaja, el equipo investigó cómo cambiaba el rendimiento de la red cuando se alteraba su proceso de aprendizaje al cambiar ciertas funciones matemáticas que deciden si una neurona debe “activarse” o no.

Descubrieron que, aunque estas DNN modificadas siguen favoreciendo las soluciones simples, incluso pequeños ajustes a esta preferencia reducían significativamente su capacidad de generalizar (o hacer predicciones precisas) sobre funciones booleanas simples.

Este problema también se produjo en otras tareas de aprendizaje, lo que demuestra que tener la forma correcta de la navaja de Occam es crucial para que la red aprenda de manera eficaz.

Los nuevos hallazgos ayudan a “abrir la caja negra” de cómo las DNN llegan a ciertas conclusiones, lo que actualmente dificulta explicar o cuestionar las decisiones tomadas por los sistemas de IA.

Sin embargo, si bien estos hallazgos se aplican a las DNN en general, no explican completamente por qué algunos modelos de DNN específicos funcionan mejor que otros en ciertos tipos de datos.

Christopher Mingard (Departamento de Física, Universidad de Oxford), coautor principal del estudio, dijo:

“Esto sugiere que debemos mirar más allá de la simplicidad para identificar sesgos inductivos adicionales que impulsan estas diferencias de rendimiento”.

Según los investigadores, los hallazgos sugieren un fuerte paralelismo entre la inteligencia artificial y los principios fundamentales de la naturaleza.

De hecho, el notable éxito de las redes neuronales profundas en una amplia gama de problemas científicos indica que este sesgo inductivo exponencial debe reflejar algo profundo sobre la estructura del mundo natural.

“Nuestros hallazgos abren posibilidades apasionantes”, dijo el profesor Louis.

“El sesgo que observamos en las redes neuronales profundas tiene la misma forma funcional que el sesgo de simplicidad en los sistemas evolutivos que ayuda a explicar, por ejemplo, la prevalencia de la simetría en los complejos proteínicos.

Esto apunta a conexiones intrigantes entre el aprendizaje y la evolución, una conexión que merece una mayor exploración”.

Fuente: Nature communications

 

Leave a Reply

Your email address will not be published. Required fields are marked *