Sabemos que cuanto más grande es una red neuronal (es decir, cuanto más parámetros tiene), mejor puede aprender la tarea que le asignamos.
Sin embargo, la estrategia de hacerla infinitamente grande durante el entrenamiento no solo es imposible sino también extremadamente ineficiente.
Los científicos han tratado de imitar la forma en que aprenden los cerebros biológicos, que es altamente eficiente en el uso de recursos, proporcionando a las máquinas un proceso de entrenamiento gradual que comienza con ejemplos más simples y progresa hacia otros más complejos, un modelo conocido como “aprendizaje curricular“.
Sin embargo, sorprendentemente, descubrieron que esta estrategia aparentemente sensata es irrelevante para redes sobreparametrizadas (muy grandes).
Un estudio intentó entender por qué se produce este “fracaso”, sugiriendo que estas redes sobreparametrizadas son tan “ricas” que tienden a aprender siguiendo un camino basado más en la cantidad (de recursos) que en la calidad (entrada organizada por dificultad creciente).
Esto podría ser una buena noticia, ya que sugiere que, ajustando cuidadosamente el tamaño inicial de la red, el aprendizaje curricular podría seguir siendo una estrategia viable, potencialmente prometedora para crear redes neuronales más eficientes en el uso de los recursos y, por lo tanto, que consuman menos energía.
Existe un gran entusiasmo por la IA basada en redes neuronales como ChatGPT: todos los días surge un nuevo bot o una nueva función que todos quieren probar, y el fenómeno también está creciendo en la investigación científica y las aplicaciones industriales.
Esto requiere una mayor potencia de cálculo (y, por lo tanto, un mayor consumo de energía) y las preocupaciones sobre las fuentes de energía necesarias y las emisiones producidas por este sector están aumentando.
Por lo tanto, es crucial hacer que esta tecnología sea capaz de hacer más con menos.
Las redes neuronales son modelos computacionales compuestos por muchos “nodos” que realizan cálculos, con un parecido lejano a las redes de neuronas de los cerebros biológicos, capaces de aprender de forma autónoma en función de la información que reciben.
Por ejemplo, “ven” una cantidad ingente de imágenes y aprenden a categorizar y reconocer contenidos sin instrucciones directas.
Entre los expertos, es bien sabido que cuanto mayor sea una red neuronal durante la fase de entrenamiento (es decir, cuantos más parámetros utilice), con mayor precisión podrá realizar las tareas requeridas.
Esta estrategia se conoce en la jerga técnica como la “hipótesis del billete de lotería” y tiene el importante inconveniente de requerir una cantidad ingente de recursos computacionales, con todos los problemas asociados (se necesitan computadores cada vez más potentes, que demandan cada vez más energía).
Para encontrar una solución, muchos científicos han buscado dónde este tipo de problemas parece haberse solucionado, al menos parcialmente: en los cerebros biológicos.
Nuestros cerebros, con sólo dos o tres comidas al día, pueden realizar tareas que requieren supercomputadores y una enorme cantidad de energía para una red neuronal. ¿Cómo lo hacen?
El orden en el que aprendemos las cosas podría ser la respuesta.
“Si alguien nunca ha tocado el piano y lo pones frente a una pieza de Chopin, es poco probable que haga muchos progresos en su aprendizaje“, explica Luca Saglietti, físico de la Universidad Bocconi de Milán, quien coordinó el estudio.
“Normalmente, hay todo un camino de aprendizaje que abarca años, que comienza tocando ‘Estrellita’ y finalmente conduce a Chopin”.
Cuando se proporciona información a las máquinas en un orden de dificultad creciente, se denomina “aprendizaje curricular”.
Sin embargo, la forma más común de entrenar redes neuronales es introducir información aleatoriamente en redes muy potentes y sobreparametrizadas.
Una vez que la red ha aprendido, es posible reducir la cantidad de parámetros, incluso por debajo del 10% de la cantidad inicial, porque ya no se utilizan.
Sin embargo, si comienza con solo el 10% de los parámetros, la red no aprende.
Por lo tanto, si bien una IA podría eventualmente encajar en nuestro teléfono, durante el entrenamiento, requiere servidores masivos.
Los científicos se han preguntado si el aprendizaje curricular podría ahorrar recursos.
Pero las investigaciones realizadas hasta ahora sugieren que, en el caso de redes con muchos parámetros, el aprendizaje curricular parece irrelevante: el rendimiento en la fase de entrenamiento no parece mejorar.
El nuevo trabajo de Saglietti y sus colegas intentó comprender por qué.
“Lo que hemos visto es que una red neuronal con muchos parámetros no necesita este camino porque, en lugar de guiarse en el aprendizaje mediante ejemplos, se guía por el hecho de que tiene muchos parámetros, recursos que ya están cerca de lo que necesita“, explica Saglietti.
En otras palabras, incluso si se le ofrecen datos de aprendizaje optimizados, la red prefiere confiar en sus amplios recursos de procesamiento y encontrar partes dentro de sí misma que, con unos pocos ajustes, ya pueden realizar la tarea.
En realidad, esto es una buena noticia, ya que no significa que las redes no puedan aprovechar el aprendizaje curricular, sino que, dada la gran cantidad de parámetros iniciales, se las empuja en una dirección diferente.
En principio, por lo tanto, se podría encontrar una manera de comenzar con redes más pequeñas y adoptar el aprendizaje curricular.
“Esta es una parte de la hipótesis explorada en nuestro estudio”, explica Saglietti.
“Al menos dentro de los experimentos que realizamos, observamos que si comenzamos con redes más pequeñas, el efecto del currículo (mostrar ejemplos en un orden seleccionado) comienza a mostrar una mejora en el rendimiento en comparación con cuando la entrada se proporciona aleatoriamente.
Esta mejora es mayor que cuando se siguen aumentando los parámetros hasta el punto en que el orden de la entrada ya no importa”.
Fuente: IOPScience