El nuevo modelo MLC, creado por investigadores de la Universidad de Nueva York y la Pompeu Fabra es capaz de relacionar conceptos mejor que otras inteligencias artificiales, como ChatGPT.
Las personas tenemos la capacidad de aprender un concepto y luego extrapolarlo a usos relacionados.
Por ejemplo, con la llegada de las redes sociales, aprendimos el significado de ‘tuitear’.
Y como conocemos la expresión ‘dos veces’, entendemos qué quiere decir ‘tuitear dos veces’.
Pero, curiosamente, a la inteligencia artificial, incluso en el caso de los sistemas más avanzados, le cuesta hacer esta extrapolación.
De hecho, a finales de los 80, Jerry Fodor y Zenon Pylyshyn, filósofos y científicos cognitivos, postularon que las redes neuronales artificiales (un modelo simplificado que emula el modo en que el cerebro humano procesa la información) eran totalmente incapaces de establecer estas conexiones, llamadas generalizaciones compositivas.
A pesar de que durante las últimas décadas (y sobre todo en los últimos años) este tipo de redes neuronales ha avanzado enormemente, aún es complicado rebatir el postulado de Fodor y Pylyshyn.
Sin embargo, el equipo capitaneado por Brenden Lake (profesor asistente en el Centro de Ciencia de Datos y Departamento de Psicología y Tecnología de la Universidad de Nueva York) y Marco Baroni (investigador del Instituto Catalán de Investigación y Estudios Avanzados y profesor del Departamento de Traducción y Ciencias del Lenguaje de la Pompeu Fabra, de Barcelona), han desarrollado un nuevo método de entrenamiento llamado ‘metaaprendizaje composicional’ (MLC) que enseña a inteligencias artificiales como ChatGPT a establecer estas generalizaciones, en algunos casos incluso mejor que los propios humanos.
De forma tradicional, se ha esperado que estos sistemas aprendieran ‘a la vieja usanza’.
«Las redes neuronales siempre son entrenadas con ejemplos de la tarea que queremos que solucionen», explica Baroni.
«Normalmente, una red neuronal se entrena con ejemplos específicos de casos particulares. Por ejemplo, si queremos que la red aprenda a reconocer animales, le mostraremos fotos de perros, gatos, caballos…».
No ha sido el único enfoque: también se han desarrollado arquitecturas especiales para que adquirieran esta habilidad de generalización.
Sin embargo, los resultados han sido desiguales.
Este equipo introduce un nuevo planteamiento alternativo, el MLC:
«Aquí, cada ejemplo utilizado durante el aprendizaje es un problema diferente. De este modo, la red aprende a solucionar problemas abstractos, en lugar de aprender a capturar solamente correlaciones superficiales entre un ejemplo y otro», señala Baroni.
Con el MLC como método de entrenamiento, la red neuronal (en este caso se probó específicamente con modelos de lenguaje similares a ChatGPT) se actualiza continuamente para mejorar sus habilidades con cada nuevo concepto.
Por ejemplo, MLC recibe una la palabra «saltar»; después, crea combinaciones de palabras, como «saltar dos veces».
En el siguiente paso, se añaden nuevas palabras, como «saltar dos veces alrededor de un cono».
Y así sucesivamente, mejorando las habilidades de composición de la cadena.
Para comprobar que, efectivamente, el método de entrenamiento funciona, se llevaron a cabo una serie de experimentos que enfrentaron a máquinas y humanos.
Para que hubiese igualdad de condiciones, se inventaron nuevas palabras que tuvieron que aprender ambos por igual.
En concreto, los vocablos ‘dax’, ‘wif’, ‘lug’ y ‘zup’, que querían decir ‘rojo’, ‘verde’, ‘azul’ y ‘amarillo’, respectivamente.
Después se introducían nuevos conceptos definidos por los investigadores como ‘fep’, que quería decir que se repite la palabra anterior tres veces.
Por ejemplo, ‘dax fep’ significaría ‘rojo rojo rojo’.
O la palabra ‘kiki’ invierte el orden de los conceptos: así, ‘dax kiki lug’ sería ‘azul rojo’.
Ambos grupos, máquinas y humanos, arrojaron aciertos parecidos.
Es más, MLC funcionó mejor en algunos casos. Incluso cuando se comparó con otras redes neuronales potentes, tales como ChatGPT y GPT-4, MLC fue superior y estas mostraron dificultades con esta tarea de aprendizaje.
Pero lo que más sorprendió a los autores es que las redes neuronales no solo se parecieron a los humanos cuando produjeron la respuesta correcta, «sino también cuando se equivocan», indica Baroni.
«Los grandes modelos de lenguaje como ChatGPT todavía luchan con la generalización compositiva, aunque han mejorado en los últimos años», señala el autor.
«Pero creemos que MLC puede mejorar aún más las habilidades de composición de los modelos de lenguaje».
Y no solo serviría para hacer estas inteligencias artificiales más parecidas a nuestra forma de pensar. También para aumentar su accesibilidad y restar algo del recelo que muchas veces suscitan entre los profesionales que las utilizan.
«Hacer que las redes se comporten de un modo más sistemático también implica que sus métodos de ‘razonamiento’ serán más transparentes», indica Baroni.
Porque una de las críticas hacia estos modelos, que se postulan como sistemas de apoyo en, por ejemplo, diagnósticos médicos, es que no está del todo claro el camino que lleva a ese razonamiento final que cada vez está más afinado.
No sería el único objetivo.
«Esperamos que las redes capaces de generalización composicional también pedirán menos datos de entrenamiento, y por tanto serán más pequeñas y más fácil desarrollar sistemas semejantes a los de empresas cuales OpenAI y Google por universidades e institutos de investigación públicos», añade el investigador.
Aún así, aún queda mucho trabajo por hacer, y aunque enseñemos a generalizar a las máquinas, esto no significa que hayamos emulado por completo el intelecto humano:
«El razonamiento composicional solo es una parte de cómo funcionamos nosotros, los seres humanos».
Fuente: Nature
Recientemente, Sanctuary AI presentó su mano robótica que ahora es capaz de manipular objetos. (more…)
Especialistas en robótica de la Universidad de Leeds y el University College de Londres han…
El lenguaje de señas es un medio de comunicación sofisticado y vital para las personas…
Según un nuevo estudio dirigido por el Imperial College, una tecnología de navegación que utiliza…
Gemini 2.0 Flash Thinking Experimental es una nueva versión de la IA de Google que…
Las computadoras cuánticas difieren fundamentalmente de las clásicas. En lugar de utilizar bits (0 y…