Una red neuronal que aprendiera a reconocer objetos utilizando las experiencias filmadas de un solo bebé podría ofrecer nuevos conocimientos sobre cómo aprenden los humanos.
Un modelo de inteligencia artificial (IA) ha aprendido a reconocer palabras como “cuna” y “pelota” estudiando grabaciones de cámaras frontales de una pequeña fracción de la vida de un solo bebé.
Los resultados sugieren que la IA puede ayudarnos a comprender cómo aprenden los humanos, dice Wai Keen Vong, coautor del estudio e investigador en IA en la Universidad de Nueva York.
Esto no estaba claro anteriormente, porque otros modelos de aprendizaje de idiomas, como ChatGPT, aprenden con miles de millones de puntos de datos, lo que no es comparable a las experiencias del mundo real de un bebé, dice Vong. “No nos dan Internet cuando nacemos”.
Los autores esperan que la investigación alimente debates de larga data sobre cómo los niños aprenden el lenguaje.
La IA sólo aprendió creando asociaciones entre las imágenes y las palabras que vio juntas; no fue programado con ningún otro conocimiento previo sobre el lenguaje.
Esto desafía algunas teorías de las ciencias cognitivas que, para dar significado a las palabras, los bebés necesitan algún conocimiento innato sobre cómo funciona el lenguaje, dice Vong.
El estudio es “un enfoque fascinante” para comprender la adquisición temprana del lenguaje en los niños, afirma Heather Bortfeld, científica cognitiva de la Universidad de California, Merced.
Vong y sus colegas utilizaron 61 horas de grabaciones de una cámara montada en un casco usado por un bebé llamado Sam, para recopilar experiencias desde la perspectiva del bebé.
Sam, que vive cerca de Adelaide en Australia, usó la cámara durante aproximadamente una hora dos veces por semana (aproximadamente el 1% de sus horas de vigilia), desde los seis meses hasta aproximadamente los dos años.
Los investigadores entrenaron su red neuronal (una IA inspirada en la estructura del cerebro) en fotogramas del video y en las palabras dichas a Sam, transcritas de la grabación.
El modelo estuvo expuesto a 250.000 palabras y las imágenes correspondientes, capturadas durante actividades como jugar, leer y comer.
El modelo utilizó una técnica llamada aprendizaje contrastivo para aprender qué imágenes y texto tienden a ir juntos y cuáles no, para generar información que pueda usarse para predecir a qué imágenes se refieren ciertas palabras, como “bola” y “tazón“.
Para probar la IA, los investigadores pidieron al modelo que relacionara una palabra con una de cuatro imágenes candidatas, una prueba que también se utiliza para evaluar las habilidades lingüísticas de los niños.
Clasificó exitosamente el objeto el 62% de las veces, mucho mejor que el 25% esperado por casualidad, y comparable a un modelo de IA similar que fue entrenado en 400 millones de pares de imágenes y texto fuera de este conjunto de datos.
Para algunas palabras, como “manzana” y “perro“, el modelo pudo identificar correctamente ejemplos nunca antes vistos, algo que a los humanos generalmente les resulta relativamente fácil.
En promedio, lo hizo con éxito el 35% de las veces.
La IA fue mejor para identificar objetos fuera de contexto cuando aparecían con frecuencia en los datos de entrenamiento.
También fue mejor para identificar objetos que varían poco en su apariencia, dice Vong.
Las palabras que pueden referirse a una variedad de elementos diferentes, como “juguete“, fueron más difíciles de aprender.
El hecho de que el estudio se base en datos de un solo niño podría plantear dudas sobre la generalización de sus hallazgos, porque las experiencias y los entornos de los niños varían mucho, dice Bortfeld.
Pero el ejercicio reveló que se puede aprender mucho en los primeros días del bebé simplemente formando asociaciones entre diferentes fuentes sensoriales, añade.
Los hallazgos también desafían a los científicos, como el lingüista estadounidense Noam Chomsky, que afirman que el lenguaje es demasiado complejo y la entrada de información es demasiado escasa para que la adquisición del lenguaje se produzca a través de procesos generales de aprendizaje.
“Éstos son algunos de los datos más sólidos que he visto que muestran que estos mecanismos ‘especiales’ no son necesarios“, afirma Bortfeld.
El aprendizaje de idiomas en el mundo real es mucho más rico y variado que el experimentado por la IA.
Los investigadores dicen que, debido a que la IA se limita a entrenar con imágenes fijas y texto escrito, no podría experimentar interacciones inherentes a la vida de un bebé real.
La IA tuvo dificultades para aprender la palabra “mano”, por ejemplo, que normalmente se aprende temprano en la vida de un bebé, dice Vong.
“Los bebés tienen sus propias manos, tienen mucha experiencia con ellas. Definitivamente es un componente que falta en nuestro modelo”.
“El potencial para seguir perfeccionando el modelo a fin de que esté más alineado con las complejidades del aprendizaje humano es enorme y ofrece interesantes vías para avanzar en las ciencias cognitivas“, afirma Anirudh Goyal, científico de aprendizaje automático de la Universidad de Montreal, Canadá.
Fuente: Nature