LLMs son mejores para predecir lo que viene a continuación que lo que vino antes

LLMs son mejores para predecir lo que viene a continuación que lo que vino antes

Comparta este Artículo en:

Investigadores han descubierto que los modelos de lenguaje de gran tamaño de IA, como GPT-4, son mejores para predecir lo que viene a continuación que lo que vino antes en una oración.

Este efecto de la “flecha del tiempo” podría cambiar nuestra comprensión de la estructura del lenguaje natural y la forma en que estos modelos lo entienden.

Los modelos de lenguaje de gran tamaño (LLM) como GPT-4 se han vuelto indispensables para tareas como la generación de texto, la codificación, el funcionamiento de chatbots, la traducción y otras.

En esencia, los LLM funcionan prediciendo la siguiente palabra en una oración basándose en las palabras anteriores, una idea simple pero poderosa que impulsa gran parte de su funcionalidad.

Pero, ¿qué sucede cuando les pedimos a estos modelos que predigan hacia atrás, que vayan “hacia atrás en el tiempo” y determinen la palabra anterior a partir de las siguientes?

La pregunta llevó al profesor Clément Hongler de la EPFL y a Jérémie Wenger de Goldsmiths (Londres) a explorar si los LLM podrían construir una historia hacia atrás, comenzando desde el final.

En colaboración con Vassilis Papadopoulos, un investigador de aprendizaje automático de la EPFL, descubrieron algo sorprendente: los LLM son sistemáticamente menos precisos a la hora de predecir hacia atrás que hacia adelante.

Los investigadores probaron LLM de diferentes arquitecturas y tamaños, incluidos los transformadores preentrenados generativos (GPT), las unidades recurrentes cerradas (GRU) y las redes neuronales de memoria a largo plazo (LSTM).

Todas ellas mostraron el sesgo de la “flecha del tiempo“, lo que revela una asimetría fundamental en la forma en que los LLM procesan el texto.

Hongler explica:

“El descubrimiento muestra que, si bien los LLM son bastante buenos tanto para predecir la siguiente palabra como la anterior en un texto, siempre son ligeramente peores hacia atrás que hacia adelante: su rendimiento a la hora de predecir la palabra anterior es siempre un pequeño porcentaje peor que al predecir la siguiente palabra.

Este fenómeno es universal en todos los idiomas y se puede observar con cualquier modelo de lenguaje grande”.

El trabajo también está relacionado con el trabajo de Claude Shannon, el padre de la teoría de la información, en su influyente artículo de 1951.

Shannon exploró si predecir la siguiente letra en una secuencia era tan fácil como predecir la anterior.

Descubrió que, aunque ambas tareas deberían ser teóricamente igual de difíciles, a los humanos les resultaba más difícil la predicción hacia atrás, aunque la diferencia de rendimiento era mínima.

“En teoría, no debería haber diferencia entre las direcciones hacia delante y hacia atrás, pero los LLM parecen ser de alguna manera sensibles a la dirección temporal en la que procesan el texto“, dice Hongler.

“Curiosamente, esto está relacionado con una propiedad profunda de la estructura del lenguaje que solo pudo descubrirse con la aparición de grandes modelos del lenguaje en los últimos cinco años”.

Los investigadores vinculan esta propiedad a la presencia de agentes inteligentes que procesan información, lo que significa que podría usarse como una herramienta para detectar inteligencia o vida, y ayudar a diseñar LLM más potentes.

Finalmente, podría señalar nuevas direcciones para la búsqueda de larga data de comprender el paso del tiempo como un fenómeno emergente en la física.

El estudio en sí tiene una historia de fondo fascinante, que Hongler relata.

“En 2020, con Jérémie [Wenger], colaboramos con la escuela de teatro The Manufacture para crear un chatbot que actuara junto a los actores para hacer improvisaciones; en la improvisación, a menudo se quiere continuar la historia, aunque se sabe cómo debería ser el final.

“Para crear historias que terminaran de una manera específica, se nos ocurrió la idea de entrenar al chatbot para que hablara “al revés”, lo que le permitiría generar una historia dada su finalización;

Por ejemplo, si la finalización es “vivieron felices para siempre”, el modelo podría decirte cómo sucedió.

Entonces, entrenamos a los modelos para que hicieran eso y notamos que eran un poco peores al revés que hacia adelante.

“Con Vassilis [Papadopoulos], más tarde nos dimos cuenta de que se trataba de una característica profunda del lenguaje y que era un fenómeno nuevo y completamente general, que tiene vínculos profundos con el paso del tiempo, la inteligencia y la noción de causalidad. Bastante genial para un proyecto de teatro“.

El entusiasmo de Hongler por este trabajo se debe en gran parte a las sorpresas inesperadas que se le presentaron en el camino.

“Solo el tiempo podría decir que algo que comenzó como un proyecto teatral terminaría brindándonos nuevas herramientas para comprender tantas cosas sobre el mundo”.

Fuente: arXiv

 

Leave a Reply

Your email address will not be published. Required fields are marked *