Un equipo de investigadores de la Universidad Carnegie Mellon se propuso ver con qué precisión los grandes modelos lingüísticos (LLM) pueden coincidir con el estilo del texto escrito por humanos.
“Nosotros, los humanos, adaptamos nuestra forma de escribir y de hablar a la situación.
A veces somos formales o informales, o hay diferentes estilos para diferentes contextos“, dijo Alex Reinhart, autor principal y profesor asociado en el Departamento de Estadística y Ciencia de Datos.
“Lo que aprendimos es que los LLM, como ChatGPT y Llama, escriben de una determinada manera y no necesariamente se adaptan al estilo de escritura.
El contexto y su estilo son en realidad muy distintos de cómo los humanos normalmente escriben o hablan en diferentes contextos. Nadie ha medido o cuantificado esto de la forma en que pudimos hacerlo“.
En este estudio, Reinhart y su equipo pudieron demostrar cómo escriben los LLM al sugerirles extractos de textos de diversos géneros, como guiones de televisión y artículos académicos.
Utilizando el código escrito por David West Brown, profesor asociado del Departamento de Inglés y coautor del estudio, encontraron grandes diferencias en las características gramaticales, léxicas y estilísticas entre el texto escrito por LLM y los humanos.
Estas diferencias fueron mayores en los modelos ajustados a las instrucciones, como ChatGPT, que se someten a un entrenamiento adicional para responder preguntas y seguir instrucciones.
Según los investigadores, los LLM utilizaban cláusulas de participio presente a una velocidad dos a cinco veces superior a la del texto humano, como se demuestra en esta oración escrita por GPT-4o:
“Bryan, apoyándose en su agilidad, baila alrededor del ring, evadiendo los fuertes golpes de Show”.
También utilizaron nominalizaciones a una velocidad entre 1,5 y dos veces superior a la de los humanos, y GPT-4o utiliza la voz pasiva sin agente a la mitad de la velocidad de los humanos.
Esto sugiere que los LLM están entrenados para escribir en un estilo denso en información y con muchos sustantivos, lo que limita su capacidad para imitar otros estilos de escritura.
Los investigadores también descubrieron que los LLM adaptados a las instrucciones tienen vocabularios distintivos, y usan algunas palabras con mucha más frecuencia que los humanos que escriben en el mismo género.
Por ejemplo, las versiones de ChatGPT usaron “camaradería” y “tapiz” unas 150 veces más a menudo que los humanos, mientras que las variantes de Llama usaron “indignación” entre 60 y 100 veces más a menudo. Ambos modelos tenían fuertes preferencias por “palpable” e “intrincado“.
“Ha habido mucha ansiedad circulando entre los profesores. Y pensé para mí mismo, como alguien que hace trabajo computacional y trabaja mucho con ciencia de datos para alguien que está en un departamento de inglés, que esto no es realmente lo que hacen los escritores“, dijo Brown.
“No escribimos una sola vez. Escribimos una y otra y otra y otra vez. Por lo tanto, la pregunta era: ¿pueden (los LLM) generar un resultado único que parezca plausible?
“El mensaje que creo que realmente queríamos comunicar era pensar muy cuidadosamente en qué circunstancias (el uso de LLM) podría ser adecuado“, dijo Brown.
“Me importa que las notas de mi médico sean precisas. Realmente no me importa si están escritas con la voz de mi médico.
“Pero si estoy escribiendo una carta de solicitud de empleo en la que quiero destacar, eso importa mucho.
Como instructores, escritores y comunicadores, debemos ser conscientes de las idiosincrasias y deficiencias de los LLM”.
Reinhart también señaló las crecientes preocupaciones sobre lo que sucede si los estudiantes usan los LLM para completar las tareas.
“Algunas personas dirán que es como cuando teníamos calculadoras para la clase de matemáticas.
Y ahora simplemente usas la calculadora, y es genial. Lo que aprendimos es que no es exactamente como una calculadora“, dijo Reinhart.
“Usas una calculadora, hace los mismos cálculos que tú ibas a hacer, pero no se equivoca y se olvida de llevar la calculadora.
Pero aquí, estás obteniendo algo diferente de lo que escribiría un ser humano típico“.
Los investigadores señalaron que se necesitan más estudios y una mirada más amplia a más LLM para comprender la importancia y el impacto del ajuste de la instrucción en estos modelos.
Un proyecto en curso del estudiante de doctorado Ben Markey implica estudiar cómo se pueden usar los LLM para evaluar la escritura humana, como los ensayos de los estudiantes, y cuán consistentes son sus evaluaciones.
“¿Puedes dar un modelo de lenguaje grande, digamos un ensayo y hacer que lo evalúen?“, preguntó Brown.
“Lo que (Markey) está haciendo es, en lugar de dar a un LLM solo un ensayo o algo así una vez, ¿qué sucede si le das los criterios y lo das una y otra y otra vez? ¿Te dará la misma puntuación o hará cosas diferentes cada vez?
Por lo tanto, también estamos pensando en otros tipos de aplicaciones con estos modelos para ver si podemos entenderlos”.
Fuente: PNAS