Un equipo de investigadores de IA de la Universitat Politècnica de València, en España, ha descubierto que a medida que los LLM (Large Language Models) más populares se hacen más grandes y sofisticados, es menos probable que admitan ante un usuario que no saben una respuesta.
En su estudio el grupo probó la última versión de tres de los chatbots de IA más populares en cuanto a sus respuestas, precisión y qué tan buenos son los usuarios para detectar respuestas incorrectas.
A medida que los LLM se han generalizado, los usuarios se han acostumbrado a usarlos para escribir artículos, poemas o canciones y resolver problemas de matemáticas y otras tareas, y la cuestión de la precisión se ha convertido en un problema mayor.
En este nuevo estudio, los investigadores se preguntaron si los LLM más populares se están volviendo más precisos con cada nueva actualización y qué hacen cuando se equivocan.
Para probar la precisión de tres de los LLM más populares, BLOOM, LLaMA y GPT, el grupo les planteó miles de preguntas y comparó las respuestas que recibieron con las respuestas de versiones anteriores a las mismas preguntas.
También variaron los temas, incluyendo matemáticas, ciencias, anagramas y geografía, y la capacidad de los LLM para generar texto o realizar acciones como ordenar una lista.
Para todas las preguntas, primero asignaron un grado de dificultad.
Descubrieron que con cada nueva iteración de un chatbot, la precisión mejoraba en general.
También descubrieron que a medida que las preguntas se volvían más difíciles, la precisión disminuía, como se esperaba.
Pero también descubrieron que a medida que los LLM se hacían más grandes y más sofisticados, tendían a ser menos abiertos sobre su propia capacidad para responder una pregunta correctamente.
En versiones anteriores, la mayoría de los LLM respondían diciendo a los usuarios que no podían encontrar las respuestas o que necesitaban más información.
En las versiones más nuevas, los LLM tenían más probabilidades de adivinar, lo que generaba más respuestas en general, tanto correctas como incorrectas.
También descubrieron que todos los LLM ocasionalmente producían respuestas incorrectas incluso a preguntas fáciles, lo que sugiere que aún no son confiables.
Luego, el equipo de investigación pidió a los voluntarios que calificaran las respuestas de la primera parte del estudio como correctas o incorrectas y descubrió que la mayoría tenía dificultades para detectar las respuestas incorrectas.
Fuente: Nature