Categorías: Tecnología

A medida que crecen los chatbots, es más probable que den respuestas incorrectas que admitir ignorancia

Comparta este Artículo en:

Un equipo de investigadores de IA de la Universitat Politècnica de València, en España, ha descubierto que a medida que los LLM (Large Language Models) más populares se hacen más grandes y sofisticados, es menos probable que admitan ante un usuario que no saben una respuesta.

En su estudio el grupo probó la última versión de tres de los chatbots de IA más populares en cuanto a sus respuestas, precisión y qué tan buenos son los usuarios para detectar respuestas incorrectas.

A medida que los LLM se han generalizado, los usuarios se han acostumbrado a usarlos para escribir artículos, poemas o canciones y resolver problemas de matemáticas y otras tareas, y la cuestión de la precisión se ha convertido en un problema mayor.

En este nuevo estudio, los investigadores se preguntaron si los LLM más populares se están volviendo más precisos con cada nueva actualización y qué hacen cuando se equivocan.

Para probar la precisión de tres de los LLM más populares, BLOOM, LLaMA y GPT, el grupo les planteó miles de preguntas y comparó las respuestas que recibieron con las respuestas de versiones anteriores a las mismas preguntas.

También variaron los temas, incluyendo matemáticas, ciencias, anagramas y geografía, y la capacidad de los LLM para generar texto o realizar acciones como ordenar una lista.

Para todas las preguntas, primero asignaron un grado de dificultad.

Descubrieron que con cada nueva iteración de un chatbot, la precisión mejoraba en general.

También descubrieron que a medida que las preguntas se volvían más difíciles, la precisión disminuía, como se esperaba.

Pero también descubrieron que a medida que los LLM se hacían más grandes y más sofisticados, tendían a ser menos abiertos sobre su propia capacidad para responder una pregunta correctamente.

En versiones anteriores, la mayoría de los LLM respondían diciendo a los usuarios que no podían encontrar las respuestas o que necesitaban más información.

En las versiones más nuevas, los LLM tenían más probabilidades de adivinar, lo que generaba más respuestas en general, tanto correctas como incorrectas.

También descubrieron que todos los LLM ocasionalmente producían respuestas incorrectas incluso a preguntas fáciles, lo que sugiere que aún no son confiables.

Luego, el equipo de investigación pidió a los voluntarios que calificaran las respuestas de la primera parte del estudio como correctas o incorrectas y descubrió que la mayoría tenía dificultades para detectar las respuestas incorrectas.

Fuente: Nature

 

Editor PDM

Entradas recientes

Crean una pequeña batería nuclear miles de veces más eficiente que sus predecesoras

Un equipo de físicos e ingenieros afiliados a varias instituciones en China ha desarrollado una…

40 mins hace

Crean la batería con la carga más rápida del mundo: 200 km de autonomía en 5 minutos

SAIC y General Motors han creado junto a CATL una nueva batería con multiplicador 6C,…

41 mins hace

Récord mundial de un espectáculo con más de 10.000 drones

Los espectáculos con drones se están consolidando como una opción cada vez más prometedora frente…

43 mins hace

Primer chip de doble cara que combina sus funciones fotónicas y electrónicas simultáneamente

Este semiconductor tiene dos caras y muchas funciones simultáneas. (more…)

44 mins hace

Convierten tubos planos en materiales de construcción resistentes, inspirándose en el origami

Ingenieros de la Universidad RMIT han diseñado un innovador sistema estructural tubular que se puede…

1 day hace

Bicicleta de titanio impresa en 3D

No es la primera bicicleta de titanio de Nº22 Bicycle Company. Esta empresa neoyorquina lleva…

1 day hace
Click to listen highlighted text!