Los chatbots de IA se inventan muchas de las respuestas, cómo solucionarlo

Comparta este Artículo en:

Los chatbots se han convertido en uno de los ejes del auge de la inteligencia artificial (IA).

Desde ChatGPT y Copilot hasta Claude Chat y Perplexity, estas herramientas son tendencia.

Sin embargo, por mucho que nos entusiasmemos, no debemos confiar plenamente en sus respuestas.

Y, sino que se lo digan al abogado que recurrió a ChatGPT para salir victorioso en un juicio y descubrió que los documentos presentados ante el juez contenían decisiones judiciales, referencias y citas falsas.

Como podemos ver, los chatbots tienen muchas virtudes, pero la fiabilidad no es una de ellas.

Un estudio publicado por una compañía emergente fundada por exempleados de Google sugiere que los chatbots tienen una tasa de alucinaciones de al menos el 3%.

Para muchos usuarios esto puede ser un problema menor, pero las cosas cambian cuando hablamos de usos profesionales.

Las herramientas impulsadas por grandes modelos de lenguaje (LLM) están llegando al mundo empresarial a través de soluciones como Copilot en Office 365.

Ahora bien, si los empleados acaban manejando información errónea, esto podría acabar provocando más de un dolor de cabeza a la firma.

Cleanlab, una startup fundada por exinvestigadores del MIT acaba de lanzar su propia iniciativa para abordar este problema.

Estamos hablando de una herramienta impulsada por lo que denominan Trustworthy Language Model (TLM), un enfoque que apunta a la fiabilidad de las respuestas.

TLM funciona como una “capa de confianza” para que los usuarios puedan saber qué tan fiable es la respuesta que acaban de recibir a través de un sistema de puntuación.

Esta herramienta ha sido diseñada para que pueda funcionar de manera complementaria a modelos como GPT-3.5, GPT-4 y modelos personalizados de empresas.

El sistema envía nuestra pregunta a varios modelos y después analiza su devolución.

La respuesta llegará acompañada con un puntaje que se situará entre 0 y 1.

En una prueba sencilla en la que se ha preguntado la raíz cuadrada de nueve se ha recibido recibido una respuesta correcta (3) con un puntaje de 0,885.

Cleanlab señala que ChatGPT en su versión gratuita puede equivocarse en cosas muy simples.

Al preguntar cuántas veces aparece la letra “N” en la palabra “enter”, el chatbot de OpenAI suele responder que la letra aparece dos veces.

La startup imagina a su tecnología siendo útil en un amplio abanico de usos.

Mencionan que podría ayudar a los chatbots de atención al cliente a ser más fiables.

El chatbot funcionaría de manera automatizada, pero si una de las respuestas cae por debajo del umbral de fiabilidad, se podría solicitar la intervención de un humano.

Si es un entusiasta de la inteligencia artificial puede probar TLM a través de la web.

La herramienta también está disponible a través de una API.

Cabe señalar que la solución se encuentra disponible a través versiones gratuitas de código abierto y versiones de pago con características adicionales.

Fuente: Cleanlab