A pesar de sus impresionantes capacidades, los modelos de lenguaje de gran tamaño distan de ser perfectos. Estos modelos de inteligencia artificial a veces “alucinan” generando información incorrecta o no respaldada en respuesta a una consulta.
Debido a este problema de alucinación, las respuestas de un LLM suelen ser verificadas por verificadores de datos humanos, especialmente si un modelo se implementa en un entorno de alto riesgo como la atención médica o las finanzas.
Sin embargo, los procesos de validación generalmente requieren que las personas lean documentos largos citados por el modelo, una tarea tan onerosa y propensa a errores que puede impedir que algunos usuarios implementen modelos de IA generativos en primer lugar.
Para ayudar a los validadores humanos, investigadores del MIT crearon un sistema fácil de usar que permite a las personas verificar las respuestas de un LLM mucho más rápidamente.
Con esta herramienta, llamada SymGen, un LLM genera respuestas con citas que apuntan directamente al lugar en un documento fuente, como una celda determinada en una base de datos.
Los usuarios pasan el cursor sobre las partes resaltadas de la respuesta de texto para ver los datos que el modelo utilizó para generar esa palabra o frase específica.
Al mismo tiempo, las partes no resaltadas muestran a los usuarios qué frases necesitan atención adicional para comprobar y verificar.
“Les damos a las personas la capacidad de centrarse selectivamente en las partes del texto que más les preocupan.
Al final, SymGen puede dar a las personas una mayor confianza en las respuestas de un modelo porque pueden examinarlas más de cerca para asegurarse de que la información esté verificada“, dice Shannon Shen, estudiante de posgrado en ingeniería eléctrica y ciencias de la computación y coautor principal de un artículo sobre SymGen.
A través de un estudio de usuarios, Shen y sus colaboradores descubrieron que SymGen aceleró el tiempo de verificación en aproximadamente un 20%, en comparación con los procedimientos manuales.
Al hacer que sea más rápido y fácil para los humanos validar los resultados del modelo, SymGen podría ayudar a las personas a identificar errores en los LLM implementados en una variedad de situaciones del mundo real, desde la generación de notas clínicas hasta el resumen de informes del mercado financiero.
Para ayudar en la validación, muchos LLM están diseñados para generar citas, que apuntan a documentos externos, junto con sus respuestas basadas en el lenguaje para que los usuarios puedan verificarlas.
Sin embargo, estos sistemas de verificación generalmente se diseñan como una idea de último momento, sin considerar el esfuerzo que les toma a las personas examinar numerosas citas, dice Shen.
“La IA generativa tiene como objetivo reducir el tiempo que el usuario necesita para completar una tarea.
Si es necesario pasar horas leyendo todos estos documentos para verificar que el modelo dice algo razonable, entonces es menos útil tener las generaciones en la práctica“, dice Shen.
Los investigadores abordaron el problema de validación desde la perspectiva de los humanos que harán el trabajo.
Un usuario de SymGen primero proporciona al LLM datos a los que puede hacer referencia en su respuesta, como una tabla que contiene estadísticas de un partido de baloncesto.
Luego, en lugar de pedirle inmediatamente al modelo que complete una tarea, como generar un resumen del juego a partir de esos datos, los investigadores realizan un paso intermedio.
Le piden al modelo que genere su respuesta en forma simbólica.
Con esta indicación, cada vez que el modelo quiera citar palabras en su respuesta, debe escribir la celda específica de la tabla de datos que contiene la información a la que hace referencia.
Por ejemplo, si el modelo quiere citar la frase “Portland Trailblazers” en su respuesta, reemplazaría ese texto con el nombre de la celda en la tabla de datos que contiene esas palabras.
“Como tenemos este paso intermedio que tiene el texto en un formato simbólico, podemos tener referencias muy detalladas.
Podemos decir que, para cada fragmento de texto en la salida, este es exactamente el lugar en los datos al que corresponde“, dice Hennigen.
Luego, SymGen resuelve cada referencia utilizando una herramienta basada en reglas que copia el texto correspondiente de la tabla de datos en la respuesta del modelo.
“De esta manera, sabemos que es una copia textual, por lo que sabemos que no habrá ningún error en la parte del texto que corresponde a la variable de datos real“, agrega Shen.
El modelo puede crear respuestas simbólicas debido a la forma en que está entrenado.
Los modelos de lenguaje grandes se alimentan de grandes cantidades de datos de Internet, y algunos datos se registran en “formato de marcador de posición” donde los códigos reemplazan los valores reales.
Cuando SymGen solicita al modelo que genere una respuesta simbólica, utiliza una estructura similar.
“Diseñamos la solicitud de una manera específica para aprovechar las capacidades del LLM”, añade Shen.
Durante un estudio de usuarios, la mayoría de los participantes dijeron que SymGen facilitó la verificación del texto generado por el LLM.
Pudieron validar las respuestas del modelo aproximadamente un 20 % más rápido que si usaran métodos estándar.
Sin embargo, SymGen está limitado por la calidad de los datos de origen.
El LLM podría citar una variable incorrecta y un verificador humano podría no saberlo.
Además, el usuario debe tener los datos de origen en un formato estructurado, como una tabla, para introducirlos en SymGen. En este momento, el sistema solo funciona con datos tabulares.
En el futuro, los investigadores están mejorando SymGen para que pueda manejar texto arbitrario y otras formas de datos.
Con esa capacidad, podría ayudar a validar partes de resúmenes de documentos legales generados por IA, por ejemplo.
También planean probar SymGen con médicos para estudiar cómo podría identificar errores en los resúmenes clínicos generados por IA.
Fuente: arXiv
OpenAI se lanza a la yugular de Google con ChatGPT Search, un buscador web integrado…
Durante la última década, los científicos informáticos han desarrollado técnicas computacionales cada vez más avanzadas…
Investigadores del KAIST han presentado un nuevo robot portátil desarrollado para personas completamente paralizadas que…
Aterriza con un diseño más refinado que nunca y potencia para parar un tren. (more…)
Las inmunoterapias, que movilizan al propio sistema inmunitario del paciente contra aquello que los médicos…
En la clásica serie de dibujos animados "Los Supersónicos", Rosie, la criada robótica, pasa sin…