Método rentable para rediseñar los motores de búsqueda para la IA

Comparta este Artículo en:

El motor de búsqueda de Internet del futuro estará impulsado por inteligencia artificial.

Ya se puede elegir entre una gran cantidad de motores de búsqueda impulsados o mejorados por IA, aunque su fiabilidad a menudo deja mucho que desear.

Sin embargo, un equipo de científicos informáticos de la Universidad de Massachusetts Amherst publicó y lanzó recientemente un nuevo sistema para evaluar la fiabilidad de las búsquedas generadas por IA.

El método, llamado “eRAG“, es una forma de poner a la IA y al motor de búsqueda en diálogo entre sí, y luego evaluar la calidad de los motores de búsqueda para el uso de la IA.

“Todos los motores de búsqueda que siempre hemos utilizado fueron diseñados para humanos“, dice Alireza Salemi, estudiante de posgrado en la Facultad Manning de Información y Ciencias de la Computación de UMass Amherst y autor principal del artículo.

“Funcionan bastante bien cuando el usuario es un ser humano, pero el motor de búsqueda del usuario principal del futuro será uno de los modelos de lenguaje grandes (LLM, por sus siglas en inglés) de IA, como ChatGPT.

Esto significa que necesitamos rediseñar por completo la forma en que funcionan los motores de búsqueda, y mi investigación explora cómo los LLM y los motores de búsqueda pueden aprender unos de otros”.

El problema básico al que se enfrentan Salemi y el autor principal de la investigación, Hamed Zamani, profesor asociado de ciencias de la información y la computación en UMass Amherst, es que los humanos y los LLM tienen necesidades de información y comportamientos de consumo muy diferentes.

Por ejemplo, si no puede recordar el título y el autor de ese nuevo libro que acaba de publicarse, puede introducir una serie de términos de búsqueda generales, como “¿cuál es la nueva novela de espías con un toque medioambiental de ese famoso escritor?”, y luego limitar los resultados o realizar otra búsqueda a medida que recuerde más información (el autor es una mujer que escribió la novela “Lanzallamas“), hasta que encuentre el resultado correcto (“Creation Lake” de Rachel Kushner, que Google devolvió como el tercer resultado después de seguir el proceso anterior).

Pero así es como trabajan los humanos, no los LLM.

Están entrenados con conjuntos de datos específicos y enormes, y todo lo que no esté en ese conjunto de datos (como el nuevo libro que acaba de llegar a los estantes) es efectivamente invisible para el LLM.

Además, no son particularmente confiables con solicitudes confusas, porque el LLM necesita poder pedirle al motor más información; pero para hacerlo, necesita saber la información adicional correcta que debe solicitar.

Los científicos informáticos han ideado una forma de ayudar a los LLM a evaluar y elegir la información que necesitan, llamada “generación aumentada por recuperación” o RAG.

La RAG es una forma de aumentar los LLM con las listas de resultados producidas por los motores de búsqueda.

Pero, por supuesto, la pregunta es, ¿Cómo evaluar la utilidad de los resultados de recuperación para los LLM?

Hasta ahora, los investigadores han ideado tres formas principales de hacerlo: la primera es obtener de forma colectiva la precisión de los juicios de relevancia con un grupo de humanos.

Sin embargo, es un método muy costoso y los humanos pueden no tener el mismo sentido de relevancia que un LLM.

También se puede hacer que un LLM genere un juicio de relevancia, que es mucho más barato, pero la precisión se ve afectada a menos que se tenga acceso a uno de los modelos LLM más potentes.

La tercera forma, que es el estándar de oro, es evaluar el rendimiento de extremo a extremo de los LLM con recuperación aumentada.

Pero incluso este tercer método tiene sus inconvenientes.

“Es muy caro“, dice Salemi, “y hay algunos problemas de transparencia preocupantes. No sabemos cómo llegó el LLM a sus resultados; sólo sabemos que lo hizo o no“.

Además, existen unas pocas docenas de LLM en este momento, y cada uno de ellos funciona de manera diferente, devolviendo respuestas diferentes.

En cambio, Salemi y Zamani han desarrollado eRAG, que es similar al método estándar, pero mucho más rentable, hasta tres veces más rápido, utiliza 50 veces menos energía de GPU y es casi tan confiable.

“El primer paso para desarrollar motores de búsqueda efectivos para agentes de IA es evaluarlos con precisión”, dice Zamani.

“eRAG proporciona una metodología de evaluación confiable, relativamente eficiente y efectiva para los motores de búsqueda que están siendo utilizados por agentes de IA”.

En resumen, eRAG funciona así: un usuario humano utiliza un agente de IA impulsado por LLM para realizar una tarea.

El agente de IA enviará una consulta a un motor de búsqueda y el motor de búsqueda devolverá un número discreto de resultados (digamos, 50) para el consumo de LLM.

eRAG ejecuta cada uno de los 50 documentos a través del LLM para averiguar qué documento específico encontró útil para generar el resultado correcto.

Estas puntuaciones a nivel de documento se agregan para evaluar la calidad del motor de búsqueda para el agente de IA.

Si bien actualmente no existe un motor de búsqueda que pueda funcionar con todos los principales LLM que se han desarrollado, la precisión, la rentabilidad y la facilidad con la que se puede implementar eRAG es un paso importante hacia el día en que todos nuestros motores de búsqueda funcionen con IA.

Fuente: ACM