¿Alguna vez le han hecho una pregunta cuya respuesta solo conocía en parte? Para dar una respuesta más informada, lo mejor sería llamar a un amigo que tenga más conocimientos sobre el tema.
Este proceso colaborativo también puede ayudar a los grandes modelos de lenguaje (LLM) a mejorar su precisión.
Sin embargo, ha sido difícil enseñar a los LLM a reconocer cuándo deben colaborar con otro modelo en una respuesta.
En lugar de utilizar fórmulas complejas o grandes cantidades de datos etiquetados para explicar en qué casos los modelos deben trabajar juntos, investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT han imaginado un enfoque más orgánico.
Su nuevo algoritmo, llamado “Co-LLM“, puede emparejar un LLM básico de propósito general con un modelo más especializado y ayudarlos a trabajar juntos.
Mientras el primero elabora una respuesta, el Co-LLM revisa cada palabra (o token) dentro de su respuesta para ver dónde puede recurrir a una respuesta más precisa del modelo experto.
Este proceso conduce a respuestas más precisas a cuestiones como indicaciones médicas y problemas de matemáticas y razonamiento.
Como el modelo experto no es necesario en cada iteración, esto también conduce a una generación de respuestas más eficiente.
Para decidir cuándo un modelo base necesita la ayuda de un modelo experto, el marco utiliza el aprendizaje automático para entrenar una “variable de conmutación“, o una herramienta que puede indicar la competencia de cada palabra dentro de las respuestas de los dos LLM.
El interruptor es como un gerente de proyectos, que encuentra áreas en las que debería llamar a un especialista.
Si le pidiera a Co-LLM que nombrara algunos ejemplos de especies de osos extintas, por ejemplo, dos modelos redactarían respuestas juntos.
El LLM de propósito general comienza a armar una respuesta, con la variable de conmutación interviniendo en las partes donde puede insertar un token mejor del modelo experto, como agregar el año en que se extinguió la especie de oso.
“Con Co-LLM, esencialmente estamos entrenando a un LLM de propósito general para que ‘llame’ a un modelo experto cuando sea necesario“, dice Shannon Shen, estudiante de doctorado del MIT en ingeniería eléctrica y ciencias de la computación y afiliada a CSAIL, quien es autora principal de un nuevo artículo sobre el enfoque.
“Utilizamos datos específicos del dominio para enseñar al modelo base sobre la experiencia de su contraparte en áreas como tareas biomédicas y preguntas de matemáticas y razonamiento.
Este proceso encuentra automáticamente las partes de los datos que son difíciles de generar para el modelo base y luego le indica al modelo base que cambie al LLM experto, que fue entrenado previamente con datos de un campo similar.
El modelo de propósito general proporciona la generación de “andamiaje” y, cuando llama al LLM especializado, le indica al experto que genere los tokens deseados.
Nuestros hallazgos indican que los LLM aprenden patrones de colaboración de manera orgánica, de manera similar a cómo los humanos reconocen cuándo llamar a un experto para que complete los espacios en blanco”.
Imagínese pedirle a un LLM de propósito general que nombre los ingredientes de un medicamento recetado específico.
Puede responder incorrectamente, lo que requiere la experiencia de un modelo especializado.
Para demostrar la flexibilidad de Co-LLM, los investigadores utilizaron datos como el conjunto médico BioASQ para combinar un LLM base con LLM expertos en diferentes dominios, como el modelo Meditron, que está entrenado previamente con datos médicos no etiquetados.
Esto permitió que el algoritmo ayudara a responder las preguntas que un experto biomédico recibiría normalmente, como nombrar los mecanismos que causan una enfermedad en particular.
Co-LLM también alerta a los usuarios sobre dónde verificar las respuestas.
Otro ejemplo de la mejora del rendimiento de Co-LLM: cuando se le asignó la tarea de resolver un problema matemático como “a3 · a2 si a = 5”, el modelo de propósito general calculó incorrectamente la respuesta como 125.
A medida que Co-LLM entrenó al modelo para colaborar más con un LLM matemático grande llamado Llemma, juntos determinaron que la solución correcta era 3125.
El método Co-LLM proporcionó respuestas más precisas que los LLM simples y ajustados y los modelos especializados no ajustados que trabajaban de forma independiente.
El método Co-LLM puede guiar a dos modelos que se entrenaron de forma diferente para que trabajen juntos, mientras que otros métodos de colaboración LLM eficaces, como el “ajuste proxy”, necesitan que todos sus modelos componentes se entrenen de forma similar.
Además, esta línea de base requiere que cada modelo se utilice simultáneamente para producir la respuesta, mientras que el algoritmo del MIT simplemente activa su modelo experto para tokens particulares, lo que conduce a una generación más eficiente.
El algoritmo de los investigadores del MIT destaca que imitar más de cerca el trabajo en equipo humano puede aumentar la precisión en la colaboración entre varios LLM.
Para aumentar aún más su precisión factual, el equipo puede recurrir a la autocorrección humana: están considerando un enfoque de aplazamiento más sólido que pueda dar marcha atrás cuando el modelo experto no dé una respuesta correcta.
Esta actualización permitiría a Co-LLM corregir el rumbo para que el algoritmo pueda seguir dando una respuesta satisfactoria.
Al equipo también le gustaría actualizar el modelo experto (mediante el entrenamiento únicamente del modelo base) cuando haya nueva información disponible, manteniendo las respuestas lo más actualizadas posible.
Esto permitiría a Co-LLM combinar la información más actualizada con un gran poder de razonamiento.
Con el tiempo, el modelo podría ayudar con los documentos empresariales, utilizando la información más reciente que tenga para actualizarlos en consecuencia.
Co-LLM también podría entrenar modelos pequeños y privados para que trabajen con un LLM más potente para mejorar los documentos que deben permanecer dentro del servidor.
“El Co-LLM presenta un enfoque interesante para aprender a elegir entre dos modelos para mejorar la eficiencia y el rendimiento”, afirma Colin Raffel, profesor asociado de la Universidad de Toronto y director asociado de investigación del Instituto Vector, que no participó en la investigación.
“Dado que las decisiones de enrutamiento se toman a nivel de token, el Co-LLM proporciona una forma granular de aplazar los pasos de generación difíciles a un modelo más potente.
La combinación única de enrutamiento a nivel de modelo y token también proporciona una gran flexibilidad de la que carecen métodos similares.
El Co-LLM contribuye a una importante línea de trabajo que tiene como objetivo desarrollar ecosistemas de modelos especializados para superar a los costosos sistemas de IA monolíticos“.
Fuente: arXiv