IA autoadaptativa se ajusta dinámicamente para aprender nuevas tareas
Un trío de investigadores de IA de Sakana AI, una startup japonesa, ha anunciado el desarrollo de un LLM de IA autoadaptativo llamado Transformer2. Qi Sun,
A medida que los LLM maduran, los investigadores de IA continúan perfeccionándolos para que sean más eficientes y requieran menos energía.
En este nuevo estudio, el trío de investigadores ha encontrado una forma de reducir una de las principales ineficiencias de los LLM tradicionales: la necesidad de realizar ajustes si se les pide que hagan algo para lo que no han sido entrenados.
En los escenarios actuales, se ajustan los parámetros de un LLM y luego se lo entrena con nuevas muestras; después, los nuevos parámetros permanecen congelados.
El equipo de investigación ha presentado un modelo que realiza ajustes a un sistema de pesos cuando se le presenta algo nuevo, para permitirle ajustarse dinámicamente a nuevos tipos de tareas.
Para permitir que el LLM realice ajustes dinámicos, los investigadores han dividido la respuesta a la tarea en un enfoque de dos pasos: el primero implica analizar la solicitud y determinar qué se requerirá para proporcionar una buena respuesta.
El segundo implica realizar ajustes a un sistema de pesos para ayudarlo a concentrar sus esfuerzos en las cosas que conducirán a una respuesta.
El sistema de pesos utiliza un proceso matemático llamado Descomposición de valores singulares para determinar qué partes de su propio sistema de IA son las más importantes para proporcionar la mejor respuesta posible.
Se aplica el aprendizaje de refuerzo para crear los pasos necesarios para guiar el comportamiento de la IA.
Durante la inferencia (que es la parte del sistema involucrada en generar respuestas a la consulta inicial), el sistema emplea tres estrategias principales para lograr sus objetivos:
Una que se basa en la indicación, otra que sirve como clasificador y la tercera que aplica un proceso de adaptación de pocos intentos (donde un modelo de IA aprende de un conjunto de entrenamiento limitado).
Una vez que se han aplicado los pesos, el LLM continúa de manera similar a otros LLM.
El resultado general de utilizar el nuevo enfoque es que permite que un LLM se ajuste sobre la marcha cuando se enfrenta a una tarea desconocida.
Las pruebas del sistema demostraron que es capaz de funcionar tan bien como otros LLM en consultas tradicionales, pero mucho más flexible a la hora de responder consultas que confunden a otros modelos.
Fuente: arXiv
Microsoft anunció el Majorana 1, el primer chip cuántico impulsado por un topoconductor que produce…
Los motores de combustión de los automóviles a gasolina pueden producir mucha energía quemando dinosaurios…
Investigadores de Meta utilizaron un escáner cerebral de última generación y un modelo de inteligencia…
Científicos han conseguido reconectar, en una rata a modo de prueba de lo que quizá…
Ingenieros logran un avance revolucionario en microelectrónica, inspirado en principios cuánticos: desarrollan un método para…
El nuevo modelo de lenguaje es capaz de generar imágenes, simular entradas y producir secuencias…