Un estudio reciente, aunque aún no revisado por pares, realizado por el grupo de investigación de alineación de IA Redwood Research encontró que los modelos de lenguaje grande (LLM) son increíblemente buenos en un tipo de esteganografía denominada “razonamiento codificado”.
Básicamente, dice el estudio, se puede entrenar a los LLM para que utilicen mensajes secretos para oscurecer sus procesos de pensamiento paso a paso, una práctica que, curiosamente, podría hacer que sus resultados sean más precisos y al mismo tiempo hacerlos más engañosos.
Según el estudio, los LLM pueden aprovechar específicamente el razonamiento de cadena de pensamiento (CoT), o una técnica ampliamente utilizada que enseña eficazmente a los modelos de IA cómo mostrar su trabajo en sus respuestas.
El aprendizaje automático es predictivo y, para cada entrada dada, hay una serie de resultados que un agente de IA podría generar.
Según la lógica, al entrenar un modelo para que utilice CoT, es más fácil rastrear el razonamiento de caja negra de un modelo determinado y, por lo tanto, también lo hace el refinamiento del modelo.
Pero según esta nueva investigación, parece que los LLM pueden subvertir la CoT.
Como lo expresaron los investigadores:
“Un LLM podría codificar pasos intermedios de razonamiento en su elección de una palabra o frase en particular (cuando varias serían igualmente buenas desde la perspectiva del usuario), y luego decodificar estos pasos intermedios más adelante en la generación para llegar a una respuesta más precisa que si intentara responder a la pregunta sin ningún paso intermedio”.
¿En otras palabras?
Un LLM puede aprender a codificar ciertos pasos de su CoT en su propia clave de respuestas, como si un entrenador pudiera dar señales con las manos aparentemente anodinas para ciertas jugadas, que solo el propio LLM puede descifrar.
Luego, a medida que continúa la generación, la IA decodifica sus propios mensajes, lo que le ayuda a producir resultados precisos.
Y todo esto es invisible para los humanos.
Puede que esta tampoco sea una habilidad del todo benigna.
Ya sea que una IA llegue a una conclusión correcta o no, es importante poder rastrear el CoT de un modelo.
La mayoría de las IA se entrenan mediante aprendizaje por refuerzo.
Si no podemos rastrear el proceso de pensamiento de un modelo, podríamos reforzar sin saberlo un mal comportamiento.
Estas habilidades de esteganografía también podrían dar como resultado que las IA pasen códigos y mensajes ocultos a otros agentes de IA justo delante de nuestras narices humanas.
Existen posibles técnicas de mitigación.
Los investigadores alientan particularmente a los usuarios a pedir a los LLM que parafraseen sus resultados, una práctica que puede eliminar parte de la tontería de la respuesta de un modelo.
Fuente: VentureBeat