Los modelos de aprendizaje automático pueden cometer errores y ser difíciles de usar, por lo que los científicos han desarrollado métodos de explicación para ayudar a los usuarios a comprender cuándo y cómo deben confiar en las predicciones de un modelo.
Sin embargo, estas explicaciones suelen ser complejas y pueden contener información sobre cientos de características del modelo.
Y a veces se presentan como visualizaciones multifacéticas que pueden resultar difíciles de comprender por completo para los usuarios que carecen de experiencia en aprendizaje automático.
Para ayudar a las personas a entender las explicaciones de la IA, los investigadores del MIT utilizaron modelos de lenguaje extensos (LLM) para transformar las explicaciones basadas en tramas en un lenguaje sencillo.
Desarrollaron un sistema de dos partes que convierte una explicación de aprendizaje automático en un párrafo de texto legible para humanos y luego evalúa automáticamente la calidad de la narrativa, para que el usuario final sepa si debe confiar en ella.
Al indicarle al sistema algunos ejemplos de explicaciones, los investigadores pueden personalizar sus descripciones narrativas para satisfacer las preferencias de los usuarios o los requisitos de aplicaciones específicas.
A largo plazo, los investigadores esperan desarrollar esta técnica permitiendo a los usuarios hacer preguntas de seguimiento a un modelo sobre cómo se le ocurrieron las predicciones en situaciones del mundo real.
“Nuestro objetivo con esta investigación era dar el primer paso para permitir a los usuarios tener conversaciones completas con modelos de aprendizaje automático sobre las razones por las que hicieron ciertas predicciones, para que puedan tomar mejores decisiones sobre si escuchar al modelo“, dice Alexandra Zytek, estudiante de posgrado en ingeniería eléctrica y ciencias de la computación (EECS) y autora principal de un artículo sobre esta técnica.
Los investigadores se centraron en un tipo popular de explicación de aprendizaje automático llamada SHAP.
En una explicación SHAP, se asigna un valor a cada característica que el modelo utiliza para hacer una predicción.
Por ejemplo, si un modelo predice los precios de las casas, una característica podría ser la ubicación de la casa.
A la ubicación se le asignaría un valor positivo o negativo que representa cuánto modificó esa característica la predicción general del modelo.
A menudo, las explicaciones SHAP se presentan como gráficos de barras que muestran qué características son más o menos importantes.
Pero para un modelo con más de 100 características, ese gráfico de barras se vuelve rápidamente difícil de manejar.
“Como investigadores, tenemos que tomar muchas decisiones sobre lo que vamos a presentar visualmente.
Si elegimos mostrar solo las 10 principales, la gente podría preguntarse qué sucedió con otra característica que no está en el gráfico.
El uso del lenguaje natural nos libera de tener que tomar esas decisiones“, dice Veeramachaneni.
Sin embargo, en lugar de utilizar un gran modelo de lenguaje para generar una explicación en lenguaje natural, los investigadores utilizan el LLM para transformar una explicación SHAP existente en una narrativa legible.
Al hacer que el LLM solo maneje la parte del lenguaje natural del proceso, limita la oportunidad de introducir imprecisiones en la explicación, explica Zytek.
Su sistema, llamado EXPLINGO, está dividido en dos partes que funcionan juntas.
El primer componente, llamado NARRATOR, utiliza un LLM para crear descripciones narrativas de las explicaciones SHAP que satisfacen las preferencias del usuario.
Al introducir en NARRATOR entre tres y cinco ejemplos escritos de explicaciones narrativas, el LLM imitará ese estilo al generar el texto.
“En lugar de que el usuario intente definir qué tipo de explicación está buscando, es más fácil que escriba lo que quiere ver“, afirma Zytek.
Esto permite personalizar fácilmente NARRATOR para nuevos casos de uso al mostrarle un conjunto diferente de ejemplos escritos manualmente.
Después de que NARRATOR crea una explicación en lenguaje sencillo, el segundo componente, GRADER, utiliza un LLM para calificar la narrativa en cuatro métricas: concisión, precisión, integridad y fluidez.
GRADER le indica automáticamente al LLM el texto de NARRATOR y la explicación SHAP que describe.
“Descubrimos que, incluso cuando un LLM comete un error al realizar una tarea, a menudo no comete un error al verificar o validar esa tarea“, afirma.
Los usuarios también pueden personalizar GRADER para dar diferentes pesos a cada métrica.
“Podríamos imaginar, en un caso de alto riesgo, dar mucha más importancia a la precisión y la integridad que a la fluidez, por ejemplo“, añade.
Para Zytek y sus colegas, uno de los mayores desafíos fue ajustar el LLM para que generara narraciones que sonaran naturales.
Cuantas más pautas añadieran para controlar el estilo, más probable era que el LLM introdujera errores en la explicación.
“Se realizó un gran ajuste rápido para encontrar y corregir cada error uno a la vez“, afirma.
Para probar su sistema, los investigadores tomaron nueve conjuntos de datos de aprendizaje automático con explicaciones e hicieron que diferentes usuarios escribieran narraciones para cada conjunto de datos.
Esto les permitió evaluar la capacidad de NARRATOR para imitar estilos únicos. Utilizaron GRADER para puntuar cada explicación narrativa en las cuatro métricas.
Al final, los investigadores descubrieron que su sistema podía generar explicaciones narrativas de alta calidad e imitar de manera eficaz diferentes estilos de escritura.
Sus resultados muestran que proporcionar algunas explicaciones de ejemplo escritas a mano mejora enormemente el estilo narrativo.
Sin embargo, esos ejemplos deben escribirse con cuidado, ya que incluir palabras comparativas, como “más grande“, puede hacer que GRADER marque las explicaciones precisas como incorrectas.
Basándose en estos resultados, los investigadores quieren explorar técnicas que podrían ayudar a su sistema a manejar mejor las palabras comparativas.
También quieren ampliar EXPLINGO añadiendo racionalización a las explicaciones.
A largo plazo, esperan utilizar este trabajo como un trampolín hacia un sistema interactivo en el que el usuario pueda hacer preguntas de seguimiento a un modelo sobre una explicación.
“Eso ayudaría con la toma de decisiones de muchas maneras. Si las personas no están de acuerdo con la predicción de un modelo, queremos que puedan averiguar rápidamente si su intuición es correcta, o si la intuición del modelo es correcta, y de dónde proviene esa diferencia“, dice Zytek.
Fuente: arXiv