Nueva técnica para reducir el sesgo de las IAs sin perjudicar el rendimiento

Nueva técnica para reducir el sesgo de las IAs sin perjudicar el rendimiento

Comparta este Artículo en:

Un método conocido como “poda de modelos” puede utilizarse para identificar y eliminar las neuronas que contribuyen sistemáticamente a las respuestas sesgadas, afirman los investigadores de la Facultad de Derecho de Stanford y el Instituto de Stanford para la IA centrada en el ser humano.

Un estudio publicado recientemente por el profesor de Derecho de Stanford Julian Nyarko y coautores concluye que los sesgos raciales y de otro tipo que muestran los grandes modelos lingüísticos (LLM) pueden “podarse“, pero como los sesgos son muy específicos del contexto, existen límites para responsabilizar a los desarrolladores de modelos de IA (como OpenAI o Google Vision) por comportamientos perjudiciales, dado que esas empresas no podrán encontrar una solución única para todos.

En cambio, los investigadores descubrieron que sería más eficaz desde una perspectiva legal y de políticas exigir responsabilidades a las empresas que están implementando los modelos en un caso de uso particular, por ejemplo, un minorista en línea que utiliza los modelos de OpenAI para hacer recomendaciones de productos.

Numerosos estudios realizados en los últimos años, incluidas investigaciones de la Facultad de Derecho de Stanford y la Universidad de Stanford, han demostrado que los LLM presentan sesgos raciales en sus respuestas.

Estos sesgos a menudo se manifiestan de maneras que refuerzan los estereotipos o producen resultados sistemáticamente diferentes en función de marcadores raciales, como nombres o dialectos.

En 2024, por ejemplo, Nyarko y sus coautores publicaron un artículo ampliamente discutido, “What’s in a Name? Auditing Large Language Models for Race and Gender Bias“, que analizaba cómo las respuestas generadas por IA difieren en función de las señales raciales y de género implícitas en las consultas de los usuarios.

En su último artículo, “Breaking Down Bias: On The Limits of Generalizable Pruning Strategies” Nyarko y sus coautores investigaron en profundidad los mecanismos internos de los LLM para identificar y mitigar las fuentes de resultados sesgados.

Los investigadores establecieron que la eliminación selectiva o la poda de unidades computacionales específicas (similares a “neuronas” artificiales) reduce el sesgo sin comprometer la utilidad general de un modelo.

Pero descubrieron que una estrategia de mitigación de sesgo entrenada en la toma de decisiones financieras, por ejemplo, no necesariamente funciona para las transacciones comerciales o las decisiones de contratación.

“El verdadero desafío aquí es que el sesgo en los modelos de IA no existe en una ubicación única y fija, sino que cambia según el contexto“, dijo Nyarko.

“Hay buenas razones para responsabilizar a los desarrolladores de algunas de las consecuencias negativas que exhiben sus modelos.

Pero para diseñar estrategias de mitigación efectivas, realmente necesitamos pensar en marcos regulatorios y legales que se centren en las empresas que realmente usan estos modelos en escenarios del mundo real“.

Nyarko, experto en estudios legales empíricos y derecho computacional, centra su investigación en la intersección de la IA, el aprendizaje automático y la responsabilidad legal.

También es director asociado y miembro senior del Instituto de Inteligencia Artificial Centrada en el Ser Humano (HAI) de Stanford.

Los coautores del artículo son Sibo Ma y Alejandro Salinas, investigadores de la Facultad de Derecho de Stanford, junto con Peter Henderson, profesor de informática de Princeton.

Según Nyarko, su último estudio adopta un enfoque novedoso para identificar y mitigar el sesgo racial en los LLM.

Los investigadores comenzaron diseccionando la estructura interna de los LLM, que son esencialmente vastas redes de neuronas artificiales, comparables a las neuronas del cerebro.

Estas neuronas artificiales procesan información y contribuyen a la generación de respuestas, incluidas, a veces, respuestas sesgadas.

Para mitigar estos sesgos, el equipo utilizó un método conocido como poda de modelos.

Esto implica desactivar o eliminar selectivamente neuronas específicas que se identificaron como contribuyentes al comportamiento sesgado.

Para identificar qué neuronas podar, los investigadores realizaron un análisis exhaustivo para identificar qué neuronas solo se activan cuando el mensaje de entrada involucra a una minoría racial, pero no en otros casos.

Luego, el equipo de investigación aplicó su estrategia de poda a varios contextos para determinar la eficacia de su enfoque.

Utilizaron escenarios que incluían toma de decisiones financieras, transacciones comerciales y decisiones de contratación para ver qué tan bien el proceso de poda reducía el sesgo en cada contexto específico.

Este método les permitió identificar y eliminar neuronas que contribuían de manera consistente a respuestas sesgadas en diferentes situaciones.

Además de la poda de neuronas, también experimentaron con la poda de cabezas de atención.

Las cabezas de atención son parte del mecanismo que ayuda a los LLM a concentrarse en partes específicas de la entrada al generar una respuesta.

Al podar selectivamente estas cabezas de atención, el equipo evaluó si este método también podría reducir eficazmente el sesgo sin alterar significativamente el rendimiento general del modelo.

Sus hallazgos revelaron que la poda a nivel de neuronas era más eficaz para reducir el sesgo y, al mismo tiempo, mantener la utilidad del modelo.

Sin embargo, descubrieron que la efectividad de las técnicas de poda variaba significativamente en diferentes contextos.

Las conclusiones del estudio resuenan con los debates legales en curso sobre la gobernanza de la IA.

Las propuestas regulatorias, como la Ley de IA de la Unión Europea, adoptan un enfoque basado en el riesgo que impone obligaciones de cumplimiento adicionales a las empresas que utilizan IA para aplicaciones de alto riesgo.

De manera similar, recientes demandas en Estados Unidos, como Mobley v. Workday, plantean preguntas sobre si los proveedores de servicios de IA deberían enfrentar el mismo escrutinio legal que las empresas que usan sus herramientas para tomar decisiones de contratación.

La investigación subraya la necesidad de que los responsables de las políticas aclaren la responsabilidad por los daños relacionados con la IA, dijo Nyarko.

Si el sesgo depende inherentemente del contexto, como sugiere el estudio, entonces imponer una responsabilidad amplia a los desarrolladores de IA no será muy eficaz.

En cambio, los reguladores podrían considerar exigir a las empresas que implementan modelos de IA que realicen auditorías rigurosas de sesgo, mantengan la transparencia sobre su uso de IA y garanticen el cumplimiento de las leyes contra la discriminación.

Fuente: arXiv

 

Leave a Reply

Your email address will not be published. Required fields are marked *