Herramienta de detección de sesgos de IA para combatir la discriminación en los modelos

Herramienta de detección de sesgos de IA para combatir la discriminación en los modelos

Comparta este Artículo en:

Los modelos de IA generativa como ChatGPT se entrenan con grandes cantidades de datos obtenidos de páginas web, foros, redes sociales y otras fuentes en línea; como resultado, sus respuestas pueden contener sesgos perjudiciales o discriminatorios.

Investigadores de la Universitat Oberta de Catalunya (UOC) y la Universidad de Luxemburgo han desarrollado LangBiTe, un programa de código abierto que evalúa si estos modelos están libres de sesgos y cumplen con la legislación en materia de no discriminación.

“LangBiTe no se ha creado con fines comerciales, sino para proporcionar un recurso útil tanto para los creadores de herramientas de IA generativa como para los usuarios no técnicos; debe contribuir a identificar y mitigar sesgos en los modelos y, en última instancia, ayudar a crear mejores IA en el futuro“, explica Sergio Morales, investigador del grupo de Sistemas, Software y Modelos del Som Research Lab del Internet Interdisciplinary Institute (IN3) de la UOC, cuya tesis doctoral se basa en esta herramienta.

LangBiTe se diferencia de otros programas similares por su alcance y, según los investigadores, es la herramienta “más completa y detallada” disponible actualmente.

“La mayoría de los experimentos se centraban en la discriminación de género entre hombres y mujeres, sin tener en cuenta otros aspectos éticos importantes ni las minorías vulnerables.

Con LangBiTe hemos analizado hasta qué punto algunos modelos de IA pueden responder a determinadas preguntas de forma racista, con un punto de vista político claramente sesgado o con connotaciones homófobas o transfóbicas“, explican.

Los investigadores también destacan que, aunque otros proyectos clasifican los modelos de IA en función de diversas dimensiones, su enfoque ético es “demasiado superficial, sin detallar los aspectos concretos evaluados”.

El nuevo programa permite analizar si una aplicación o herramienta que incorpora funciones basadas en modelos de IA es adecuada para los requisitos éticos específicos de cada institución u organización o comunidad de usuarios.

Los investigadores explicaron que “LangBiTe no prescribe ningún marco moral específico.

Lo que es y no es ético depende en gran medida del contexto y la cultura de la organización que desarrolla e incorpora características basadas en modelos de IA generativos en su producto”.

“Como tal, nuestro enfoque permite a los usuarios definir sus propias preocupaciones éticas y sus criterios de evaluación, y adaptar la evaluación del sesgo a su contexto cultural y entorno regulatorio particular”.

Para este fin, LangBiTe incluye bibliotecas que contienen más de 300 indicaciones que se pueden utilizar para revelar sesgos en los modelos de IA, cada indicación se centra en una preocupación ética específica: discriminación por edad, LGBTIQA+fobia, preferencias políticas, prejuicios religiosos, racismo, sexismo o xenofobia.

Cada una de estas indicaciones tiene respuestas asociadas para evaluar si la respuesta del modelo está sesgada.

También incluye plantillas de indicaciones que se pueden modificar, lo que permite al usuario ampliar y enriquecer la colección original con nuevas preguntas o preocupaciones éticas.

Actualmente, LangBiTe proporciona acceso a modelos propietarios de OpenAI (GPT-3.5, GPT-4), y a decenas de otros modelos de IA generativa disponibles en HuggingFace y Replicate, plataformas que permiten interactuar con una gran variedad de modelos, incluidos los de Google y Meta.

“Además, cualquier desarrollador que lo desee puede extender la plataforma LangBiTe para evaluar otros modelos, incluidos los propios”, añade Morales.

El programa también permite ver en cualquier momento las diferencias entre las respuestas de distintas versiones de un mismo modelo y entre modelos de distintos proveedores.

“Por ejemplo, hemos comprobado que la versión de ChatGPT 4 que había disponible tenía una tasa de éxito en la prueba contra el sesgo de género del 97%, superior a la obtenida por la versión de ChatGPT 3.5 disponible en ese momento, que tenía una tasa de éxito del 42%.

“En esa misma fecha, vimos que en el modelo Flan-T5 de Google, cuanto más grande era, menos sesgado estaba en términos de género, religión y nacionalidad“, explica el investigador.

Los modelos de IA más populares se han creado a partir de contenidos en inglés, pero hay proyectos regionales en marcha con modelos entrenados en otros idiomas como el catalán o el italiano.

Los investigadores de la UOC también han incluido la función de evaluación de herramientas en diferentes idiomas, lo que permite a los usuarios “detectar si un modelo está sesgado en función del idioma que utilizan para sus consultas“, explica Morales.

También están trabajando en poder analizar modelos que generen imágenes, como Stable Diffusion, DALL·E o Midjourney.

“Las aplicaciones actuales de estas herramientas van desde la producción de libros infantiles hasta la elaboración de gráficos” para contenidos informativos, que pueden difundir estereotipos distorsionadores y/o negativos que la sociedad evidentemente quiere erradicar.

“Esperamos que el futuro LangBiTe sea útil para identificar y corregir todo tipo de sesgos en las imágenes que estos modelos generan“, afirma el investigador de la UOC.

Las características de esta herramienta pueden ayudar a los usuarios a cumplir con la reciente Ley de IA de la UE, que tiene como objetivo garantizar que los nuevos sistemas de IA promuevan la igualdad de acceso, la igualdad de género y la diversidad cultural, y que su uso no comprometa los derechos de no discriminación estipulados por la Unión Europea y las leyes nacionales de sus estados miembros.

El programa ya ha sido adoptado por instituciones como el Instituto de Ciencia y Tecnología de Luxemburgo (LIST), que ha integrado LangBiTe para evaluar varios modelos generativos de IA populares.

Fuente: ACM

 

Leave a Reply

Your email address will not be published. Required fields are marked *