Los modelos de aprendizaje automático pueden fallar cuando intentan hacer predicciones para individuos que estaban subrepresentados en los conjuntos de datos con los que fueron entrenados.
Por ejemplo, un modelo que predice la mejor opción de tratamiento para alguien con una enfermedad crónica puede ser entrenado usando un conjunto de datos que contiene principalmente pacientes masculinos.
Ese modelo puede hacer predicciones incorrectas para pacientes femeninas cuando se implementa en un hospital.
Para mejorar los resultados, los ingenieros pueden intentar equilibrar el conjunto de datos de entrenamiento eliminando puntos de datos hasta que todos los subgrupos estén representados por igual.
Si bien el equilibrio del conjunto de datos es prometedor, a menudo requiere eliminar grandes cantidades de datos, lo que perjudica el rendimiento general del modelo.
Investigadores del MIT han desarrollado una nueva técnica que identifica y elimina puntos específicos en un conjunto de datos de entrenamiento que contribuyen más a las fallas de un modelo en subgrupos minoritarios.
Al eliminar muchos menos puntos de datos que otros enfoques, esta técnica mantiene la precisión general del modelo al tiempo que mejora su rendimiento con respecto a los grupos subrepresentados.
Además, la técnica puede identificar fuentes ocultas de sesgo en un conjunto de datos de entrenamiento que carece de etiquetas.
Los datos sin etiquetar son mucho más frecuentes que los etiquetados en muchas aplicaciones.
Este método también podría combinarse con otros enfoques para mejorar la imparcialidad de los modelos de aprendizaje automático implementados en situaciones de alto riesgo.
Por ejemplo, algún día podría ayudar a garantizar que los pacientes subrepresentados no sean diagnosticados erróneamente debido a un modelo de IA sesgado.
“Muchos otros algoritmos que intentan abordar este problema asumen que cada punto de datos importa tanto como cualquier otro punto de datos. En este artículo, demostramos que esa suposición no es cierta.
“Hay puntos específicos en nuestro conjunto de datos que contribuyen a este sesgo, y podemos encontrar esos puntos de datos, eliminarlos y obtener un mejor rendimiento“, dice Kimia Hamidieh, estudiante de posgrado en ingeniería eléctrica y ciencias de la computación (EECS) en el MIT y coautora principal de un artículo sobre esta técnica.
A menudo, los modelos de aprendizaje automático se entrenan utilizando enormes conjuntos de datos recopilados de muchas fuentes en Internet.
Estos conjuntos de datos son demasiado grandes para ser seleccionados cuidadosamente a mano, por lo que pueden contener malos ejemplos que perjudican el rendimiento del modelo.
Los científicos también saben que algunos puntos de datos afectan el rendimiento de un modelo en ciertas tareas posteriores más que otros.
Los investigadores del MIT combinaron estas dos ideas en un enfoque que identifica y elimina estos puntos de datos problemáticos.
Buscan resolver un problema conocido como error del peor grupo, que ocurre cuando un modelo tiene un rendimiento inferior al esperado en subgrupos minoritarios en un conjunto de datos de entrenamiento.
La nueva técnica de los investigadores se basa en un trabajo previo en el que introdujeron un método, llamado TRAK, que identifica los ejemplos de entrenamiento más importantes para un resultado de modelo específico.
Para esta nueva técnica, toman predicciones incorrectas que el modelo hizo sobre subgrupos minoritarios y usan TRAK para identificar qué ejemplos de entrenamiento contribuyeron más a esa predicción incorrecta.
“Al agregar esta información a través de predicciones de prueba incorrectas de la manera correcta, podemos encontrar las partes específicas del entrenamiento que están reduciendo la precisión del peor grupo en general“, explica Ilyas.
Luego eliminan esas muestras específicas y vuelven a entrenar el modelo con los datos restantes.
Dado que tener más datos generalmente produce un mejor rendimiento general, eliminar solo las muestras que impulsan las fallas del peor grupo mantiene la precisión general del modelo al tiempo que mejora su rendimiento en subgrupos minoritarios.
En tres conjuntos de datos de aprendizaje automático, su método superó a múltiples técnicas.
En un caso, aumentó la precisión del peor grupo al tiempo que eliminaba aproximadamente 20 000 muestras de entrenamiento menos que un método de equilibrio de datos convencional.
Su técnica también logró una mayor precisión que los métodos que requieren realizar cambios en el funcionamiento interno de un modelo.
Debido a que el método MIT implica cambiar un conjunto de datos, sería más fácil de usar para un profesional y se puede aplicar a muchos tipos de modelos.
También se puede utilizar cuando se desconoce el sesgo, porque los subgrupos en un conjunto de datos de entrenamiento no están etiquetados.
Al identificar los puntos de datos que más contribuyen a una característica que el modelo está aprendiendo, pueden comprender las variables que está utilizando para hacer una predicción.
“Esta es una herramienta que cualquiera puede usar cuando está entrenando un modelo de aprendizaje automático.
Pueden observar esos puntos de datos y ver si están alineados con la capacidad que están tratando de enseñarle al modelo“, dice Hamidieh.
El uso de la técnica para detectar el sesgo de subgrupos desconocidos requeriría intuición sobre qué grupos buscar, por lo que los investigadores esperan validarlo y explorarlo más a fondo a través de futuros estudios humanos.
También quieren mejorar el rendimiento y la confiabilidad de su técnica y garantizar que el método sea accesible y fácil de usar para los profesionales que algún día podrían implementarlo en entornos del mundo real.
“Cuando tienes herramientas que te permiten mirar críticamente los datos y determinar qué puntos de datos van a conducir a sesgos u otros comportamientos indeseables, estás dando un primer paso hacia la construcción de modelos que serán más justos y más confiables“, dice Ilyas.
Fuente: arXiv