El campo del aprendizaje automático se divide tradicionalmente en dos categorías principales: aprendizaje “supervisado” y “no supervisado“.
En el aprendizaje supervisado, los algoritmos se entrenan con datos etiquetados, donde cada entrada se empareja con su salida correspondiente, lo que proporciona al algoritmo una guía clara.
Por el contrario, el aprendizaje no supervisado se basa únicamente en los datos de entrada, lo que requiere que el algoritmo descubra patrones o estructuras sin ninguna salida etiquetada.
En los últimos años, ha surgido un nuevo paradigma conocido como “aprendizaje autosupervisado” (SSL), que difumina las líneas entre estas categorías tradicionales.
El aprendizaje supervisado depende en gran medida de expertos humanos que etiqueten los datos y actúen como “supervisores“.
Sin embargo, SSL evita esta dependencia mediante el uso de algoritmos para generar etiquetas automáticamente a partir de datos sin procesar.
Los algoritmos SSL se utilizan para una amplia gama de aplicaciones, desde el procesamiento del lenguaje natural (PLN) hasta la visión artificial, la bioinformática y el reconocimiento de voz.
Los enfoques tradicionales de SSL fomentan que las representaciones de pares semánticamente similares (positivos) sean cercanas y que las de pares diferentes (negativos) sean más distantes.
Los pares positivos se generan normalmente utilizando técnicas estándar de aumento de datos, como la aleatorización del color, la textura, la orientación y el recorte.
La alineación de las representaciones de pares positivos puede guiarse por la invariancia, que promueve la insensibilidad a estos aumentos, o por la equivariancia, que mantiene la sensibilidad a ellos.
El desafío, sin embargo, es que imponer la invariancia o la equivariancia a un conjunto predefinido de aumentos introduce “priores inductivos” sólidos (suposiciones inherentes sobre las propiedades que las representaciones aprendidas deben satisfacer) que están lejos de ser universales en una variedad de tareas posteriores.
En un artículo un equipo del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT y la Universidad Técnica de Múnich han propuesto un nuevo enfoque para el aprendizaje autosupervisado que aborda estas limitaciones de depender de ampliaciones de datos predefinidas y, en su lugar, aprende de una representación general que puede adaptarse a diferentes transformaciones prestando atención al contexto, que representa una noción abstracta de una tarea o entorno.
Esto permite aprender representaciones de datos que son más flexibles y adaptables a varias tareas posteriores, diversas simetrías y características sensibles, eliminando la necesidad de un reentrenamiento repetitivo para cada tarea.
Los investigadores, que denominaron a su método “Aprendizaje autosupervisado contextual” (ContextSSL), demuestran su eficacia a través de experimentos exhaustivos en varios conjuntos de datos de referencia.
La idea central es introducir un contexto inspirado en modelos mundiales: representaciones del entorno de un agente que capturan su dinámica y estructura.
Al incorporar estos modelos mundiales, el enfoque permite que el modelo adapte dinámicamente sus representaciones para que sean invariantes o equivariantes en función de la tarea en cuestión.
Esto elimina la necesidad de entrenar representaciones separadas para cada tarea posterior y permite un enfoque más general y flexible para SSL.
ContextSSL utiliza un módulo transformador para codificar el contexto como una secuencia de tripletes de estado-acción-próximo-estado, que representan experiencias previas con transformaciones.
Al prestar atención al contexto, el modelo aprende a aplicar selectivamente la invariancia o la equivariancia en función del grupo de transformación representado en el contexto.
“En concreto, nuestro objetivo es entrenar representaciones que se vuelvan más equivariantes con respecto al grupo de transformación subyacente a medida que aumenta el contexto“, afirma Sharut Gupta, estudiante de doctorado de CSAIL y autor principal del nuevo artículo de investigadores que incluyen a los profesores del MIT Tommi Jaakkola y Stefanie Jegelka.
“No queremos ajustar los modelos cada vez, sino construir un modelo flexible de propósito general que pueda atender a diferentes entornos de forma similar a como lo hacen los humanos”.
ContextSSL demuestra mejoras significativas en el rendimiento en varios puntos de referencia de visión artificial, incluidos 3DIEBench y CIFAR-10, para tareas que requieren tanto invariancia como equivariancia.
Según el contexto, la representación aprendida por ContextSSL se adapta a las características correctas que fueron útiles para una determinada tarea posterior.
Como ejemplo, el equipo probó la capacidad de ContextSSL para aprender representaciones para el atributo particular de género en MIMIC-III, una gran colección de registros médicos que incluye identificadores cruciales como medicamentos, datos demográficos de los pacientes, duración de la estadía en el hospital (LOS) y datos de supervivencia.
El equipo investigó este conjunto de datos, ya que captura tareas del mundo real que se benefician tanto de la equivariancia como de la invariancia: la equivariancia es crucial para tareas como el diagnóstico médico, donde las dosis de los medicamentos dependen del género y las características fisiológicas de los pacientes, mientras que la invariancia es esencial para garantizar la imparcialidad en la predicción de resultados como la duración de las estadías en el hospital o los costos médicos.
Los investigadores finalmente descubrieron que, cuando ContextSSL presta atención al contexto que promueve la sensibilidad de género, tanto la precisión de la predicción de género como la predicción del tratamiento médico mejoran con el contexto.
Por el contrario, cuando el contexto promueve la invariancia, el rendimiento mejora en la predicción de la duración de la estancia hospitalaria (LOS) y varias métricas de equidad medidas por probabilidades igualadas (EO) e igualdad de oportunidades (EOPP).
“Un objetivo clave del aprendizaje autosupervisado es generar representaciones flexibles que se puedan adaptar a muchas tareas posteriores“, dice el científico investigador sénior de Google DeepMind, Dilip Krishnan, que no participó en el artículo.
“En lugar de incorporar invariancia o equivariancia a priori, es mucho más útil decidir estas propiedades de una manera específica para cada tarea.
“Este interesante artículo da un paso importante en esta dirección.
Al aprovechar inteligentemente las capacidades de aprendizaje en contexto de los modelos de transformadores, su enfoque se puede utilizar para imponer invariancia o equivariancia a diferentes transformaciones de una manera simple y efectiva”.
Fuente: arXiv
El análisis del patrón de marcha individual de una persona, o su forma de andar,…
Investigadores del Instituto de Tecnología de Beijing en China utilizaron inteligencia artificial para entrenar a…
Científicos de la Universidad Northwestern han logrado un hito: la primera demostración de teleportación cuántica…
Se ha desarrollado una nueva tecnología que utiliza microorganismos para capturar el dióxido de carbono…
En los últimos años, los expertos en robótica han desarrollado una amplia gama de sistemas…
La Junta Estatal de Escuelas Charter de Arizona aprobó una solicitud para una academia virtual…