Las técnicas que enseñaron a la inteligencia artificial a traducir el habla se están aplicando a tareas visuales.
Tan impresionantemente capaces como son los sistemas de inteligencia artificial en estos días, enseñar a las máquinas a realizar diversas tareas, ya sea traducir el habla en tiempo real o diferenciar con precisión entre chihuahuas y muffins de arándanos.
Pero ese proceso todavía implica cierta cantidad de mano y curación de datos por parte de los humanos que los entrenan.
Sin embargo, la aparición de métodos de aprendizaje auto supervisado (SSL), que ya han revolucionado el procesamiento del lenguaje natural, podría ser la clave para dotar a la IA de un sentido común muy necesario.
La división de investigación de inteligencia artificial de Facebook (FAIR) ahora, por primera vez, ha aplicado SSL al entrenamiento en visión por computadora.
“Hemos desarrollado SEER (SElf-supERvised), un nuevo modelo de visión por computadora auto-supervisado de mil millones de parámetros que puede aprender de cualquier grupo aleatorio de imágenes en Internet, sin la necesidad de una cuidadosa selección y etiquetado que se aplica a la mayoría de la visión por computadora entrenada hoy”, indican los investigadores de inteligencia artificial de Facebook.
En el caso de SEER, Facebook mostró más de mil millones de imágenes públicas de Instagram aleatorias, sin etiquetar y sin curar.
Bajo esquemas de aprendizaje supervisado, el científico jefe de inteligencia artificial de Facebook, Yann LeCunn, le dijo a Engadget,
“Para reconocer el habla necesitas etiquetar las palabras que fueron pronunciadas; si desea traducir, debe tener texto paralelo. Para reconocer imágenes, debe tener etiquetas para cada imagen “.
El aprendizaje no supervisado, por otro lado, “es la idea de un problema de tratar de entrenar un sistema para representar imágenes de manera apropiada, sin requerir imágenes etiquetadas“, explicó LeCunn.
Uno de esos métodos es la incrustación conjunta en la que se presenta una red neuronal con un par de imágenes casi idénticas: una copia original y una copia ligeramente modificada y distorsionada.
“Se entrena el sistema para que los vectores producidos por esos dos elementos estén lo más cerca posible entre sí”, dijo LeCunn.
“Entonces, el problema es asegurarse de que cuando al sistema se le muestran dos imágenes que son diferentes, produce diferentes vectores, diferentes ‘incrustaciones’ como los llamamos.
La forma más natural de hacer esto es elegir al azar millones de pares de imágenes que sabes que son diferentes, ejecutarlas en la red y esperar lo mejor“.
Sin embargo, métodos contrastantes como este tienden a requerir muchos recursos y tiempo dada la escala de los datos de entrenamiento necesarios.
La aplicación de las mismas técnicas SSL utilizadas en la PNL a la visión por computadora plantea desafíos adicionales.
Como señala LeCunn, los conceptos del lenguaje semántico se dividen fácilmente en palabras y frases discretas.
However, it is very important know about these deeprootsmag.org cheap levitra kind of health issues are majorly treated by good counselling, improving food habits and intakes, also very important regular exercise. Not only age but some physical best cialis prices and psychological health issues can follow (back pain, digestive problems, fertility challenges, tension, headaches, and more). The manipulations proved to be statistically significant in improving migraine pain, duration, and frequency for the patients.4 Finally, Duke University conducted their “Evidence viagra without prescription uk Report: Behavioral and Physical Treatments for tension-type and cervicogenic headaches. It is true that 16 people died because of viagra in stores alcohol related liver dysfunction.“Pero con las imágenes, el algoritmo debe decidir qué pixel pertenece a qué concepto.
Además, el mismo concepto variará mucho entre imágenes, como un gato en diferentes poses o visto desde diferentes ángulos ”.
“Necesitamos mirar muchas imágenes para captar la variación en torno a un solo concepto“.
Y para que este método de entrenamiento fuera efectivo, los investigadores necesitaban un algoritmo lo suficientemente flexible para aprender de un gran número de imágenes sin anotar y una red enrevesada capaz de clasificar los datos generados algorítmicamente.
Facebook encontró el primero en el SwAV recientemente lanzado, que “utiliza agrupación en línea para agrupar rápidamente imágenes con conceptos visuales similares y aprovechar sus similitudes“, seis veces más rápido que el estado de la técnica anterior, según LeCunn.
Este último se puede encontrar en RegNets, una red intrincada que puede aplicar miles de millones (si no billones) de parámetros a un modelo de entrenamiento mientras optimiza su función dependiendo de los recursos informáticos disponibles.
Los resultados de este nuevo sistema son bastante impresionantes.
Después de su sesión de preentrenamiento de mil millones de parámetros, SEER logró superar a los sistemas auto-supervisados de última generación en ImageNet, logrando una precisión del 84.2 por ciento entre los primeros.
Incluso cuando se entrenó utilizando solo el 10 por ciento del conjunto de datos original, SEER logró una precisión del 77,9 por ciento.
Y al usar solo el 1 por ciento del conjunto de datos OG, SEER aún logró una respetable precisión del 60,5 por ciento entre los primeros.
Esencialmente, esta investigación muestra que, al igual que con la capacitación en PNL, los métodos de aprendizaje no supervisados se pueden aplicar de manera efectiva a las aplicaciones de visión por computadora.
Con esa flexibilidad adicional, Facebook y otras plataformas de redes sociales deberían estar mejor equipadas para lidiar con el contenido prohibido.
“Lo que nos gustaría tener y lo que ya tenemos hasta cierto punto, pero necesitamos mejorar, es un sistema de comprensión de imágenes universal”, dijo LeCunn.
“Entonces, un sistema que, cada vez que subes una foto o imagen en Facebook, calcula una de esas incrustaciones y, a partir de eso, podemos decirte que se trata de una imagen de gato o, ya sabes, propaganda terrorista“.
Al igual que con su otra investigación de inteligencia artificial, el equipo de LeCunn está lanzando tanto su investigación como la biblioteca de capacitación de SEER, denominada VISSL, bajo una licencia de código abierto.
Si está interesado en darle una vuelta al sistema, diríjase al sitio web de VISSL para obtener documentación adicional.
Fuente: Engadget
Recientemente, Sanctuary AI presentó su mano robótica que ahora es capaz de manipular objetos. (more…)
Especialistas en robótica de la Universidad de Leeds y el University College de Londres han…
El lenguaje de señas es un medio de comunicación sofisticado y vital para las personas…
Según un nuevo estudio dirigido por el Imperial College, una tecnología de navegación que utiliza…
Gemini 2.0 Flash Thinking Experimental es una nueva versión de la IA de Google que…
Las computadoras cuánticas difieren fundamentalmente de las clásicas. En lugar de utilizar bits (0 y…