Inteligencia artificial capaz de crear imágenes utilizando el «sentido común»

Comparta este Artículo en:

Meta presentó una herramienta que, asegura, puede completar imágenes sin terminar con mayor precisión que otras herramientas en el mercado.

Esta IA fue entrenada con un método diferente a ChatGPT y sistemas similares.

La compañía explicó que su modelo no compara los pixeles como hacen otras herramientas disponibles, sino que puede comprender representaciones abstractas a partir de «conocimiento previo sobre el mundo».

De esta forma, aseguró la empresa, puede completar imágenes sin terminar con mayor precisión que otras herramientas en el mercado.

Le bautizó como Image Joint Embedding Predictive Architecture: Arquitectura predictiva de incrustación conjunta de imágenes (I-JEPA).

El modelo está basado en la visión del científico jefe de IA de Meta, Yann LeCun.

Su idea «es crear máquinas que puedan aprender modelos internos de cómo funciona el mundo», publicó la empresa en su blog.

Sistemas como ChatGPT se entrenan bajo lo que se conoce como el método de aprendizaje «supervisado».

Es decir, a partir de un gran conjunto de datos etiquetados. I-JEPA, en lugar de data etiquetada, analizó directamente imágenes o sonidos, explicó Meta, casa matriz de Facebook, Instagram y Whatasapp.

A este otro método le llaman aprendizaje «autosupervisado».

Si mostramos algunos dibujos de vacas a niños pequeños, eventualmente podrán reconocer cualquier vaca que vean.

De esta misma forma, I-JEPA puede identificar representaciones mediante comparaciones.

Meta publicó un ejemplo de cómo su IA pudo completar las imágenes de varios animales y un paisaje.

El modelo fue capaz de reconocer «semánticamente» qué partes faltaban gracias al contexto: la cabeza del perro o la pata del pájaro, por ejemplo.

Los animales humanos y no humanos parecen capaces de aprender enormes cantidades de conocimientos previos sobre cómo funciona el mundo mediante la observación y a través de una cantidad incomprensiblemente pequeña de interacciones de forma independiente de la tarea y sin supervisión», explicaba LeCun.

Vale la pena plantear la hipótesis, decía entonces, de que este conocimiento acumulado puede «constituir la base de lo que suele llamarse sentido común».

Este «sentido común» es lo que orientaría a los modelos de IA para saber lo que es probable, lo que es posible y lo que es imposible.

Por eso, dice Meta, I-JEPA no cometería errores que son usuales en las imágenes generadas por otras IA, como manos con más de cinco dedos.

Sistemas de IA basados en conjunto de datos etiquetados (como ChatGPT) suelen ser muy buenos para tareas específicas para las que fueron entrenados.

«Pero es imposible etiquetar todo en el mundo», explicaba Meta en otro reporte de sus investigaciones de 2021.

También hay algunas tareas para las que simplemente no hay suficientes datos etiquetados.

Si los sistemas de IA pueden obtener una comprensión más profunda de la realidad más allá de su entrenamiento, «serán más útiles y, en última instancia, acercarán la IA a la inteligencia a nivel humano».

Lograr el «sentido común» sería como alcanzar la materia oscura de la IA, había explicado Meta en 2021.

La compañía cree que este tipo de IA puede aprender mucho más rápido, planificar cómo realizar tareas complejas y adaptarse fácilmente a situaciones desconocidas.

En mayo lanzó AI Sandbox, un «campo de pruebas» para las primeras versiones de las herramientas de publicidad impulsadas por IA.

Por ahora, las pruebas están enfocadas en la redacción de texto, la generación de fondo y la superposición de imágenes.

Los de Menlo Park también han presentado LLaMa, su gran modelo de lenguaje, y SAM, una IA capaz de reconocer elementos y significados dentro de una imagen.

Además, Mark Zuckerberg, CEO de la empresa, contó que planean desarrollar un asistente virtual enfocado en mejorar la vida social de sus usuarios.

I-JEPA, al igual que los otros desarrollos anunciados por Meta, por el momento está diseñado para ser probado por la comunidad científica y no por el público general.

Fuente: Meta