Meta presenta su IA de código abierto capaz de comprender imágenes

Comparta este Artículo en:

Meta presentó Llama 3.2, su primer modelo de lenguaje multimodal de código abierto capaz de procesar imágenes y texto.

A unos meses del lanzamiento de Llama 3.1, Mark Zuckerberg y compañía vuelven a la carga con una IA que comprende imágenes, generación de texto multilingüe y más.

La familia incluye dos modelos livianos optimizados para ARM que pueden ejecutarse en procesadores de Qualcomm y MediaTek.

De acuerdo con Meta, Llama 3.2 admite casos de uso de razonamiento de imágenes, como la comprensión de tablas y gráficos, subtítulos, localización de objetos y más.

La nueva IA multimodal es capaz de extraer detalles de una foto y escribir una oración o dos que podrían utilizarse como identificador o para ayudar a contar una historia.

Durante la presentación en la keynote de Meta Connect, Mark Zuckerberg mostró la integración de Llama 3.2 en sus aplicaciones más populares.

Por ejemplo, el asistente Meta AI que se encuentra integrado en WhatsApp, Messenger, Instagram y Facebook, entiende lo que estás mirando.

Puedes enviarle una foto y preguntarle acerca de ella, o compartir una imagen de un platillo para obtener una receta de su preparación.

El carácter multimodal de Llama 3.2 también permitirá sacarle provecho en la edición de fotos.

Zuckerberg presentó una demo en la que Meta AI añade patines, rodilleras y un casco de seguridad a una fotografía a partir de una instrucción (prompt).

La IA puede efectuar otros ajustes, como cambiar nuestra ropa, eliminar el fondo y más.

Llama 3.2 es competitivo cuando se mide con otros modelos comerciales.

En algunos casos, el modelo de código abierto de Meta supera a Claude 3 Haiku y GPT-4o mini demuestra un rendimiento excepcional en pruebas de reconocimiento de imágenes y comprensión visual.

La familia Llama 3.2 incluye dos modelos multimodales: uno con 90.000 millones de parámetros y otro con 11.000 millones.

La oferta se completa con Llama 3.2, 1B y 3B, que admiten una longitud de contexto de 128K tokens y son capaces de llevar a cabo resúmenes, reescritura y toda clase de instrucciones que se ejecutan en un dispositivo local.

Los modelos ligeros están optimizados para ARM y pueden resolver múltiples tareas con una latencia mínima.

Al igual que vimos con Llama 3.1, la nueva versión del modelo de lenguaje mantiene su compromiso con el código abierto.

“Hoy en día, varias empresas tecnológicas están desarrollando modelos cerrados líderes. Pero el código abierto está cerrando rápidamente la brecha“, dijo Zuckerberg en una cara publicada en julio.

“El año pasado, el Llama 2 solo era comparable a una generación anterior de modelos detrás de la frontera. “Este año, Llama 3 es competitivo con los modelos más avanzados y líder en algunas áreas”.

Llama 3.2 está disponible para todos los desarrolladores a partir de hoy. Junto con el lanzamiento, Meta compartió la guía de uso responsable y una web con herramientas y recursos para sacarle provecho a su IA.

Fuente: Meta