Categorías: Tecnología

Meta presenta su IA de código abierto capaz de comprender imágenes

Comparta este Artículo en:

Meta presentó Llama 3.2, su primer modelo de lenguaje multimodal de código abierto capaz de procesar imágenes y texto.

A unos meses del lanzamiento de Llama 3.1, Mark Zuckerberg y compañía vuelven a la carga con una IA que comprende imágenes, generación de texto multilingüe y más.

La familia incluye dos modelos livianos optimizados para ARM que pueden ejecutarse en procesadores de Qualcomm y MediaTek.

De acuerdo con Meta, Llama 3.2 admite casos de uso de razonamiento de imágenes, como la comprensión de tablas y gráficos, subtítulos, localización de objetos y más.

La nueva IA multimodal es capaz de extraer detalles de una foto y escribir una oración o dos que podrían utilizarse como identificador o para ayudar a contar una historia.

Durante la presentación en la keynote de Meta Connect, Mark Zuckerberg mostró la integración de Llama 3.2 en sus aplicaciones más populares.

Por ejemplo, el asistente Meta AI que se encuentra integrado en WhatsApp, Messenger, Instagram y Facebook, entiende lo que estás mirando.

Puedes enviarle una foto y preguntarle acerca de ella, o compartir una imagen de un platillo para obtener una receta de su preparación.

El carácter multimodal de Llama 3.2 también permitirá sacarle provecho en la edición de fotos.

Zuckerberg presentó una demo en la que Meta AI añade patines, rodilleras y un casco de seguridad a una fotografía a partir de una instrucción (prompt).

La IA puede efectuar otros ajustes, como cambiar nuestra ropa, eliminar el fondo y más.

Llama 3.2 es competitivo cuando se mide con otros modelos comerciales.

En algunos casos, el modelo de código abierto de Meta supera a Claude 3 Haiku y GPT-4o mini demuestra un rendimiento excepcional en pruebas de reconocimiento de imágenes y comprensión visual.

La familia Llama 3.2 incluye dos modelos multimodales: uno con 90.000 millones de parámetros y otro con 11.000 millones.

La oferta se completa con Llama 3.2, 1B y 3B, que admiten una longitud de contexto de 128K tokens y son capaces de llevar a cabo resúmenes, reescritura y toda clase de instrucciones que se ejecutan en un dispositivo local.

Los modelos ligeros están optimizados para ARM y pueden resolver múltiples tareas con una latencia mínima.

Al igual que vimos con Llama 3.1, la nueva versión del modelo de lenguaje mantiene su compromiso con el código abierto.

Hoy en día, varias empresas tecnológicas están desarrollando modelos cerrados líderes. Pero el código abierto está cerrando rápidamente la brecha“, dijo Zuckerberg en una cara publicada en julio.

“El año pasado, el Llama 2 solo era comparable a una generación anterior de modelos detrás de la frontera. “Este año, Llama 3 es competitivo con los modelos más avanzados y líder en algunas áreas”.

Llama 3.2 está disponible para todos los desarrolladores a partir de hoy. Junto con el lanzamiento, Meta compartió la guía de uso responsable y una web con herramientas y recursos para sacarle provecho a su IA.

Fuente: Meta

 

Editor PDM

Entradas recientes

Meta revela sus primeras gafas de realidad aumentada

Orion, las primeras gafas de realidad virtual de la compañía liderada por Mark Zuckerberg. No…

22 mins hace

Nuevo enfoque permitiría enseñar continuamente a los robots nuevas habilidades a través del diálogo

Si bien los expertos en robótica han introducido sistemas robóticos cada vez más sofisticados en…

23 mins hace

Inteligencia artificial ayuda a producir agua limpia

Alrededor de 2.200 millones de personas, más de una cuarta parte de la población mundial,…

24 mins hace

La inteligencia artificial llega a las centrales nucleares

Las ramificaciones de la inteligencia artificial (IA) son incontables. Poco a poco esta tecnología está…

25 mins hace

Venice AI, plataforma de inteligencia artificial privada y sin censura

No se trata de un modelo de IA concreto, sino de una plataforma que usa…

1 day hace

Google DeepMind presenta dos nuevos sistemas de manos robóticas basados ​​en IA

Los ingenieros que trabajan en el proyecto DeepMind de Google han anunciado el desarrollo de…

1 day hace
Click to listen highlighted text!