Microsoft presenta Phi-3 vision, una IA que comprende imágenes y texto

Comparta este Artículo en:

Microsoft entró al terreno de los modelos multimodales con Phi-3 vision, una IA que comprende imágenes y responde preguntas sobre ellas.

Antes de esta nueva IA, MIcrosoft indicó que su IA Phi-3 Mini es capaz de gestionar 3.800 millones de parámetros.

Se entrenó a través de cuentos infantiles utilizando más de 3.000 palabras simples que explican conceptos más complejos.

El resultado final es una IA que puede igualar a GPT-3.5, el modelo detrás de la primera versión de ChatGPT, y se ejecuta en su computador.

Phi-3 Mini ya se encuentra disponible a través de la nube de Azure para que los desarrolladores puedan acceder a ellos.

Mientras Phi-3 vision es un modelo de inteligencia artificial que puede comprender texto e imágenes.

El nuevo integrante es el primer modelo multimodal de la familia Phi-3 y puede comprender imágenes y responder preguntas sobre ellas.

Esta IA es similar a lo que vemos con GPT-4o, aunque en una escala menor.

Phi-3 vision es un modelo capaz de realizar tareas de razonamiento visual.

Por ejemplo, puede comprender gráficos y diagramas y generar información a partir de ellos.

También razona sobre imágenes del mundo real y extrae texto.

Lo único que no puede hacer es generar imágenes, como los modelos de OpenAI.

Tal vez lo más llamativo de este modelo es su tamaño.

Phi-3 vision cuenta con 4.200 millones de parámetros y supera a modelos más grandes, como Gemini 1.0 Pro V o Claude-3 Haiku en tareas de razonamiento visual, comprensión de gráficos, tablas y OCR.

La nueva IA de Microsoft ha sido diseñada para ejecutarse localmente en una gama más amplia de dispositivos, como móviles o computadores.

Además, Microsoft presentó una nueva IA creada para ejecutarse en los computadores Copilot+ PC.

Phi-Silica es un SLM que se integrará en todos los PC de esta categoría, incluidos los Surface Pro y Surface Laptop.

El modelo es el más pequeño de la familia Phi-3, con apenas 3.300 millones de parámetros y está pensado para sacarle provecho a los chips Snapdragon X Elite de Qualcomm.

Microsoft afirma que Phi-Silica está optimizado para ejecutarse en la NPU de Copilot + PC, lo que brinda inferencias locales ultrarrápidas.

La IA se distingue del resto por ser el primer modelo de lenguaje implementado de manera local en Windows.

Phi-Silica reutiliza el caché KV de la NPU y se ejecuta en la CPU para producir aproximadamente 27 tokens por segundo.

La IA es de bajo consumo energético y permite liberar la CPU y GPU para otros cálculos.

De acuerdo con Microsoft, la latencia del primer token es de 650 tokens/segundo y requiere alrededor de 1,5 vatios de energía.

Fuente: Microsoft