Microsoft entró al terreno de los modelos multimodales con Phi-3 vision, una IA que comprende imágenes y responde preguntas sobre ellas.
Antes de esta nueva IA, MIcrosoft indicó que su IA Phi-3 Mini es capaz de gestionar 3.800 millones de parámetros.
Se entrenó a través de cuentos infantiles utilizando más de 3.000 palabras simples que explican conceptos más complejos.
El resultado final es una IA que puede igualar a GPT-3.5, el modelo detrás de la primera versión de ChatGPT, y se ejecuta en su computador.
Phi-3 Mini ya se encuentra disponible a través de la nube de Azure para que los desarrolladores puedan acceder a ellos.
Mientras Phi-3 vision es un modelo de inteligencia artificial que puede comprender texto e imágenes.
El nuevo integrante es el primer modelo multimodal de la familia Phi-3 y puede comprender imágenes y responder preguntas sobre ellas.
Esta IA es similar a lo que vemos con GPT-4o, aunque en una escala menor.
Phi-3 vision es un modelo capaz de realizar tareas de razonamiento visual.
Por ejemplo, puede comprender gráficos y diagramas y generar información a partir de ellos.
También razona sobre imágenes del mundo real y extrae texto.
Lo único que no puede hacer es generar imágenes, como los modelos de OpenAI.
Tal vez lo más llamativo de este modelo es su tamaño.
Phi-3 vision cuenta con 4.200 millones de parámetros y supera a modelos más grandes, como Gemini 1.0 Pro V o Claude-3 Haiku en tareas de razonamiento visual, comprensión de gráficos, tablas y OCR.
La nueva IA de Microsoft ha sido diseñada para ejecutarse localmente en una gama más amplia de dispositivos, como móviles o computadores.
Además, Microsoft presentó una nueva IA creada para ejecutarse en los computadores Copilot+ PC.
Phi-Silica es un SLM que se integrará en todos los PC de esta categoría, incluidos los Surface Pro y Surface Laptop.
El modelo es el más pequeño de la familia Phi-3, con apenas 3.300 millones de parámetros y está pensado para sacarle provecho a los chips Snapdragon X Elite de Qualcomm.
Microsoft afirma que Phi-Silica está optimizado para ejecutarse en la NPU de Copilot + PC, lo que brinda inferencias locales ultrarrápidas.
La IA se distingue del resto por ser el primer modelo de lenguaje implementado de manera local en Windows.
Phi-Silica reutiliza el caché KV de la NPU y se ejecuta en la CPU para producir aproximadamente 27 tokens por segundo.
La IA es de bajo consumo energético y permite liberar la CPU y GPU para otros cálculos.
De acuerdo con Microsoft, la latencia del primer token es de 650 tokens/segundo y requiere alrededor de 1,5 vatios de energía.
Fuente: Microsoft