Microsoft entró al terreno de los modelos multimodales con Phi-3 vision, una IA que comprende imágenes y responde preguntas sobre ellas.
Antes de esta nueva IA, MIcrosoft indicó que su IA Phi-3 Mini es capaz de gestionar 3.800 millones de parámetros.
Se entrenó a través de cuentos infantiles utilizando más de 3.000 palabras simples que explican conceptos más complejos.
El resultado final es una IA que puede igualar a GPT-3.5, el modelo detrás de la primera versión de ChatGPT, y se ejecuta en su computador.
Phi-3 Mini ya se encuentra disponible a través de la nube de Azure para que los desarrolladores puedan acceder a ellos.
Mientras Phi-3 vision es un modelo de inteligencia artificial que puede comprender texto e imágenes.
El nuevo integrante es el primer modelo multimodal de la familia Phi-3 y puede comprender imágenes y responder preguntas sobre ellas.
Esta IA es similar a lo que vemos con GPT-4o, aunque en una escala menor.
Phi-3 vision es un modelo capaz de realizar tareas de razonamiento visual.
Por ejemplo, puede comprender gráficos y diagramas y generar información a partir de ellos.
También razona sobre imágenes del mundo real y extrae texto.
Lo único que no puede hacer es generar imágenes, como los modelos de OpenAI.
Tal vez lo más llamativo de este modelo es su tamaño.
Phi-3 vision cuenta con 4.200 millones de parámetros y supera a modelos más grandes, como Gemini 1.0 Pro V o Claude-3 Haiku en tareas de razonamiento visual, comprensión de gráficos, tablas y OCR.
La nueva IA de Microsoft ha sido diseñada para ejecutarse localmente en una gama más amplia de dispositivos, como móviles o computadores.
Además, Microsoft presentó una nueva IA creada para ejecutarse en los computadores Copilot+ PC.
Phi-Silica es un SLM que se integrará en todos los PC de esta categoría, incluidos los Surface Pro y Surface Laptop.
El modelo es el más pequeño de la familia Phi-3, con apenas 3.300 millones de parámetros y está pensado para sacarle provecho a los chips Snapdragon X Elite de Qualcomm.
Microsoft afirma que Phi-Silica está optimizado para ejecutarse en la NPU de Copilot + PC, lo que brinda inferencias locales ultrarrápidas.
La IA se distingue del resto por ser el primer modelo de lenguaje implementado de manera local en Windows.
Phi-Silica reutiliza el caché KV de la NPU y se ejecuta en la CPU para producir aproximadamente 27 tokens por segundo.
La IA es de bajo consumo energético y permite liberar la CPU y GPU para otros cálculos.
De acuerdo con Microsoft, la latencia del primer token es de 650 tokens/segundo y requiere alrededor de 1,5 vatios de energía.
Fuente: Microsoft
La técnica de edición genética CRISPR se muestra segura y eficaz en un ensayo clínico…
Científicos, dirigidos por los profesores Yiqiang Wu y Caichao Wan de la Universidad Central Sur…
Científicos que estudian cómo la lectura de ficción afecta al cerebro dicen que la noticia…
Investigadores de Stanford han desarrollado anteojos 3D AR que al principio parecen normales, pero en…
Han presentado los primeros dispositivos del catálogo Surface que caen dentro de este segmento con…
El nuevo Sony Xperia 1 VI es el más reciente teléfono inteligente premium de la…