Categorías: Tecnología

Microsoft presenta Phi-3 vision, una IA que comprende imágenes y texto

Comparta este Artículo en:

Microsoft entró al terreno de los modelos multimodales con Phi-3 vision, una IA que comprende imágenes y responde preguntas sobre ellas.

Antes de esta nueva IA, MIcrosoft indicó que su IA Phi-3 Mini es capaz de gestionar 3.800 millones de parámetros.

Se entrenó a través de cuentos infantiles utilizando más de 3.000 palabras simples que explican conceptos más complejos.

El resultado final es una IA que puede igualar a GPT-3.5, el modelo detrás de la primera versión de ChatGPT, y se ejecuta en su computador.

Phi-3 Mini ya se encuentra disponible a través de la nube de Azure para que los desarrolladores puedan acceder a ellos.

Mientras Phi-3 vision es un modelo de inteligencia artificial que puede comprender texto e imágenes.

El nuevo integrante es el primer modelo multimodal de la familia Phi-3 y puede comprender imágenes y responder preguntas sobre ellas.

Esta IA es similar a lo que vemos con GPT-4o, aunque en una escala menor.

Phi-3 vision es un modelo capaz de realizar tareas de razonamiento visual.

Por ejemplo, puede comprender gráficos y diagramas y generar información a partir de ellos.

También razona sobre imágenes del mundo real y extrae texto.

Lo único que no puede hacer es generar imágenes, como los modelos de OpenAI.

Tal vez lo más llamativo de este modelo es su tamaño.

Phi-3 vision cuenta con 4.200 millones de parámetros y supera a modelos más grandes, como Gemini 1.0 Pro V o Claude-3 Haiku en tareas de razonamiento visual, comprensión de gráficos, tablas y OCR.

La nueva IA de Microsoft ha sido diseñada para ejecutarse localmente en una gama más amplia de dispositivos, como móviles o computadores.

Además, Microsoft presentó una nueva IA creada para ejecutarse en los computadores Copilot+ PC.

Phi-Silica es un SLM que se integrará en todos los PC de esta categoría, incluidos los Surface Pro y Surface Laptop.

El modelo es el más pequeño de la familia Phi-3, con apenas 3.300 millones de parámetros y está pensado para sacarle provecho a los chips Snapdragon X Elite de Qualcomm.

Microsoft afirma que Phi-Silica está optimizado para ejecutarse en la NPU de Copilot + PC, lo que brinda inferencias locales ultrarrápidas.

La IA se distingue del resto por ser el primer modelo de lenguaje implementado de manera local en Windows.

Phi-Silica reutiliza el caché KV de la NPU y se ejecuta en la CPU para producir aproximadamente 27 tokens por segundo.

La IA es de bajo consumo energético y permite liberar la CPU y GPU para otros cálculos.

De acuerdo con Microsoft, la latencia del primer token es de 650 tokens/segundo y requiere alrededor de 1,5 vatios de energía.

Fuente: Microsoft

Editor PDM

Entradas recientes

Edición genética mejora la visión de las personas con ceguera hereditaria

La técnica de edición genética CRISPR se muestra segura y eficaz en un ensayo clínico…

1 hour hace

Desarrollan bambú transparente, superhidrófobo y resistente a las llamas

Científicos, dirigidos por los profesores Yiqiang Wu y Caichao Wan de la Universidad Central Sur…

1 hour hace

Si lee mucha ficción, los científicos tienen muy buenas noticias sobre su cerebro

Científicos que estudian cómo la lectura de ficción afecta al cerebro dicen que la noticia…

1 hour hace

Gafas 3D AR combinan imágenes holográficas con inteligencia artificial

Investigadores de Stanford han desarrollado anteojos 3D AR que al principio parecen normales, pero en…

1 hour hace

Microsoft anuncia los nuevos Surface Pro y Surface Laptop: sus primeros Copilot+ PC

Han presentado los primeros dispositivos del catálogo Surface que caen dentro de este segmento con…

1 day hace

Teléfono Sony Xperia 1 VI con cámara con tecnología de inteligencia artificial

El nuevo Sony Xperia 1 VI es el más reciente teléfono inteligente premium de la…

1 day hace
Click to listen highlighted text!