Microsoft presenta Phi-3 vision, una IA que comprende imágenes y texto

Comparta este Artículo en:

Microsoft entró al terreno de los modelos multimodales con Phi-3 vision, una IA que comprende imágenes y responde preguntas sobre ellas.

Antes de esta nueva IA, MIcrosoft indicó que su IA Phi-3 Mini es capaz de gestionar 3.800 millones de parámetros.

Se entrenó a través de cuentos infantiles utilizando más de 3.000 palabras simples que explican conceptos más complejos.

El resultado final es una IA que puede igualar a GPT-3.5, el modelo detrás de la primera versión de ChatGPT, y se ejecuta en su computador.

Phi-3 Mini ya se encuentra disponible a través de la nube de Azure para que los desarrolladores puedan acceder a ellos.

Mientras Phi-3 vision es un modelo de inteligencia artificial que puede comprender texto e imágenes.

El nuevo integrante es el primer modelo multimodal de la familia Phi-3 y puede comprender imágenes y responder preguntas sobre ellas.

Esta IA es similar a lo que vemos con GPT-4o, aunque en una escala menor.

Phi-3 vision es un modelo capaz de realizar tareas de razonamiento visual.

Por ejemplo, puede comprender gráficos y diagramas y generar información a partir de ellos.

También razona sobre imágenes del mundo real y extrae texto.

Lo único que no puede hacer es generar imágenes, como los modelos de OpenAI.

Tal vez lo más llamativo de este modelo es su tamaño.

Phi-3 vision cuenta con 4.200 millones de parámetros y supera a modelos más grandes, como Gemini 1.0 Pro V o Claude-3 Haiku en tareas de razonamiento visual, comprensión de gráficos, tablas y OCR.

La nueva IA de Microsoft ha sido diseñada para ejecutarse localmente en una gama más amplia de dispositivos, como móviles o computadores.

Además, Microsoft presentó una nueva IA creada para ejecutarse en los computadores Copilot+ PC.

Phi-Silica es un SLM que se integrará en todos los PC de esta categoría, incluidos los Surface Pro y Surface Laptop.

El modelo es el más pequeño de la familia Phi-3, con apenas 3.300 millones de parámetros y está pensado para sacarle provecho a los chips Snapdragon X Elite de Qualcomm.

Microsoft afirma que Phi-Silica está optimizado para ejecutarse en la NPU de Copilot + PC, lo que brinda inferencias locales ultrarrápidas.

La IA se distingue del resto por ser el primer modelo de lenguaje implementado de manera local en Windows.

Phi-Silica reutiliza el caché KV de la NPU y se ejecuta en la CPU para producir aproximadamente 27 tokens por segundo.

La IA es de bajo consumo energético y permite liberar la CPU y GPU para otros cálculos.

De acuerdo con Microsoft, la latencia del primer token es de 650 tokens/segundo y requiere alrededor de 1,5 vatios de energía.

Fuente: Microsoft

Editor PDM

Siguiente Edición genética mejora la visión de las personas con ceguera hereditaria »

Anterior « Desarrollan bambú transparente, superhidrófobo y resistente a las llamas

Deja un comentario

Publicado por

Editor PDM

Etiquetas: inteligencia artificialPhi-3 vision

1 hour hace

Edición genética mejora la visión de las personas con ceguera hereditaria

La técnica de edición genética CRISPR se muestra segura y eficaz en un ensayo clínico…

1 hour hace

Tecnología

Desarrollan bambú transparente, superhidrófobo y resistente a las llamas

Científicos, dirigidos por los profesores Yiqiang Wu y Caichao Wan de la Universidad Central Sur…

1 hour hace

Ciencia

Si lee mucha ficción, los científicos tienen muy buenas noticias sobre su cerebro

Científicos que estudian cómo la lectura de ficción afecta al cerebro dicen que la noticia…

1 hour hace

Tecnología

Gafas 3D AR combinan imágenes holográficas con inteligencia artificial

Investigadores de Stanford han desarrollado anteojos 3D AR que al principio parecen normales, pero en…

1 hour hace

Tecnología

Microsoft anuncia los nuevos Surface Pro y Surface Laptop: sus primeros Copilot+ PC

Han presentado los primeros dispositivos del catálogo Surface que caen dentro de este segmento con…

1 day hace

Tecnología

Teléfono Sony Xperia 1 VI con cámara con tecnología de inteligencia artificial

El nuevo Sony Xperia 1 VI es el más reciente teléfono inteligente premium de la…

1 day hace

Microsoft presenta Phi-3 vision, una IA que comprende imágenes y texto

Artículos relacionados:

Entrada Relacionada

Entradas recientes

Edición genética mejora la visión de las personas con ceguera hereditaria

Desarrollan bambú transparente, superhidrófobo y resistente a las llamas

Si lee mucha ficción, los científicos tienen muy buenas noticias sobre su cerebro

Gafas 3D AR combinan imágenes holográficas con inteligencia artificial

Microsoft anuncia los nuevos Surface Pro y Surface Laptop: sus primeros Copilot+ PC

Teléfono Sony Xperia 1 VI con cámara con tecnología de inteligencia artificial