La compañía china DeepSeek lanza su primera IA que entiende y crea imágenes

Comparta este Artículo en:

DeepSeek lanza Janus Pro 7B, un modelo multimodal que unifica la comprensión y generación de imágenes, destacando por su eficiencia y arquitectura revolucionaria.

Es, un modelo de IA para generar imágenes a partir de texto y entender otras imágenes que se le introduzcan. Y es de código abierto.

Hasta ahora, los modelos multimodales han tenido que hacer malabares entre la comprensión y la generación de imágenes, sacrificando eficiencia o rendimiento.

Janus Pro 7B resuelve este dilema con una nueva propuesta: unifica la comprensión y generación de imágenes en una única arquitectura.

El modelo introduce un sistema de “doble vía” para el procesamiento visual:

Separa los caminos de codificación para entender y generar imágenes.

Mantiene un único transformer para procesar toda la información.

Utiliza SigLIP-L como codificador visual para imágenes de 384×384 pixeles.

Esta resolución es su principal inconveniente, parece mucho más orientada a experimentar y a usos de poca ambición que a las aplicaciones que podemos asumir de otras propuestas como Midjourney o Freepik, que suelen partir de 1024×1024 pixeles.

No obstante, Janus Pro no es un generador de imágenes al uso, sino un modelo multimodal con varias capacidades.

Eso sí, esta resolución permite un equilibrio óptimo entre calidad y velocidad de procesamiento… para usos que se conformen con ella.

La arquitectura de Janus Pro 7B es especialmente relevante por su eficiencia:

Tamaño compacto de 7.000 millones (“7B“) de parámetros.
Rendimiento superior a modelos específicos más grandes.
Código abierto bajo licencia MIT para el repositorio, aunque el modelo en sí requiere aceptar la licencia DeepSeek.

La licencia MIT permite a cualquiera usar, modificar y distribuir el código libremente, incluso con fines comerciales, siempre que se mantenga el aviso de copyright original. Es una de las licencias más permisivas que existen.

La licencia DeepSeek, en cambio, es gratuita y permite usos comerciales, pero incluye restricciones éticas específicas, como la prohibición de uso militar o la generación de desinformación.

Janus Pro 7B no es solo otro modelo multimodal, sino un nuevo paradigma en la arquitectura de IAs que pueden ver y crear.

Su enfoque unificado pero descentralizado bien puede acabar influyendo en futuros desarrollos.

El modelo está construido sobre DeepSeek-LLM-7b-base, el modelo base de lenguaje de la startup china, anunciado en agosto de 2024.

De él hereda sus capacidades de procesamiento de lenguaje mientras añade capacidades visuales avanzadas.

Su sistema de submuestreo de 16x para la generación de imágenes permite mantener la eficiencia sin comprometer la calidad.

Fuente: Hugging Face