Categorías: Tecnología

La compañía china DeepSeek lanza su primera IA que entiende y crea imágenes

Comparta este Artículo en:
FacebookFacebookTwitterTwitterEmailEmailWhatsAppWhatsAppShareShare

DeepSeek lanza Janus Pro 7B, un modelo multimodal que unifica la comprensión y generación de imágenes, destacando por su eficiencia y arquitectura revolucionaria.

Es, un modelo de IA para generar imágenes a partir de texto y entender otras imágenes que se le introduzcan. Y es de código abierto.

Hasta ahora, los modelos multimodales han tenido que hacer malabares entre la comprensión y la generación de imágenes, sacrificando eficiencia o rendimiento.

Janus Pro 7B resuelve este dilema con una nueva propuesta: unifica la comprensión y generación de imágenes en una única arquitectura.

El modelo introduce un sistema de “doble vía” para el procesamiento visual:

Separa los caminos de codificación para entender y generar imágenes.

Mantiene un único transformer para procesar toda la información.

Utiliza SigLIP-L como codificador visual para imágenes de 384×384 pixeles.

Esta resolución es su principal inconveniente, parece mucho más orientada a experimentar y a usos de poca ambición que a las aplicaciones que podemos asumir de otras propuestas como Midjourney o Freepik, que suelen partir de 1024×1024 pixeles.

No obstante, Janus Pro no es un generador de imágenes al uso, sino un modelo multimodal con varias capacidades.

Eso sí, esta resolución permite un equilibrio óptimo entre calidad y velocidad de procesamiento… para usos que se conformen con ella.

La arquitectura de Janus Pro 7B es especialmente relevante por su eficiencia:

Tamaño compacto de 7.000 millones (“7B“) de parámetros.
Rendimiento superior a modelos específicos más grandes.
Código abierto bajo licencia MIT para el repositorio, aunque el modelo en sí requiere aceptar la licencia DeepSeek.

La licencia MIT permite a cualquiera usar, modificar y distribuir el código libremente, incluso con fines comerciales, siempre que se mantenga el aviso de copyright original. Es una de las licencias más permisivas que existen.

La licencia DeepSeek, en cambio, es gratuita y permite usos comerciales, pero incluye restricciones éticas específicas, como la prohibición de uso militar o la generación de desinformación.

Janus Pro 7B no es solo otro modelo multimodal, sino un nuevo paradigma en la arquitectura de IAs que pueden ver y crear.

Su enfoque unificado pero descentralizado bien puede acabar influyendo en futuros desarrollos.

El modelo está construido sobre DeepSeek-LLM-7b-base, el modelo base de lenguaje de la startup china, anunciado en agosto de 2024.

De él hereda sus capacidades de procesamiento de lenguaje mientras añade capacidades visuales avanzadas.

Su sistema de submuestreo de 16x para la generación de imágenes permite mantener la eficiencia sin comprometer la calidad.

Fuente: Hugging Face

 

Editor PDM

Entradas recientes

Sistema cuántico permite capturar imágenes en 3D a un kilómetro de distancia

Científicos desarrollan un LiDAR de un solo fotón capaz de capturar imágenes 3D a un…

13 hours hace

Inteligencia artificial china de código abierto para la creación de videos

Hay una nueva IA china de código abierto, llamada Goku AI, para la generación de…

13 hours hace

Entrenamiento de cuerpo completo permite a robots imitar los movimientos de deportistas famosos

Un equipo de investigadores de IA y robótica de la Universidad Carnegie Mellon, en colaboración…

13 hours hace

Crean IA para mejorar la resolución, los colores y el movimiento de videos antiguos de baja calidad

La empresa Topaz Labs está desarrollando una herramienta IA que puede revolucionar el mercado del…

13 hours hace

Primeras evidencias de una asimetría cósmica basada en ondas gravitacionales

Descubren las primeras evidencias de ruptura de simetría en el universo observadas en ondas gravitacionales…

13 hours hace

Colisión triple de bolas de pintura en cámara superlenta a 82 000 FPS

Gavin Free y Daniel Gruchy de The Slow Mo Guys decidieron grabar una loca colisión…

2 days hace
Click to listen highlighted text!