NVIDIA ya es la reina en hardware de IA. Ahora va a por GPT-4 y Llama y lanza su propio LLM “Open Source“.
Su nueva familia de modelos multimodales competirá con GPT-4o o Gemini, pero lo hará especialmente con Llama 3.
En el segmento de la IA hay dos grandes carreras, la del hardware y la del software.
En la del hardware reina NVIDIA, que con sus GPUs para centros de datos, como las célebres H100 o las nuevas B200, se ha convertido en dueña y señora de este mercado.
En el terreno del software la cosa está más disputada.
Los grandes modelos de lenguaje (LLM) son aquí absolutos protagonistas, y son varias las empresas que destacan.
OpenAI lo hace con GPT-4o actualmente, pero tenemos también a Anthropic con Claude 3.5, Google con Gemini o Meta con Llama, entre otros protagonistas.
A todos ellos les ha salido un nuevo competidor: NVIDIA.
La empresa parece no conformarse con dominar en el segmento del hardware, y ahora quiere competir también con su propio LLM, al que ha bautizado como NVLM 1.0.
En realidad NVLM 1.0 es una familia de LLMs multimodales que según la compañía ofrecen resultados especialmente destacables en los ámbitos de la visión y el lenguaje, rivalizando con otros modelos como GPT-4o.
NVLM 1.0 cuenta con un modelo de 72.000 millones de parámetros (NVLM-D-72B) que es el más capaz y ambicioso de la familia por el momento y que según NVIDIA es capaz de comportarse mejor que Llama 3 405B (un modelo mucho mayor) en diversas pruebas de rendimiento.
Estamos además ante un modelo “Open Source” de pesos abiertos, y los responsables de su desarrollo prometen publicar el código utilizado para entrenar el modelo, algo que será especialmente útil para desarrolladores que quieran utilizarlo para sus propios proyectos y ‘forks’.
NVLM-D-72B, no estaría de más bautizarlo con un nombre más sencillo, es prometedor a la hora de analizar entradas visuales y de texto: es capaz de interpretar memes o analizar imágenes, pero también resolver problemas matemáticos paso a paso.
Lo hace, como explica NVIDIA, aplicando esas versátiles capacidades multimodales al “usar OCR, razonamiento, localización, sentido común, conocimiento del mundo y capacidad para programar“.
Estamos pues ante un nuevo e interesante rival que lo es más por venir de donde viene.
Queda por ver la evolución y futuro desarrollo del modo, pero desde luego esa decisión de ofrecerlo de forma abierta hace que compita directamente con Llama y se postule como una alternativa especialmente interesante para desarrolladores.
Fuente: arXiv
Recientemente, Sanctuary AI presentó su mano robótica que ahora es capaz de manipular objetos. (more…)
Especialistas en robótica de la Universidad de Leeds y el University College de Londres han…
El lenguaje de señas es un medio de comunicación sofisticado y vital para las personas…
Según un nuevo estudio dirigido por el Imperial College, una tecnología de navegación que utiliza…
Gemini 2.0 Flash Thinking Experimental es una nueva versión de la IA de Google que…
Las computadoras cuánticas difieren fundamentalmente de las clásicas. En lugar de utilizar bits (0 y…