Categorías: Tecnología

NVIDIA lanza su nuevo modelo de lenguaje inteligencia artificial masivo y de código abierto

Comparta este Artículo en:

NVIDIA ya es la reina en hardware de IA. Ahora va a por GPT-4 y Llama y lanza su propio LLM “Open Source“.

Su nueva familia de modelos multimodales competirá con GPT-4o o Gemini, pero lo hará especialmente con Llama 3.

En el segmento de la IA hay dos grandes carreras, la del hardware y la del software.

En la del hardware reina NVIDIA, que con sus GPUs para centros de datos, como las célebres H100 o las nuevas B200, se ha convertido en dueña y señora de este mercado.

En el terreno del software la cosa está más disputada.

Los grandes modelos de lenguaje (LLM) son aquí absolutos protagonistas, y son varias las empresas que destacan.

OpenAI lo hace con GPT-4o actualmente, pero tenemos también a Anthropic con Claude 3.5, Google con Gemini o Meta con Llama, entre otros protagonistas.

A todos ellos les ha salido un nuevo competidor: NVIDIA.

La empresa parece no conformarse con dominar en el segmento del hardware, y ahora quiere competir también con su propio LLM, al que ha bautizado como NVLM 1.0. 

En realidad NVLM 1.0 es una familia de LLMs multimodales que según la compañía ofrecen resultados especialmente destacables en los ámbitos de la visión y el lenguaje, rivalizando con otros modelos como GPT-4o.

NVLM 1.0 cuenta con un modelo de 72.000 millones de parámetros (NVLM-D-72B) que es el más capaz y ambicioso de la familia por el momento y que según NVIDIA es capaz de comportarse mejor que Llama 3 405B (un modelo mucho mayor) en diversas pruebas de rendimiento.

Estamos además ante un modelo “Open Source” de pesos abiertos, y los responsables de su desarrollo prometen publicar el código utilizado para entrenar el modelo, algo que será especialmente útil para desarrolladores que quieran utilizarlo para sus propios proyectos y ‘forks’.

NVLM-D-72B, no estaría de más bautizarlo con un nombre más sencillo, es prometedor a la hora de analizar entradas visuales y de texto: es capaz de interpretar memes o analizar imágenes, pero también resolver problemas matemáticos paso a paso.

Lo hace, como explica NVIDIA, aplicando esas versátiles capacidades multimodales al “usar OCR, razonamiento, localización, sentido común, conocimiento del mundo y capacidad para programar“.

Estamos pues ante un nuevo e interesante rival que lo es más por venir de donde viene.

Queda por ver la evolución y futuro desarrollo del modo, pero desde luego esa decisión de ofrecerlo de forma abierta hace que compita directamente con Llama y se postule como una alternativa especialmente interesante para desarrolladores.

Fuente: arXiv

 

Editor PDM

Entradas recientes

Mano robótica capaz de manipular objetos

Recientemente, Sanctuary AI presentó su mano robótica que ahora es capaz de manipular objetos. (more…)

3 days hace

Robots atraviesan entornos complejos sin sensores adicionales ni entrenamiento previo en terrenos difíciles

Especialistas en robótica de la Universidad de Leeds y el University College de Londres han…

3 days hace

Rompiendo barreras: IA para interpretar el lenguaje de señas americano en tiempo real

El lenguaje de señas es un medio de comunicación sofisticado y vital para las personas…

3 days hace

Dispositivo ayuda a personas con discapacidad visual a realizar tareas de localización tan bien como las personas videntes

Según un nuevo estudio dirigido por el Imperial College, una tecnología de navegación que utiliza…

3 days hace

Google lanza una versión de Gemini 2.0 capaz de razonar

Gemini 2.0 Flash Thinking Experimental es una nueva versión de la IA de Google que…

3 days hace

El siguiente paso de la computación cuántica: un nuevo algoritmo potencia la multitarea

Las computadoras cuánticas difieren fundamentalmente de las clásicas. En lugar de utilizar bits (0 y…

4 days hace
Click to listen highlighted text!