Categorías: Tecnología

NVIDIA lanza su nuevo modelo de lenguaje inteligencia artificial masivo y de código abierto

Comparta este Artículo en:

NVIDIA ya es la reina en hardware de IA. Ahora va a por GPT-4 y Llama y lanza su propio LLM “Open Source“.

Su nueva familia de modelos multimodales competirá con GPT-4o o Gemini, pero lo hará especialmente con Llama 3.

En el segmento de la IA hay dos grandes carreras, la del hardware y la del software.

En la del hardware reina NVIDIA, que con sus GPUs para centros de datos, como las célebres H100 o las nuevas B200, se ha convertido en dueña y señora de este mercado.

En el terreno del software la cosa está más disputada.

Los grandes modelos de lenguaje (LLM) son aquí absolutos protagonistas, y son varias las empresas que destacan.

OpenAI lo hace con GPT-4o actualmente, pero tenemos también a Anthropic con Claude 3.5, Google con Gemini o Meta con Llama, entre otros protagonistas.

A todos ellos les ha salido un nuevo competidor: NVIDIA.

La empresa parece no conformarse con dominar en el segmento del hardware, y ahora quiere competir también con su propio LLM, al que ha bautizado como NVLM 1.0. 

En realidad NVLM 1.0 es una familia de LLMs multimodales que según la compañía ofrecen resultados especialmente destacables en los ámbitos de la visión y el lenguaje, rivalizando con otros modelos como GPT-4o.

NVLM 1.0 cuenta con un modelo de 72.000 millones de parámetros (NVLM-D-72B) que es el más capaz y ambicioso de la familia por el momento y que según NVIDIA es capaz de comportarse mejor que Llama 3 405B (un modelo mucho mayor) en diversas pruebas de rendimiento.

Estamos además ante un modelo “Open Source” de pesos abiertos, y los responsables de su desarrollo prometen publicar el código utilizado para entrenar el modelo, algo que será especialmente útil para desarrolladores que quieran utilizarlo para sus propios proyectos y ‘forks’.

NVLM-D-72B, no estaría de más bautizarlo con un nombre más sencillo, es prometedor a la hora de analizar entradas visuales y de texto: es capaz de interpretar memes o analizar imágenes, pero también resolver problemas matemáticos paso a paso.

Lo hace, como explica NVIDIA, aplicando esas versátiles capacidades multimodales al “usar OCR, razonamiento, localización, sentido común, conocimiento del mundo y capacidad para programar“.

Estamos pues ante un nuevo e interesante rival que lo es más por venir de donde viene.

Queda por ver la evolución y futuro desarrollo del modo, pero desde luego esa decisión de ofrecerlo de forma abierta hace que compita directamente con Llama y se postule como una alternativa especialmente interesante para desarrolladores.

Fuente: arXiv

 

Editor PDM

Entradas recientes

Logran convertir cualquier brazo robot en una impresora 3D de metal

Plantear la compra de una impresora 3D es muy interesante si tienes el dinero, las…

9 mins hace

Desarrollan un microprocesador flexible, programable y sin silicio que requiere sólo 6 mW de potencia

Un equipo de ingenieros de microchips de Pragmatic Semiconductor, en colaboración con un par de…

10 mins hace

Robots ahora pueden mapear una escena e identificar objetos para completar una serie de tareas

Imagínese tener que ordenar una cocina desordenada, empezando por una encimera llena de paquetes de…

11 mins hace

Mujer recupera la producción de insulina tras innovador trasplante de células madre

Un innovador trasplante de células madre ha permitido a una paciente con diabetes tipo 1…

12 mins hace

Crean una pequeña batería nuclear miles de veces más eficiente que sus predecesoras

Un equipo de físicos e ingenieros afiliados a varias instituciones en China ha desarrollado una…

1 day hace

Crean la batería con la carga más rápida del mundo: 200 km de autonomía en 5 minutos

SAIC y General Motors han creado junto a CATL una nueva batería con multiplicador 6C,…

1 day hace
Click to listen highlighted text!