La compañía ha presentado la GPU que sucederá a su exitosa NVIDIA H100 presente en los centros de datos más avanzados de Microsoft.
Amazon, Google y Oracle esperan incorporar el nuevo hardware el año que viene y así entrenar nuevos modelos de IA.
La firma estadounidense tiene una línea de productos enfocada en la computación de alto rendimiento que ha crecido notablemente con el auge de la inteligencia artificial (IA).
En la actualidad, los dirigidos por Jen-Hsun Huang son los líderes de este mercado.
Si una compañía necesita entrenar modelos de IA es muy posible que opte por el hardware de NVIDIA.
Ahora, aparentemente con el objetivo de mantener esta posición de liderazgo, el fabricante acaba de anunciar una nueva GPU para IA: la NVIDIA H200.
Cada vez que utilizamos ChatGPT Plus o Bing Chat, por mencionar un ejemplo, estamos beneficiándonos de las capacidades de GPT-4, un modelo entrenado en los centros de datos de Microsoft Azure equipados con potentes gráficas NVIDIA A100 y NVIDIA H100.
El anuncio de este lunes trae la evolución de esta última.
Estamos frente a una GPU de arquitectura Hopper con 141 GB de VRAM HBM3E (la primera en alcanzar tal capacidad) con un ancho de banda de hasta 4,8TB/s.
Lo que ha hecho NVIDIA es dar un salto notable en relación a la generación anterior.
La H100 tiene 80 GB de VRAM HBM3E con un ancho de banda de 3,35TB/s.
A nivel de rendimiento, la NVIDIA H200 bajo la interfaz SXM promete alcanzar 3,958 teraFLOPS en FP8 (punto flotante de 8 bits para Transformer Engine).
¿En qué se traduce esto? Al menos sobre el papel, en el doble de rendimiento el tareas de inferencia en modelos largos de lenguaje (LLM) tan utilizados hoy en relación a la H100.
En concreto, las pruebas con la nueva GPU para IA señalan que las tareas de inferencia en Llama 2 70B pueden realizarse hasta 1,9 veces más rápido.
Lo mismo en GPT-3 175B es de 1,6 veces más rápido.
La inferencia es el momento en el que el modelo compara la consulta de los usuarios con su entrenamiento.
Las mejoras a nivel de ancho de banda se traducirán en reducir los cuellos de botella de escenarios de procesamiento complejos.
Asimismo, abrirá la puerta a mejorar la performance de la tarjeta gráfica en una amplia variedad de tareas exigentes que van más allá de la IA, como las simulaciones.
Recordemos que NVIDIA ofrecerá su solución de hardware H100 de diversas maneras.
Por un lado tenemos la CPU de manera individual, pero también tendremos el sistema HGX H200.
Este es más que la GPU únicamente. Se trata de una solución que integrada varias tecnologías.
La NVIDIA HGX H200 combina la potencia de la GPU en cuestión con las interconexiones de alta velocidad NVLink y NVIDIA InfiniBand para ser aplicada en los centros de datos.
Las NVIDIA HGX H200 llegarán en configuraciones de cuatro y ocho vías y serán compatibles con el hardware existente HGX de las H100.
Por ejemplo, un HGX H200 de ocho vías promete brindar más de 32 petaFLOPS en FP8 y hasta 1,1 TB de memoria con ancho de banda de alto rendimiento.
Estamos frente a una potencia de cálculo descomunal que, combinada con otros sistemas HGX forman supercomputadores capaces de manejar los modelos de IA más grandes.
Divisiones de empresas como Amazon Web Services, Google Cloud, Microsoft Azure y Oracle Cloud Infrastructure ya han reservado sus HGX H200 para alimentar su infraestructura y entrenar los modelos del futuro.
Tendrán que espera para empezar a utilizarlas. NVIDIA empezará a distribuir su nuevo producto el próximo año.
Fuente: Engadget