Groq no hace LLMs. No tiene un modelo que compita con GPT-4, con PaLM 2 o con Llama 2. Tampoco tiene un chatbot propio que compita con ChatGPT, Gemini o Copilot.
Hace algo muy distinto, pero tan importante como eso… o puede que más.
Groq fabrica chips de inteligencia artificial.
Los llaman Language Processing Units (LPUs), y con ellos logra algo espectacular: permite que la generación de texto de estos chatbots sea muchísimo más rápida que la que se obtiene con cualquier otro chip, incluidas las potentes GPUs de VIDIA.
Jonathon Ross, que inició el proyecto en 2016 y que antes creó el primer Tensor Processig Unit en Google, demostró la capacidad de sus chips hace unos días en una entrevista en la CNN.
En ella explicó cómo Groq hace que las conversaciones, de texto o habladas, con el chatbot resulten mucho más naturales y mucho más atractivas para quien interactúa con las máquinas.
La clave está en la velocidad. Los humanos somos por lo general poco pacientes, y los chatbots tardan en respondernos porque para hacerlo necesitan tener acceso a una capacidad de cálculo enorme.
Hasta ahora las GPUs de NVIDIA eran la mejor opción para obtener conversaciones más o menos fluidas, pero Groq supera a esas GPUs.
Basta con abrir dos ventanas, una con ChatGPT o cualquier otro chatbot en una parte de la pantalla y la demo de Groq en la otra parte.
La velocidad de respuesta del chatbot de Mistral (pero se puede aplicar a cualquier otro) gracias a Groq es sencillamente espectacular.
Hay estudios independientes como el de Artificial Analysis que dejan clara la diferencia: no solo la velocidad es superior, sino que además Groq es más económico.
Así, Groq ofrecía una tasa de 246,79 tokens por segundo con el LLM Llama 2 con un costo de 0,72 dólares por cada millón de tokens.
Usar ese mismo LLM en la infraestructura Microsoft Azure daba 18 tokens por segundo y un costo de 1,6 dólares.
En el ranking de LLMPerf monitorizado por la empresa Anyscale, Groq es 18 veces más rápido en inferencia LLM que los principales proveedores de esta función en la nube.
Estamos pues ante una prometedora revolución no en la precisión o calidad de las respuestas de estos modelos y sus chatbots, sino en la velocidad con la que nos responden.
De repente mantener una conversación puede resultar mucho más natural, y esto plantea implicaciones importantes en ese uso práctico de esta tecnología.
¿Cómo logran los chips de Groq algo así?
“La mayoría de los chips de IA no tienen demasiada memoria disponible.
Es como cuando fabricas carros: necesitas grandes fábricas y un millón de pies cuadrados en líneas de ensamblaje.
Si no tienes ese tipo de edificio, necesitas dividir las líneas de ensamblaje una y otra vez para que ocupen menos.
Eso es lento y lleva mucho tiempo, y eso es lo que pasa con la GPU: tienes que leer de la memoria miles de veces por cada palabra que se genera, como si tuvieras que configurar la línea de ensamblaje una y otra vez [para sacar la pieza necesaria del auto]“.
Aunque los responsables de Groq lógicamente no quieren dar muchos detalles sobre cómo funcionan sus chips, sí que explican en el sitio web oficial de la compañía que “la LPU está diseñada para superar los dos cuellos de botella de los LLM: la densidad de cálculo y el ancho de banda de la memoria“.
La empresa, eso sí, enlaza a estudios premiados de 2020 en los que ya hablaba de procesadores especializados para acelerar tareas de aprendizaje profundo.
Ross explicó que estos chips no están disponibles para usuarios finales.
Al menos, no de momento: la empresa trabaja con compañías que pueden beneficiarse de esta potencia de cálculo en sus centros de datos para luego ofrecer esa velocidad de generación de texto en sus servicios en la nube.
Es de esperar que poco a poco veamos este tipo de solución implantada en chatbots públicamente accesibles, y seguramente, de pago, pero lo interesante es que esto abre la puerta a que efectivamente este tipo de mejora haga que las GPUs de NVIDIA (o AMD, que avanza en este campo) cuenten con al menos una alternativa totalmente especializada en este ámbito.
Y si ha aparecido una, lo lógico es pensar que acabarán apareciendo más y quizás lo hagan con propuestas destinadas a los consumidores.
Fuente: Groq
Una nueva investigación sobre pequeñas partículas magnéticas que flotan en el aire puede ayudar a…
Durante los primeros 300.000 años después del Big Bang, nuestro universo era un lugar caliente…
Las legumbres se caracterizan por su contenido en proteínas vegetales, fibra, hidratos de carbono, vitaminas…
Un avance pionero en energía solar ha impulsado el desarrollo de la célula solar de…
Los nuevos MacBook Air 13" M3 y 15" M3 mantienen todo lo bueno que tenían,…
Claude 3 es multimodal y puede absorber 150.000 palabras por consulta. (more…)