Una startup china llamada DeepSeek acaba de lanzar DeepSeek V3, un LLM absolutamente gigantesco que está disponible con una licencia MIT “abierta” que permite a los desarrolladores descargarlo de GitHub y modificarlo para diversos escenarios, incluyendo algunos comerciales.
Según las pruebas internas, DeepSeek V3 supera a modelos de IA Open Source como a otros propietarios y que solo pueden usarse a través de una API.
En pruebas como la de programación de Codeforces el modelo chino logró superar a Llama 3.1 405B, a GPT-4o y a Qwen 2.5 72B, aunque todos ellos tienen muchos menos parámetros y eso puede influir en el rendimiento y las comparaciones.
Solo Claude 3.5 Sonnet parece resistir su capacidad, y superó o igualó al modelo chino en varias pruebas.
Según sus responsables, DeepSeek V3 “solo” necesitó 2,788 millones de horas de entrenamiento en 2.048 GPUs H800, las versiones capadas de las H100 de NVIDIA.
Según sus responsables el entrenamiento costó tan solo 5,5 millones de dólares, y se estima que para entrenar GPT-4 OpenAI invirtió cerca de 80 millones de dólares.
Para entrenarlo utilizaron un conjunto de datos (dataset) con 14,8 billones de tokens, una cifra igualmente enorme: un millón de tokens equivale aproximadamente a 750.000 palabras.
Andrej Karpathy, cofundador de OpenAI (desde hace meses fuera de la empresa) se mostró sorprendido por esa eficiencia y reducido costo del entrenamiento.
Meta tenía hasta ahora uno de los modelos de IA más grandes del mercado con 405.000 millones de parámetros (405B).
El modelo de DeepSeek llega a los 671B, casi un 66% más. La pregunta, claro, es si tantos parámetros sirven de algo.
El número de parámetros suele tener una fuerte relación con la capacidad de los modelos.
Los modelos de IA que corren localmente en nuestros PCs o móviles suelen tener muchos menos (3B, 7B, 14B suelen ser sus tamaños) y los que se ejecutan en centros de datos son capaces de ser mucho más grandes y capaces tanto en precisión como en opciones y potencia, como ocurre con DeepSeek V3.
Pero claro, cuanto más grandes son más recursos de computación necesitan para ser usados con cierta fluidez.
DeepSeek V3 hace uso de una arquitectura Mixture-of-Experts que solo activa algunos parámetros de forma óptima para procesar diversas tareas de forma eficiente.
Sus responsables han introducido dos mejoras llamativas en este nuevo modelo.
La primera, una estrategia de balanceo de carga que monitoriza y ajusta la carga en los “expertos“.
La segunda, un sistema de predicción de tokens.
La combinación de ambas permite que la generación de tokens triplique la de DeepSeek V2: ahora llega a 60 tokens por segundo al usar el mismo hardware que su predecesor.
Este nuevo modelo “abierto“ es la última demostración del gran avance que China está haciendo a pesar de los cortapisas de la guerra comercial con Estados Unidos.
Fuente: DeepSeek
La Junta Estatal de Escuelas Charter de Arizona aprobó una solicitud para una academia virtual…
El campo del aprendizaje automático se divide tradicionalmente en dos categorías principales: aprendizaje "supervisado" y…
¿Alguna vez se ha preguntado sobre la rapidez en la que piensa su cerebro? (more…)
Los físicos teóricos coquetean con la idea de unificar la teoría general de la relatividad…
El dispositivo, que no necesita agujas, podría utilizarse para administrar insulina, anticuerpos, ARN u otras…
La empresa, que tiene 200 años de antigüedad, pronto podría salir a bolsa gracias a…