Crean IA tan buena como las de OpenAI y DeepSeek por 50 dólares

Crean IA tan buena como las de OpenAI y DeepSeek por 50 dólares

Comparta este Artículo en:

El costo del entrenamiento de los modelos de inteligencia artificial (IA) más avanzados está en el punto de mira. Y es comprensible que sea así.

La irrupción del modelo de la compañía china DeepSeek, que presumiblemente tiene un costo de entrenamiento moderado, ha puesto en entredicho la estrategia y las inversiones desplegadas hasta ahora por OpenAI, Google o Microsoft, entre otras compañías.

Los responsables de DeepSeek sostienen que la infraestructura que han utilizado para entrenar su modelo aglutina 2.048 chips H800 de NVIDIA.

Y también que este proceso con 671.000 millones de parámetros ha costado 5,6 millones de dólares.

Sin embargo, algunos analistas defienden que estas cifras no reflejan la realidad.

El informe elaborado por SemiAnalysis sostiene que, en realidad, la infraestructura empleada por DeepSeek para entrenar su modelo de IA aglutina aproximadamente 50.000 GPU de NVIDIA con microarquitectura Hopper.

Según Dylan Patel, AJ Kourabi, Doug O’Laughlin y Reyk Knuhtsen, al menos 10.000 de estos chips son GPU H100 de NVIDIA, y como mínimo otros 10.000 son GPU H800. Los chips restantes, según estos analistas, son las GPU recortadas H20.

Ahora un grupo de investigadores de la Universidad Stanford y la Universidad de Washington, ambas en EEUU, publicó un texto en el que asegura haber logrado entrenar un modelo de IA con capacidad de razonamiento y unas prestaciones equiparables a las de los modelos o1 de OpenAI o R1 de DeepSeek afrontando una inversión de algo menos de 50 dólares.

Con ese dinero a priori es absolutamente inviable entrenar un modelo de inteligencia artificial.

Y menos uno avanzado y capaz de competir de tú a tú con los de OpenAI o DeepSeek.

Sin embargo, es cierto. Para entender cómo lo han logrado es necesario que indaguemos en la estrategia que han ideado.

Por un lado, esos 50 dólares representan el costo del alquiler de la infraestructura de computación en la nube a la que han recurrido para llevar a cabo el entrenamiento.

Tiene sentido si el tiempo invertido es muy moderado.

Pero hay algo más. Algo muy importante.

Su modelo de razonamiento, al que han llamado s1, ha sido elaborado a partir del modelo de inteligencia artificial gratuito Qwen2.5-32B desarrollado por el laboratorio chino Qwen, que pertenece a Alibaba.

Y su proceso de razonamiento está inspirado en el modelo Gemini 2.0 Flash Thinking Experimental de Google.

No han partido de cero en absoluto. El modelo s1 está disponible en GitHub junto con los datos y el código utilizados por estos científicos para entrenarlo.

Por otro lado, el proceso de entrenamiento duró menos de 30 minutos empleando tan solo 16 chips H100 de NVIDIA pertenecientes a la red de computación en la nube utilizada por estos investigadores.

De aquí sale el costo de algo menos de 50 dólares.

No obstante, hay otro dato que merece la pena que no pasemos por alto: el modelo de razonamiento de s1 ha sido generado mediante destilación del modelo Gemini 2.0 Flash Thinking Experimental.

La destilación es, a grandes rasgos, una técnica de aprendizaje automático que permite transferir la base de conocimiento de un modelo grande y avanzado a otro mucho más pequeño y eficiente.

Esta estrategia permite ahorrar muchísimos recursos, aunque no sirve para crear modelos desde cero.

Más allá de los cacareados 50 dólares de costo lo realmente importante es que, como acabamos de comprobar, es posible poner a punto modelos de IA muy competitivos afrontando una inversión mucho más medida que las realizadas por las grandes compañías de tecnología hasta ahora.

Fuente: arXiv

 

Leave a Reply

Your email address will not be published. Required fields are marked *