Un laboratorio de investigación chino llamado DeepSeek ha lanzado DeepSeek-R1. Se trata del primer modelo de IA capaz de competir con o1, de OpenAI, a la hora de “razonar”.
Ese razonamiento, como en el caso de o1, se basa en que el modelo no contesta inmediatamente, y en lugar de eso revisa varias potenciales respuestas para elegir la más adecuada.
Eso lleva tiempo, y obliga a que como ocurre en o1 el usuario tenga que esperar algo más de tiempo (incluso decenas de segundos, en el caso de DeepSeek-R1) para obtener esa respuesta.
Según las pruebas de rendimiento a las que ha sido sometido el modelo chino, su comportamiento es comparable a o1, el modelo que OpenAI lanzó en septiembre de 2024.
Aun así, quienes han tenido acceso a DeepSeek revelan que lo pasa mal con problemas lógicos o incluso con juegos tan sencillos como el tres en raya, algo que también suele ser un reto para o1, que tiene sus propias limitaciones.
No solo eso: DeepSeek-R1 puede ser “engañado” y es posible usar técnicas de jailbreaking para obtener respuestas que se saltan las barreras de seguridad teóricamente creadas para evitar que genere contenidos tóxicos.
En otras pruebas realizadas se vio cómo el modelo se disculpa y no contesta si el usuario trata de pedirle opiniones sobre la situación política en China.
Es probable que el gobierno chino haya hecho presión para vetar tal tipo de interacción, y según Financial Times sus responsables disponen de mecanismos censores para que estos chatbots se alineen con los valores y políticas del país.
La startup está financiada por High-Flyer Capital Management, un fondo de inversión chino que usa IA para tomar decisiones a la hora de invertir.
Esta firma cuenta con sus propios clusters de servidores para entrenar modelos de IA, y el más reciente cuenta con 10.000 GPUs NVIDIA A100 con un costo de unos 138 millones de dólares.
El objetivo de High-Flyer es, como el de las grandes protagonistas de IA en EEUU, lograr desarrollar una AGI a través del trabajo de DeepSeek.
Una curiosidad más: los responsables de DeepSeek han anunciado su intención de publicar este modelo como Open Source y ofrecer una API.
El desarrollo de DeepSeek-R1 demuestra cómo China está avanzando a un ritmo notable en este ámbito.
La startup de hecho lanzó un modelo llamado DeepSeek-V2 hace unos meses, y eso obligó a que competidores locales como ByteDance, Baidu o Alibaba recortaran el precio de uso de sus modelos, mientras que otros acabaron siendo gratuitos.
Fuente: TechCrunch