Los modelos de IA generativa como ChatGPT nos inundan, pero para usarlos la inmensa mayoría de usuarios acuden a la nube, donde potentes servidores procesan nuestras peticiones y realizan los complejos cálculos necesarios para respondernos como lo hacen.
El problema es precisamente ese. Dependemos de la nube para usar los ChatGPTs del mundo, pero eso puede cambiar a corto plazo, y Microsoft es una de las que se ha posicionado para lograrlo.
Microsoft acaba de lanzar la nueva iteración de su modelo “ligero” de IA, llamado Phi-3 Mini.
Se trata de la versión 3.8B, esto es, con 3.800 millones de parámetros: cuantos más usa un modelo, más complejo y potente puede ser.
Normalmente reducir ese número de parámetros perjudica la precisión y capacidad del chatbot, pero Microsoft afirma que Phi-3 se comporta mejor que Phi-2, presentado en diciembre de 2023, y puede proporcionar respuestas similares a como lo haría un modelo 10 veces más grande.
Este modelo es en realidad parte de una familia de modelos ligeros, y la firma se está preparando para publicar otros dos algo más grandes, Phi-3 Small (7B) y Phi-3 Medium (14B).
Con ellos aumenta la capacidad y potencia, pero aún no se sabe qué capacidad real ofrecerán y cuál será el caso de uso perfecto para aprovecharlos.
Eric Boyd, vicepresidente de Microsoft Azure AI Platform, explica que Phi-3 es tan capaz como LLMs como GPT-3.5, que precisamente es el que usamos gratuitamente cuando utilizamos ChatGPT.
“Simplemente funciona en un factor de tamaño más pequeño”, asegura Boyd.
El objetivo de este modelo, como el de su predecesor, es demostrar que es factible ofrecer un modelo de IA lo suficientemente pequeño para poder ser ejecutado en el hardware de nuestros smartphones y que aún así el rendimiento y la experiencia de usuario sea bueno.
Y no solo en ese hardware, porque también está habilitado para correr en pequeños servidores o en nuestros PCs y portátiles.
Los investigadores probaron Phi-3 en un iPhone con un SoC Apple A16.
Ese chip ha sido usado en los iPhone 14 Pro/Max, y también en los iPhone 15 y 15 Plus.
Con ese hardware Phi-3 era capaz de generar texto a 12 tokens por segundo, una cifra que sin ser espectacular, sobre todo si queremos respuestas largas, es llamativa.
Gemini Nano fue el primer gran protagonista de esa hornada de “modelos de IA para móviles“, pero pronto le siguieron tanto Phi-2 como modelos especializados como Google Gemma 2B y 7B, Claude 3 Haiku e incluso el recientemente lanzado Llama 3 8B de Meta.
Una de las curiosidades del modelo es cómo ha sido entrenado.
En Microsoft se inspiraron en la forma en la que los niños aprenden con los cuentos que se les leen antes de irse a dormir, y quisieron entrenar a Phi-3 con libros con palabras más simples y estructuras sencillas que hablaran de temas variados.
Según Boyd “No hay suficientes libros infantiles, así que tomamos una lista de más de 3.000 palabras y pedimos a un LLM que creara “libros infantiles” para enseñar a Phi[-3]“.
Mientras que Phi-1 se centraba en la programación y Phi-2 a razonar, Phi-3 hace ambas cosas mejor que sus predecesores.
No puede competir con GPT-4, que está entrenado de forma mucho más ambiciosa, pero puede ser muy útil que por ejemplo quieran utilizarlo con subconjuntos de datos internos y que además consumen muchos menos recursos.
Microsoft plantea este modelo como una alternativa a los grandes modelos actuales que son ambiciosos y más precisos, pero que también obligan a consumos energéticos importantes.
Con Phi-3 una empresa o un particular podría ejecutar el local sus interacciones con el chatbot y que las respuestas, sin ser tan precisas o completas, sean suficientemente buenas para esos casos de uso.
El ahorro en hardware y energía necesarios se une a su ventaja fundamental: no depender de la nube.
Fuente: arXiv