Los modelos de lenguaje grande (LLM, por sus siglas en inglés), como la famosa plataforma de conversación ChatGPT de Open AI, se han vuelto cada vez más comunes y muchos usuarios de Internet confían en ellos para encontrar información rápidamente y producir textos para diversos fines.
Sin embargo, la mayoría de estos modelos funcionan significativamente mejor en computadoras, debido a las altas demandas computacionales asociadas con su tamaño y capacidades de procesamiento de datos.
Para abordar este desafío, los científicos informáticos también han estado desarrollando modelos de lenguaje pequeño (SLM, por sus siglas en inglés), que tienen una arquitectura similar pero son más pequeños.
Estos modelos podrían ser más fáciles de implementar directamente en teléfonos inteligentes, lo que permitiría a los usuarios consultar plataformas similares a ChatGPT con mayor facilidad a diario.
Investigadores de la Universidad de Correos y Telecomunicaciones de Beijing (BUPT, por sus siglas en inglés) presentaron recientemente PhoneLM, una nueva arquitectura SLM para teléfonos inteligentes que podría ser eficiente y de alto rendimiento.
Su arquitectura propuesta fue diseñada para lograr una eficiencia de tiempo de ejecución casi óptima antes de someterse a un entrenamiento previo con datos de texto.
“El objetivo de nuestro reciente proyecto era explorar el espacio de diseño de LLM para una implementación eficiente en el uso de recursos en dispositivos móviles“, dijo Mangwei Xu, autor principal del artículo.
“Anteriormente, el desarrollo de LLM seguía el proceso de diseñar y entrenar previamente el LLM para lograr una buena capacidad (es decir, precisión) y luego optimizarlo en la etapa posterior al entrenamiento, por ejemplo, cuantificación y poda.
Nuestros experimentos, por otro lado, indican que las configuraciones de LLM (por ejemplo, ancho y profundidad) tienen más impacto en la eficiencia del tiempo de ejecución que en la capacidad”.
El modelo presentado por Xu y sus colegas se basa en un principio de diseño innovador que prioriza la eficiencia.
A diferencia de otros SLM existentes, se basa en una llamada búsqueda de arquitectura antes del entrenamiento previo, que implica buscar una arquitectura que funcione de manera más eficiente en el hardware en el que se pretende implementar antes de la etapa de entrenamiento previo.
“PhoneLM sigue una arquitectura LLM estándar“, dijo Xu.
“Lo que lo hace único es cómo está diseñado: buscamos los hiperparámetros de la arquitectura (por ejemplo, ancho, profundidad, número de cabezales, etc.) en un hardware determinado (un teléfono inteligente de alta gama), elegimos la configuración con la mayor velocidad de inferencia y luego lo entrenamos previamente con datos de alta calidad”.
En las pruebas iniciales en dispositivos inteligentes, el modelo desarrollado por este equipo de investigadores funcionó notablemente bien, funcionando extremadamente rápido en comparación con otros LLM con un tamaño de parámetro similar.
Cabe destacar que esta mejora en la velocidad no comprometió significativamente su rendimiento, ya que el modelo aún logró capacidades de procesamiento de lenguaje natural (NLP) de última generación.
“Los hiperparámetros de la arquitectura concreta del decodificador de transformadores tienen un mayor impacto en la eficiencia del tiempo de ejecución que en la capacidad del lenguaje“, dijo Xu.
“Por lo tanto, trasladaremos la consideración de la eficiencia de inferencia en el dispositivo por delante del entrenamiento previo”.
Los investigadores publicaron tanto el código como una demostración de Android de extremo a extremo de una versión optimizada de PhoneLM, publicando ambos en GitHub.
El nuevo modelo de lenguaje para teléfonos inteligentes podría mejorarse y probarse más a fondo para facilitar su futura implementación en dispositivos disponibles comercialmente.
“Ahora continuaremos con el desarrollo de una familia PhoneLM más avanzada, por ejemplo, integrando una combinación de expertos y funciones multimodales“, agregó Xu.
“También estamos explorando el desarrollo de un agente móvil (es decir, un asistente virtual) habilitado para LLM en el dispositivo”.
Fuente: arXiv
Los modelos de IA generativa como ChatGPT se entrenan con grandes cantidades de datos obtenidos…
El kit para desarrolladores NVIDIA Jetson Orin Nano Super está diseñado tanto para aficionados como…
Google ha presentado Veo 2, una IA que supera a Sora al generar videos realistas…
La nueva IA de Google es capaz de generar diseños de cualquier tipo sin necesidad…
Han pasado casi cinco meses desde el lanzamiento de SearchGPT. La prometedora función de búsqueda…
En los últimos años, los ingenieros han intentado crear sistemas de hardware que soporten mejor…