Categorías: Tecnología

Inteligencia artificial tan pequeña que puede ejecutarse en su viejo computador

Comparta este Artículo en:
FacebookFacebookTwitterTwitterEmailEmailWhatsAppWhatsAppShareShare

Hugging Face presentó dos nuevos modelos de IA capaces de analizar texto, imágenes y videos cortos.

Si bien estas funciones son habituales de otros modelos de lenguaje, la característica que distingue a estos es su tamaño.

Hugging Face reveló que se trata de los modelos de IA más pequeños del mundo.

Según informa la compañía, SmolVLM-256M y SmolVLM-500M dos nuevos modelos de visión-lenguaje (VLM) dirigidos a entornos con recursos limitados.

Estos modelos priorizan la eficiencia computacional, logrando un rendimiento multimodal con un número de parámetros significativamente reducido.

En términos prácticos, un computador con menos de 1 GB de RAM sería capaz de ejecutarlos, ofreciendo una solución más rentable.

SmolVLM-256M, con 256 millones de parámetros, se presenta como el VLM más pequeño hasta la fecha.

Pese a su tamaño, el modelo es capaz de ejecutar varias tareas multimodales, como describir imágenes o videos cortos, responder preguntas sobre un documento PDF o texto escaneado y llevar a cabo un razonamiento visual básico en gráficos y diagramas.

Su hermano, SmolVLM-500M, utiliza 500 millones de parámetros, ofreciendo un aumento de rendimiento sin dejar de ser relativamente pequeño.

De acuerdo con Hugging Face, su desempeño en pruebas de razonamiento visual de documentos (DocVQA) y comprensión y razonamiento multimodal (MMMU) se acerca al de modelos mucho más grandes.

Un cambio arquitectónico clave en estos modelos es la selección del codificador de visión.

Hugging Face señala que los nuevos modelos utilizan un codificador más pequeño, con 93 millones de parámetros, que reduce la carga computacional en el modelo sin sacrificar el rendimiento.

Además, los modelos se inspiraron en la investigación de Apple y Google y procesan imágenes a una resolución más alta, lo cual mejora la comprensión con un costo computacional mínimo.

SmolVLM-256M y SmolVLM-500M se entrenaron utilizando The Cauldron, una colección de 50 conjuntos de datos de imagen y texto, y Docmatix, un conjunto de documentos escaneados con sus correspondientes subtítulos.

Este entrenamiento enfocado en datos de alta calidad contribuye al rendimiento de los modelos en tareas específicas, como DocVQA.

Hugging Face informa que tanto SmolVLM-256M como SmolVLM-500M demuestran un rendimiento competitivo en pruebas para interpretar diagramas científicos de nivel escolar.

Si bien su desempeño es notable, los modelos requieren un ajuste adicional y no están al nivel de otros modelos más grandes.

Pese a que estos modelos más pequeños ofrecen ventajas en términos de eficiencia y costo, su tamaño acarrea ciertas limitaciones.

Un estudio llevado a cabo en octubre de 2024 por el Instituto Mila, Google DeepMind y Microsoft Research encontró que los modelos de lenguaje pequeños tienen dificultades para resolver problemas matemáticos de nivel básico.

Los científicos crearon una prueba que combina dos problemas (GSM), enlazando la respuesta del primero como variable en el segundo.

Los resultados arrojaron que los modelos más pequeños y baratos no son capaces de realizar tareas de razonamiento complejas.

“Si bien los modelos más pequeños a menudo obtienen puntajes similares a los más grandes en pruebas de matemáticas estándar, muestran una brecha lógica de 2 a 12 veces mayor en la nueva prueba GSM composicional“, indica el estudio.

“Por ejemplo, GPT-4o mini queda muy por detrás de GPT-4o en la nueva prueba, a pesar de estar a punto de igualarlo en el benchmark original”.

Los modelos SmolVLM-256M y SmolVLM-500M están disponibles para su descarga desde Hugging Face bajo la licencia Apache 2.0, lo que permite un uso sin restricciones.

También son compatibles con varias plataformas, incluyendo Transformers, MLX y ONNX, con demostraciones disponibles para Transformers y WebGPU usando ONNX.

Fuente: Hugging Face

 

Editor PDM

Entradas recientes

Microsoft presenta el Majorana 1, su primer chip cuántico

Microsoft anunció el Majorana 1, el primer chip cuántico impulsado por un topoconductor que produce…

1 day hace

Inventan dispositivo que se conecta al tubo de escape del automóvil y transforma el humo en electricidad

Los motores de combustión de los automóviles a gasolina pueden producir mucha energía quemando dinosaurios…

1 day hace

Meta ha creado dispositivo que permite producir texto solo pensando lo que se quiere decir

Investigadores de Meta utilizaron un escáner cerebral de última generación y un modelo de inteligencia…

1 day hace

Logran reconectar la médula espinal totalmente seccionada de una rata gracias a espumas de grafeno

Científicos han conseguido reconectar, en una rata a modo de prueba de lo que quizá…

1 day hace

Almacenan terabytes de datos en un cubo de cristal milimétrico

Ingenieros logran un avance revolucionario en microelectrónica, inspirado en principios cuánticos: desarrollan un método para…

1 day hace

Inteligencia artificial capaz de generar gráficos y gameplay para videojuegos

El nuevo modelo de lenguaje es capaz de generar imágenes, simular entradas y producir secuencias…

2 days hace
Click to listen highlighted text!