Tras el éxito de ChatGPT, Microsoft ha decidido apostar sus fichas al desarrollo de la inteligencia artificial generativa con un nuevo modelo multimodal.
Tras el éxito de ChatGPT y la inversión millonaria en OpenIA, Microsoft dejó claro que su futuro está ligado a la inteligencia artificial.
La evidencia más reciente es Kosmos-1, un nuevo modelo de IA capaz de analizar imágenes y responder una prueba de IQ.
Según Microsoft, este modelo multimodal allanaría el camino para el desarrollo de una inteligencia artificial general.
Un reporte de ArsTechnica menciona que Microsoft publicó el primer documento de Kosmos-1 en arXiv, el servicio de la Universidad Cornell.
Titulado El lenguaje no es todo lo que necesita: alinear la percepción con los modelos de idiomas, el estudio muestra los resultados de un nuevo modelo de lenguaje extenso multimodal (MLLM).
De acuerdo con los investigadores, la IA puede percibir modalidades generales, aprender en contexto y seguir instrucciones.
Los primeros resultados arrojan que Kosmos-1 se desempeña de manera impresionante en tareas de comprensión y percepción de lenguaje, reconocimiento de imágenes y texto visual, e incluso es capaz de responder una prueba de coeficiente intelectual.
El modelo de IA puede analizar imágenes y responder preguntas sobre ellas, reconoce el texto dentro de ellas y puede subtitularlas.
A diferencia de ChatGPT, Kosmos-1 considera modos de entrada como texto, imágenes, audio y video.
Si bien los modelos LLM, como el desarrollado por OpenAI, han servido como una interfaz de propósito general en varias tareas de lenguaje natural, tienen una desventaja.
La interfaz basada en LLM se puede adaptar a una tarea, siempre que podamos transformar a texto la entrada y la salida.
A pesar de las aplicaciones exitosas en el procesamiento del lenguaje natural, todavía se está luchando por usar los LLM de forma nativa para datos multimodales, como imágenes y audio.
De acuerdo con los investigadores, la IA admite de forma nativa tareas de lenguaje, percepción-lenguaje y visión.
«Kosmos-1 es un modelo de lenguaje multimodal (MML) que puede percibir modalidades generales, seguir instrucciones, aprender en contexto y generar resultados», mencionan.
La IA se entrenó utilizando extractos de The Pile, un conjunto de datos de código abierto de 825 GB destinado a modelos extensos.
De igual modo, Microsoft echó mano de Common Crawl, un gigantesco repositorio de datos de la web.
Tras una fase de entrenamiento y puesta a punta, los ingenieros realizaron una serie de evaluaciones y los resultados son prometedores.
En las pruebas, la IA de Kosmos-1 pudo responder preguntas sobre algunas imágenes, como el tipo de peinado de una deportista, la razón por la que lloraba un niño o por qué era graciosa una foto.
De igual modo realizó operaciones matemáticas simples y reconocimiento de texto y números, como la fecha de estreno en el cartel de una película.
En algunos casos, la IA ofrece más contexto y responde de manera precisa a preguntas de seguimiento.
Tal vez lo más interesante de la evaluación es su desempeño en el test de las matrices progresivas de Raven.
La prueba consiste en analizar y completar una secuencia de formas y se utiliza para medir la inteligencia humana y el razonamiento abstracto.
En el test de Raven, Kosmos-1 respondió correctamente una pregunta el 22 por ciento de las veces, superando la probabilidad aleatoria que es del 17 por ciento.
Los resultados indican que el modelo es capaz de percibir patrones abstractos en un contexto no verbal.
Según los científicos, esta es la primera vez que una IA realiza pruebas de disparo cero en el test de Raven.
Si bien la evaluación todavía está muy lejos de lo que puede obtener un adulto promedio, Kosmos-1 demuestra que los lenguajes multimodales son la clave para el desarrollo de una inteligencia artificial que supere a los humanos.
Microsoft está dando los primeros pasos en la IA general.
Es importante mencionar que Kosmos-1 no tiene relación con ChatGPT.
Los ingenieros han desarrollado este modelo sin la participación de OpenAI y tienen planes de abrirlo a otros desarrolladores por medio de la página de GitHub.
Fuente: ars Technica