Resolver preguntas matemáticas y científicas no solo es procesar lenguaje, sino que requiere analizar enunciados, notación matemática, aplicación de fórmulas y uso de símbolos.
Es complejo, sin duda, pero investigadores de Google han publicado el que, dicen, es un “modelo de lenguaje capaz de resolver cuestiones matemáticas y científicas mediante el razonamiento paso a paso“.
Su nombre: Minerva.
Según explican Ethan Dyer y Guy Gur-Ari, Minerva resuelve problemas de razonamiento cuantitativo generando soluciones que incluyen cálculos numéricos y manipulación simbólica sin depender de herramientas externas, como una calculadora.
El modelo analiza y responde a las preguntas matemáticas combinando lenguaje natural y notación matemática, de forma que el resultado es una explicación completa y entendible del problema.
Para muestra el problema bajo estas líneas, aunque en GitHub se pueden encontrar otros tantos de diferentes ámbitos.
Minerva está basado en PaLM (Pathaways Language Model), al cual se ha sumado un entrenamiento adicional consistente en 118 GB de artículos científicos de arXiv y páginas webs que contienen expresiones matemáticas en LaTeX y MathJax, entre otros formatos.
Básicamente, el modelo ha aprendido a “conversar utilizando la notación matemática estándar“, según los investigadores.
El funcionamiento, por lo demás, es bastante similar a otros modelos del lenguaje: se generan varias soluciones y Minerva asigna probabilidades a los distintos resultados.
Todas las soluciones llegan (casi siempre) a la misma respuesta, pero con pasos distintos.
Lo que hace el modelo es usar la votación por mayoría para elegir el resultado más común y darlo como respuesta final.
En la imagen superior, puede verse el resultado de Minerva en diferentes benchmarks STEM (Math, MMLU-STEM y GSM8k).
De acuerdo con Google, “Minerva obtiene resultados de vanguardia, a veces con un amplio margen”.
Sin embargo, el modelo no es perfecto y también comete errores.
Según detallan desde Google, Minerva se equivoca de vez en cuando, aunque sus errores son “fácilmente interpretables“.
En palabras de los investigadores, “aproximadamente la mitad son errores de cálculo, y la otra mitad son errores de razonamiento, en los que los pasos de la solución no siguen una cadena lógica de pensamiento“.
Otra opción es que el modelo consiga la respuesta correcta con un razonamiento defectuoso (falso positivo).
A continuación hay un par de ejemplos.
Finalmente, los investigadores señalan que el modelo tiene algunas limitaciones, como que las respuestas del modelo no pueden ser verificadas automáticamente.
El motivo es que Minerva genera respuestas usando lenguaje natural y expresiones matemáticas LaTeX, “sin una estructura matemática subyacente explícita“.
Fuente: Google