La empresa de inteligencia artificial DeepMind afirma que ha desarrollado una forma de aprovechar la creatividad de los chatbots para resolver problemas matemáticos y al mismo tiempo filtrar errores.
Google DeepMind afirma haber realizado el primer descubrimiento científico con un chatbot de IA al crear un verificador de hechos para filtrar resultados inútiles, dejando solo soluciones confiables a problemas matemáticos o informáticos.
Los logros anteriores de DeepMind, como el uso de IA para predecir el clima o las formas de las proteínas, se han basado en modelos creados específicamente para la tarea en cuestión, entrenados con datos precisos y específicos.
En cambio, los modelos de lenguajes grandes (LLM), como GPT-4 y Gemini de Google, se entrenan con grandes cantidades de datos variados para crear una variedad de capacidades.
Pero ese enfoque también los hace susceptibles a las “alucinaciones”, un término que los investigadores utilizan para producir resultados falsos.
Gemini, que se estrenó a principios de este mes, ya ha demostrado una propensión a las alucinaciones, equivocándose incluso en hechos simples como los ganadores de los Oscar de este año.
El anterior motor de búsqueda de Google, basado en inteligencia artificial, incluso cometió errores en el material publicitario de su propio lanzamiento.
Una solución común para este fenómeno es agregar una capa encima de la IA que verifique la precisión de sus resultados antes de pasárselos al usuario.
Pero crear una red de seguridad integral es una tarea enormemente difícil dada la amplia gama de temas sobre los que se puede preguntar a los chatbots.
Alhussein Fawzi de Google DeepMind y sus colegas han creado un LLM generalizado llamado FunSearch basado en el modelo PaLM2 de Google con una capa de verificación de hechos, al que llaman “evaluador”.
El modelo se limita a proporcionar código informático que resuelva problemas de matemáticas e informática, lo que, según DeepMind, es una tarea mucho más manejable porque estas nuevas ideas y soluciones son inherente y rápidamente verificables.
La IA subyacente aún puede alucinar y proporcionar resultados inexactos o engañosos, pero el evaluador filtra los resultados erróneos y deja solo conceptos confiables y potencialmente útiles.
“Creemos que quizás el 90 por ciento de los resultados del LLM no será útil“, dice Fawzi.
“Dada una solución candidata, es muy fácil para mí decir si realmente es una solución correcta y evaluarla, pero encontrar una solución es realmente difícil.
Por eso las matemáticas y la informática encajan especialmente bien”.
DeepMind afirma que el modelo puede generar nuevos conocimientos e ideas científicos, algo que los LLM no han hecho antes.
Para empezar, a FunSearch se le proporciona un problema y una solución muy básica en el código fuente como entrada, luego genera una base de datos de nuevas soluciones cuya precisión el evaluador verifica.
Las mejores soluciones confiables se devuelven al LLM como aportes con un mensaje pidiéndole que mejore las ideas.
DeepMind dice que el sistema produce millones de soluciones potenciales, que eventualmente convergen en un resultado eficiente, superando a veces la solución más conocida.
Para problemas matemáticos, el modelo escribe programas de computadora que pueden encontrar soluciones en lugar de intentar resolver el problema directamente.
Fawzi y sus colegas desafiaron a FunSearch a encontrar soluciones al problema del conjunto de límites, que implica determinar patrones de puntos donde no hay tres puntos que formen una línea recta.
El problema se vuelve rápidamente más intensivo desde el punto de vista computacional a medida que crece el número de puntos.
La IA encontró una solución que consta de 512 puntos en ocho dimensiones, más grande que cualquier otra conocida anteriormente.
Cuando se le encomendó el problema del embalaje en contenedores, cuyo objetivo es colocar de manera eficiente objetos de diversos tamaños en contenedores, FunSearch encontró soluciones que superan a los algoritmos comúnmente utilizados, un resultado que tiene aplicaciones inmediatas para las empresas de transporte y logística.
DeepMind dice que FunSearch podría conducir a mejoras en muchos más problemas matemáticos e informáticos.
Mark Lee, de la Universidad de Birmingham, Reino Unido, dice que los próximos avances en IA no provendrán de ampliar los LLM a tamaños cada vez mayores, sino de agregar capas que garanticen la precisión, como lo ha hecho DeepMind con FunSearch.
“El punto fuerte de un modelo de lenguaje es su capacidad para imaginar cosas, pero el problema son las alucinaciones“, dice Lee.
“Y esta investigación está resolviendo ese problema: lo está controlando o verificando los hechos. Es una buena idea”.
Lee dice que las IA no deberían ser criticadas por producir grandes cantidades de resultados inexactos o inútiles, ya que esto no es diferente de la forma en que operan los matemáticos y científicos humanos: generando una lluvia de ideas, probándolas y haciendo un seguimiento de las mejores mientras se descartan las peores.
Fuente: New Scientist