Un equipo formado por dos nuevos sistemas de IA obtiene un punto menos que la medalla de oro en un concurso mundial de matemáticas para estudiantes superdotados.
Aunque las computadoras fueron creadas para hacer matemáticas más rápido de lo que cualquier humano podría hacer, el nivel más alto de las matemáticas formales sigue siendo un dominio exclusivamente humano.
Pero un avance de los investigadores de Google DeepMind ha acercado más que nunca a los sistemas de inteligencia artificial a vencer a los mejores matemáticos humanos en su propio juego.
Un par de nuevos sistemas, llamados AlphaProof y AlphaGeometry 2, trabajaron juntos para abordar preguntas de la Olimpiada Internacional de Matemáticas, una competencia global de matemáticas para estudiantes de secundaria que se lleva a cabo desde 1959.
La Olimpiada toma la forma de seis pruebas increíblemente difíciles cada año, que cubren campos que incluyen álgebra, geometría y teoría de números.
Ganar una medalla de oro le sitúa entre el mejor puñado de jóvenes matemáticos del mundo.
Los esfuerzos combinados de los dos sistemas de DeepMind no estaban a la altura.
Después de que sus respuestas fueran calificadas por el profesor Timothy Gowers (ganador del equivalente en matemáticas al premio Nobel, la medalla Fields y él mismo medallista de oro en la Olimpiada), el equipo de DeepMind obtuvo 28 de 42, suficiente para una medalla de plata, pero a un punto del oro.
A diferencia de un matemático humano, los sistemas eran perfectos o irremediables.
En cada una de las preguntas que resolvieron, obtuvieron calificaciones perfectas, pero en dos de las seis preguntas, ni siquiera pudieron comenzar a trabajar para encontrar una respuesta.
Además, a DeepMind, a diferencia de sus competidores humanos, no se le dio límite de tiempo.
Mientras que los estudiantes tienen nueve horas para abordar los problemas, los sistemas DeepMind tardaron tres días trabajando las 24 horas del día para resolver una pregunta, a pesar de resolver otra en segundos.
Los dos sistemas que trabajaron en el desafío eran muy diferentes entre sí.
AlphaProof, que resolvió tres de los problemas, funciona combinando un modelo de lenguaje grande (del tipo que se aplica en los chatbots de consumo) con un enfoque especializado de “aprendizaje por refuerzo”, como el utilizado por DeepMind para abordar el juego de mesa Go.
El truco está en aprovechar un enfoque preexistente llamado “matemáticas formales”, un conjunto de reglas que le permiten escribir una demostración matemática como un programa que sólo puede ejecutarse si es verdadera.
“Lo que intentamos hacer es construir un puente entre estas dos esferas“, dijo Thomas Hubert, líder de AlphaProof, “para que podamos aprovechar las garantías que vienen con las matemáticas formales y los datos disponibles en las matemáticas informales“.
Después de recibir capacitación en una gran cantidad de problemas matemáticos escritos en inglés, AlphaProof utilizó sus conocimientos para intentar generar pruebas específicas en el lenguaje formal.
Debido a que esas pruebas pueden ser verificables o no, es posible enseñar al sistema a mejorarse a sí mismo.
El enfoque puede resolver problemas difíciles, pero no siempre es rápido: si bien es mucho mejor que el simple ensayo y error, se necesitaron tres días para encontrar el modelo formal correcto para una de las preguntas más difíciles del desafío.
El otro sistema, AlphaGeometry 2, combina de manera similar un modelo de lenguaje con un enfoque más matemático.
Pero su éxito en el campo más limitado de los problemas de geometría fue sorprendente: resolvió su problema en sólo 16 segundos.
Y, dice Gowers, eligió una ruta sorprendente para hacerlo.
“Ha habido algunos ejemplos legendarios de pruebas [asistidas por computadora] que son más largas que Wikipedia.
Esto no fue eso: estamos hablando de una producción muy breve, de estilo humano”.
El líder de AlphaGeometry 2, Thang Luong, describió el resultado como similar al famoso “movimiento 37” en la histórica victoria de DeepMind en Go, cuando el sistema de IA hizo un movimiento que ningún humano habría pensado y ganó.
La prueba de AlphaGeometry 2 implicó construir un círculo alrededor de otro punto y luego usar ese círculo para demostrar la respuesta general.
“Al principio, nuestro experto no entendía muy bien por qué construyó ese punto“, dijo Luong.
“Pero después de observar la solución, realmente conecta muchos triángulos y pensaron que la solución era realmente bastante elegante“.
La pregunta más fácil de AlphaGeometry 2:
Sea ABC un triángulo con AB < AC < BC. Sean I y ω el centro y la circunferencia del triángulo ABC, respectivamente. Sea X el punto de la recta BC diferente de C tal que la recta que pasa por X paralela a AC es tangente a ω. De manera similar, sea Y el punto de la línea BC diferente de B tal que la línea que pasa por Y paralela a AB es tangente a ω. Sea AI intersecta la circunferencia circunscrita del triángulo ABC nuevamente en P ≠ A. Sean K y L los puntos medios de AC y AB, respectivamente.
Demuestre que ∠KIL + ∠YPX = 180◦.
Resuelto en 19 segundos.
… y la más difícil de AlphaProof:
Turbo el caracol juega en un tablero con 2024 filas y 2023 columnas. Hay monstruos ocultos en 2022 de las celdas. Inicialmente, Turbo no sabe dónde está ninguno de los monstruos, pero sabe que hay exactamente un monstruo en cada fila excepto la primera fila y la última fila, y que cada columna contiene como máximo un monstruo.
Turbo hace una serie de intentos para pasar de la primera fila a la última fila. En cada intento, elige comenzar en cualquier celda de la primera fila y luego se mueve repetidamente a una celda adyacente que comparte un lado común. (Se le permite regresar a una celda visitada anteriormente). Si llega a una celda con un monstruo, su intento termina y es transportado de regreso a la primera fila para comenzar un nuevo intento. Los monstruos no se mueven y Turbo recuerda si cada celda que ha visitado contiene o no un monstruo. Si llega a cualquier celda de la última fila, su intento finaliza y el juego termina.
Determine el valor mínimo de n para el cual Turbo tiene una estrategia que garantiza llegar a la última fila en el enésimo intento o antes, independientemente de la ubicación de los monstruos.
No resuelto.
Fuente: The Guardian
Lo último de la compañía liderada por Sam Altman quiere ofrecer una nueva experiencia de…
A partir de la detección directa de ondas gravitacionales en 2015, los científicos se han…
La síntesis de un nuevo elemento superpesado apunta a la tan buscada "isla de estabilidad".…
Logra resultados similares o superiores a Llama 3.1 de Meta con menos de un tercio…
La mayoría de los sistemas robóticos desarrollados hasta la fecha pueden abordar una tarea específica…
Investigadores de la Universidad de Stuttgart han desarrollado un innovador método de microscopía cuántica que…