La inteligencia artificial supera o iguala a los humanos en matemáticas y comprensión lectora

La inteligencia artificial supera o iguala a los humanos en matemáticas y comprensión lectora

Comparta este Artículo en:

La Universidad de Stanford publica un informe donde describe el fulgurante progreso de los sistemas de aprendizaje automático en los últimos años.

La inteligencia artificial (IA) ha avanzado de manera tan vertiginosa en la última década que ahora es capaz de igualar o incluso superar el rendimiento humano en tareas complejas como la comprensión lectora y las matemáticas.

Así lo refleja el Artificial Intelligence Index Report 2024, un informe recientemente publicado por el Instituto de Inteligencia Artificial Centrada en el Humano de la Universidad de Stanford.

El informe describe el fulgurante progreso de los sistemas de aprendizaje automático en los últimos años, pero también pone de relieve los desafíos y las oportunidades que emergen de este campo en constante evolución.

La IA ha experimentado un desarrollo acelerado desde la década de 2010, impulsada principalmente por los avances en redes neuronales y algoritmos de aprendizaje automático.

Estos avances han permitido la creación de sistemas como ChatGPT, que pueden realizar tareas tan diversas como generar textos coherentes, clasificar imágenes con alta precisión y resolver problemas matemáticos complejos.

En concreto, el citado informe de Stanford destaca que muchas de las pruebas que tradicionalmente se usaban para evaluar el rendimiento de los sistemas de IA están quedando obsoletas en cuestión de pocos años, debido a la velocidad con la que estos sistemas están mejorando.

Hace una década, los puntos de referencia podían servir a la ciencia durante 5 a 10 años”, señala Nestor Maslej, científico de Stanford y uno de los responsables del AI Index.

“Ahora, a menudo se vuelven irrelevantes en solo unos pocos años. El ritmo de avance ha sido sorprendentemente rápido”, añade.

Este rápido progreso se refleja en el rendimiento de los modelos de lenguaje de gran escala (LLMs), que son capaces de manejar tareas que requieren razonamiento complejo, abstracción y capacidades de comprensión a niveles que rivalizan con los humanos.

Modelos como GPT-4 de OpenAI y Claude 3 de Anthropic, han demostrado un rendimiento cercano al humano en pruebas de nivel de doctorado, lo que subraya la creciente sofisticación de estas tecnologías.

Por ello, el informe también subraya la creciente necesidad de desarrollar nuevas formas de evaluar el rendimiento de los sistemas de IA.

Los investigadores están trabajando para crear pruebas más exigentes que midan no solo la capacidad de los sistemas para realizar tareas específicas, sino también su comprensión y razonamiento en niveles más profundos.

Una de las evaluaciones más recientes es el Graduate-Level Google-Proof Q&A Benchmark (GPQA), desarrollado por un equipo liderado por el científico experto en IA, David Rein, de la Universidad de Nueva York.

El GPQA es una prueba que consta de más de 400 preguntas de opción múltiple, diseñada para evaluar las capacidades de razonamiento visual, matemático y moral de los modelos de lenguaje de gran escala (LLMs) sin depender únicamente de búsquedas en Internet.

Los resultados de esta prueba son reveladores: los académicos de nivel doctoral pudieron responder correctamente el 65 % de las preguntas en su campo de especialización, pero solo el 34 % cuando se les preguntó sobre temas fuera de su área, a pesar de tener acceso a Internet durante la prueba.

En comparación, los sistemas de IA en 2023 obtuvieron puntuaciones entre el 30 % y el 40 %, pero Claude 3, un chatbot de última generación lanzado por Anthropic, logró un impresionante 60 % en 2024.

“El ritmo de progreso es bastante impactante para muchas personas, incluyéndome a mí”, comenta Rein.

“Es bastante difícil crear un punto de referencia que perduren más de unos pocos años”, apunta.

Este avance en la capacidad de las IA para manejar tareas cognitivas complejas plantea preguntas sobre el futuro de la educación, el trabajo y la interacción humana con las máquinas.

¿Qué significa para la sociedad que las máquinas puedan superar a los humanos en tareas intelectuales que antes se consideraban exclusivamente humanas?

Aunque los beneficios potenciales son innegables, también se plantean cuestiones éticas y filosóficas sobre el papel de la IA en nuestras vidas.

De forma paralela, a medida que el rendimiento de la IA se dispara, también lo hacen los costos y el consumo de recursos.

Entrenar modelos de IA de última generación es un proceso extremadamente costoso y que consume grandes cantidades de energía.

Por ejemplo, se estima que para entrenar a GPT-4, el modelo que impulsa ChatGPT, se invirtieron 78 millones de dólares, mientras que el chatbot Gemini Ultra de Google, lanzado en diciembre de 2023, tuvo un costo de 191 millones de dólares.

Pero además del gasto económico, estos sistemas tienen un impacto ambiental significativo debido a la energía necesaria para alimentarlos y a la cantidad de agua que se utiliza para enfriar los centros de datos que los ejecutan.

“Estos sistemas son impresionantes, pero también son muy ineficientes”, advierte Maslej.

Este enfoque en la expansión de los modelos mediante el uso de cantidades masivas de datos ha llevado a preocupaciones sobre la disponibilidad futura de datos de alta calidad para entrenar modelos de IA.

El informe señala que algunos investigadores están preocupados por la posibilidad de agotar las fuentes de datos lingüísticos de calidad en un futuro cercano.

El instituto de investigación sin fines de lucro Epoch, por ejemplo, proyectó el año pasado que podríamos agotar estas fuentes tan pronto como en 2024, aunque su análisis más reciente sugiere que 2028 es una estimación más realista.

Asimismo, con el crecimiento exponencial de la IA también han surgido crecientes preocupaciones éticas sobre cómo se construyen y utilizan estos sistemas.

Y es que, la falta de estándares globales para la evaluación de los riesgos que plantean las IA ha hecho difícil comparar y regular estos sistemas de manera uniforme.

Pero a medida que la IA continúa integrándose en la sociedad, las preocupaciones sobre su impacto en el empleo, la privacidad y la igualdad se están intensificando.

El enfoque regulatorio se está centrando cada vez más en promover el uso responsable de la IA.

Si bien están surgiendo puntos de referencia que pueden medir la veracidad, el sesgo e incluso la “agradabilidad” de una herramienta de IA, Maslej destaca que no todos utilizan los mismos modelos, lo que dificulta la comparación entre sistemas.

“Este es un tema realmente importante. Necesitamos unir a la comunidad en torno a esto”, indica.

En otro orden de cosas, en mayo de 2024, la Unión Europea aprobó la ley de inteligencia artificial, que se aplicará de forma progresiva hasta el año 2026.

Con ella, quedarán prohibidos los sistemas de IA de categorización biométrica y manipulación de comportamiento, con excepciones para seguridad nacional.

La ley también impone transparencia en IA generativa y multas severas por incumplimientos, asegurando la protección de derechos fundamentales, entre otras medidas.

Fuente: Stanford University

 

Leave a Reply

Your email address will not be published. Required fields are marked *