La inteligencia artificial ha aprendido a dominar el lenguaje, generar arte e incluso vencer a grandes maestros en ajedrez. Pero, ¿puede descifrar el código del razonamiento abstracto, esos complicados acertijos visuales que dejan a los humanos rascándose la cabeza?
Investigadores del Instituto de Ciencias de la Información (ISI) de la Escuela de Ingeniería Viterbi de la USC están poniendo a prueba las capacidades cognitivas de la IA, impulsando los modelos de lenguaje multimodales grandes (MLLM) para resolver problemas visuales que antes estaban reservados para las pruebas de coeficiente intelectual humano.
¿El resultado? Un vistazo a lo lejos que ha llegado la IA y dónde todavía tropieza.
Los asistentes de investigación del ISI de USC Viterbi, Kian Ahrabian y Zhivar Sourati, investigaron recientemente si los MLLM pueden realizar razonamiento abstracto no verbal, tareas que requieren tanto percepción visual como razonamiento lógico.
Jay Pujara, profesor asociado de investigación de informática en la Escuela de Ingeniería de USC Viterbi y autor del artículo, dijo:
“Todos los días nos bombardean con nuevos titulares sobre lo que la IA puede (y no puede) hacer, que a menudo son muy sorprendentes.
Todavía tenemos una comprensión muy limitada de lo que pueden hacer los nuevos modelos de IA, y hasta que entendamos estas limitaciones no podemos hacer que la IA sea mejor, más segura y más útil.
Este artículo ayuda a completar una pieza faltante de la historia de los problemas de la IA”.
“Queríamos ver si esta nueva generación de modelos grandes, que son capaces de procesar imágenes, pueden razonar por sí mismos“, explicó Ahrabian.
“Por ejemplo, si ves un círculo amarillo que se convierte en un triángulo azul, ¿puede el modelo aplicar el mismo patrón en un escenario diferente?”.
Para responder a esta pregunta, el equipo probó 24 MLLM diferentes en acertijos basados en las Matrices Progresivas de Raven, una conocida prueba de razonamiento abstracto.
Descubrieron que los modelos de código abierto tenían dificultades significativas.
“Eran realmente malos. No podían sacar nada de ello“, dijo Ahrabian con claridad.
Por el contrario, los modelos de código cerrado, como GPT-4V (modelos desarrollados por empresas privadas y que no están disponibles públicamente para su modificación) tuvieron un mejor rendimiento.
Estos modelos suelen entrenarse con recursos más avanzados, incluidos conjuntos de datos más grandes y sistemas informáticos más potentes, lo que les da una ventaja notable.
“Vimos algunos resultados no triviales con los modelos de código cerrado”, añadió Ahrabian.
“En concreto, GPT-4V fue relativamente bueno en el razonamiento, pero está lejos de ser perfecto”.
Una parte fundamental del estudio consistió en analizar en qué aspectos fallaban estos modelos.
Un problema clave era la capacidad de la IA para procesar con precisión la información visual.
“Queríamos saber si los modelos podían ver los detalles (como colores o líneas que chocaban) y si ahí era donde se estaban equivocando“, dijo Ahrabian.
Para aislar el problema, los investigadores proporcionaron descripciones textuales detalladas de las imágenes, asegurándose de que los modelos tuvieran toda la información necesaria en un formato diferente.
“Incluso cuando eliminamos el elemento visual y solo les dimos texto, muchos modelos seguían sin poder razonar de manera efectiva“, explicó Sourati.
Esto reveló una idea crucial: el problema no era solo con el procesamiento visual, sino con el razonamiento en sí.
Ahora, el equipo tenía una imagen más clara de lo que no funcionaba, lo que les permitió refinar su enfoque y orientar las mejoras futuras.
Un método prometedor que exploraron los investigadores fue la “incitación en cadena de pensamiento”, en la que se incita a la IA a pensar paso a paso a través de tareas de razonamiento.
Este enfoque condujo a mejoras significativas en algunos casos.
“Al guiar los modelos con pistas, pudimos ver una mejora de hasta el 100 % en el rendimiento”, señaló Ahrabian.
A pesar de los desafíos pendientes, los investigadores son optimistas.
Los hallazgos del estudio resaltan tanto las limitaciones actuales de la IA como las emocionantes posibilidades de avances futuros.
A medida que estos modelos continúan desarrollándose, la investigación de la USC podría allanar el camino para una IA que no solo comprenda sino que razone, difuminando la línea entre la inteligencia de las máquinas y la cognición humana.
Fuente: arXiv
Un modelo de inteligencia artificial de aprendizaje profundo escanea la "materia oscura" de los datos…
Un mundo de color y texturas pronto podría volverse más accesible para las personas ciegas…
Una lengua electrónica desarrollada recientemente es capaz de identificar diferencias en líquidos similares, como leche…
Vivo acaba de hacer oficial su X200 Pro, la propuesta aterriza con el que, por…
AMD presentó su nuevo chip MI325X, un acelerador enfocado a tareas de IA que supera…
Investigadores de la Universidad de Tampere en Finlandia y la Universidad Anhui Jianzhu en China…