Pareidolia de la IA: ¿pueden las máquinas detectar rostros en objetos inanimados?

Pareidolia de la IA: ¿pueden las máquinas detectar rostros en objetos inanimados?

Comparta este Artículo en:

En 1994, la diseñadora de joyas de Florida Diana Duyser descubrió lo que creía que era la imagen de la Virgen María en un sándwich de queso a la parrilla, que conservó y luego subastó por 28.000 dólares.

Pero, ¿cuánto sabemos realmente sobre la pareidolia, el fenómeno de ver rostros y patrones en objetos cuando en realidad no están allí?

Un nuevo estudio del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL) profundiza en este fenómeno, presentando un extenso conjunto de datos etiquetados por humanos de 5.000 imágenes pareidólicas, que supera con creces las colecciones anteriores.

Con este conjunto de datos, el equipo descubrió varios resultados sorprendentes sobre las diferencias entre la percepción humana y la de las máquinas, y cómo la capacidad de ver rostros en una tostada podría haber salvado la vida de sus parientes lejanos.

“La pareidolia facial ha fascinado a los psicólogos durante mucho tiempo, pero ha sido en gran parte inexplorada en la comunidad de visión por computadora“, dice Mark Hamilton, Ph.D. del MIT. estudiante de ingeniería eléctrica y ciencias de la computación, afiliado a CSAIL e investigador principal del trabajo.

“Queríamos crear un recurso que pudiera ayudarnos a entender cómo los humanos y los sistemas de IA procesan estas caras ilusorias”.

Entonces, ¿qué revelaron todas estas caras falsas? Por un lado, los modelos de IA no parecen reconocer caras pareidólicas como lo hacemos nosotros.

Sorprendentemente, el equipo descubrió que no fue hasta que entrenaron algoritmos para reconocer caras de animales que se volvieron significativamente mejores en la detección de caras pareidólicas.

Esta conexión inesperada sugiere un posible vínculo evolutivo entre nuestra capacidad para detectar caras de animales (crucial para la supervivencia) y nuestra tendencia a ver caras en objetos inanimados.

Un resultado como este parece sugerir que la pareidolia podría no surgir del comportamiento social humano, sino de algo más profundo: como detectar rápidamente un tigre acechante o identificar hacia dónde mira un ciervo para que nuestros antepasados ​​​​primitivos pudieran cazar“, dice Hamilton.

Otro descubrimiento intrigante es lo que los investigadores llaman la “Zona Ricitos de Oro de la Pareidolia“, una clase de imágenes donde es más probable que se produzca la pareidolia.

“Hay un rango específico de complejidad visual en el que tanto los humanos como las máquinas tienen más probabilidades de percibir rostros en objetos que no son rostros“, dice William T. Freeman, profesor de ingeniería eléctrica y ciencias de la computación del MIT e investigador principal del proyecto.

“Si es demasiado simple, no hay suficientes detalles para formar un rostro. Si es demasiado complejo, se convierte en ruido visual”.

Para descubrirlo, el equipo desarrolló una ecuación que modela cómo las personas y los algoritmos detectan rostros ilusorios.

Al analizar esta ecuación, encontraron un “pico pareidólico” claro donde la probabilidad de ver rostros es más alta, correspondiente a imágenes que tienen “la cantidad justa” de complejidad.

Esta “zona Ricitos de Oro” predicha se validó luego en pruebas con sujetos humanos reales y sistemas de detección de rostros de IA.

Este nuevo conjunto de datos, “Rostros en las cosas“, eclipsa los de estudios anteriores que normalmente usaban solo 20-30 estímulos.

Esta escala permitió a los investigadores explorar cómo se comportaban los algoritmos de detección de rostros de última generación después de realizar ajustes en los rostros pareidólicos, lo que demostró que no solo se podían editar estos algoritmos para detectar estos rostros, sino que también podían actuar como un sustituto de silicio de nuestro propio cerebro, lo que permitió al equipo hacer y responder preguntas sobre los orígenes de la detección de rostros pareidólicos que son imposibles de hacer en humanos.

Para crear este conjunto de datos, el equipo seleccionó aproximadamente 20 000 imágenes candidatas del conjunto de datos LAION-5B, que luego fueron etiquetadas y evaluadas meticulosamente por anotadores humanos.

Este proceso implicó dibujar cuadros delimitadores alrededor de los rostros percibidos y responder preguntas detalladas sobre cada rostro, como la emoción percibida, la edad y si el rostro era accidental o intencional.

“Recopilar y anotar miles de imágenes fue una tarea monumental“, dice Hamilton.

“Gran parte del conjunto de datos debe su existencia a mi madre”, una banquera jubilada, “que pasó incontables horas etiquetando imágenes con cariño para nuestro análisis”.

El estudio también tiene aplicaciones potenciales en la mejora de los sistemas de detección de rostros mediante la reducción de falsos positivos, lo que podría tener implicaciones para campos como los carros autónomos, la interacción hombre-computador y la robótica.

El conjunto de datos y los modelos también podrían ayudar en áreas como el diseño de productos, donde la comprensión y el control de la pareidolia podrían crear mejores productos.

“Imagínese poder modificar automáticamente el diseño de un auto o de un juguete de niño para que parezca más agradable, o asegurarse de que un dispositivo médico no parezca amenazante inadvertidamente“, dice Hamilton.

“Es fascinante cómo los humanos interpretan instintivamente objetos inanimados con rasgos similares a los humanos.

Por ejemplo, cuando miras un enchufe eléctrico, puedes imaginarlo inmediatamente cantando, e incluso puedes imaginar cómo ‘movería los labios’.

Sin embargo, los algoritmos no reconocen naturalmente estas caras caricaturescas de la misma manera que lo hacemos nosotros”, dice Hamilton.

“Esto plantea preguntas intrigantes: ¿Qué explica esta diferencia entre la percepción humana y la interpretación algorítmica? ¿La pareidolia es beneficiosa o perjudicial? ¿Por qué los algoritmos no experimentan este efecto como lo hacemos nosotros?

Estas preguntas dieron origen a nuestra investigación, ya que este fenómeno psicológico clásico en humanos no había sido explorado a fondo en algoritmos”.

El trabajo futuro puede implicar el entrenamiento de modelos de visión y lenguaje para comprender y describir caras pareidólicas, lo que potencialmente conduciría a sistemas de IA que puedan interactuar con estímulos visuales de formas más parecidas a las humanas.

Fuente: arXiv

 

Leave a Reply

Your email address will not be published. Required fields are marked *