La inteligencia artificial (IA) generativa ha tenido notorias dificultades para crear imágenes consistentes, y a menudo se equivoca en detalles como los dedos y la simetría facial.
Además, estos modelos pueden fallar por completo cuando se les pide que generen imágenes con diferentes tamaños y resoluciones.
El nuevo método de los informáticos de la Universidad Rice para generar imágenes con modelos de difusión entrenados previamente, una clase de modelos de IA generativos que “aprenden” añadiendo capa tras capa de ruido aleatorio a las imágenes con las que se entrenan y luego generan nuevas imágenes eliminando el ruido añadido, podría ayudar a corregir estos problemas.
Moayed Haji Ali, estudiante de doctorado en informática de la Universidad Rice, describió el nuevo enfoque, llamado ElasticDiffusion, en un artículo revisado por pares presentado en la Conferencia sobre Visión por Computadora y Reconocimiento de Patrones (CVPR) de 2024 del Instituto de Ingenieros Eléctricos y Electrónicos (IEEE) en Seattle.
“Los modelos de difusión como Stable Diffusion, Midjourney y DALL-E crean resultados impresionantes, generando imágenes bastante realistas y fotorrealistas“, dijo Haji Ali.
“Pero tienen una debilidad: solo pueden generar imágenes cuadradas.
Por lo tanto, en los casos en que se tienen diferentes relaciones de aspecto, como en un monitor o un reloj inteligente… ahí es donde estos modelos se vuelven problemáticos”.
Si le dices a un modelo como Stable Diffusion que cree una imagen no cuadrada, digamos una relación de aspecto de 16:9, los elementos utilizados para construir la imagen generada se vuelven repetitivos.
Esa repetición se muestra como deformidades de aspecto extraño en la imagen o en los sujetos de la imagen, como personas con seis dedos o un automóvil extrañamente alargado.
La forma en que se entrenan estos modelos también contribuye al problema.
“Si entrenas el modelo solo con imágenes que tienen una cierta resolución, solo pueden generar imágenes con esa resolución“, dijo Vicente Ordóñez-Román, profesor asociado de informática que asesoró a Haji Ali en su trabajo junto con Guha Balakrishnan, profesor asistente de ingeniería eléctrica e informática.
Ordóñez-Román explicó que este es un problema endémico de la IA conocido como sobreajuste, en el que un modelo de IA se vuelve excesivamente bueno en la generación de datos similares a los que se usaron para entrenarlo, pero no puede desviarse mucho de esos parámetros.
“Se podría resolver entrenando el modelo con una variedad más amplia de imágenes, pero es costoso y requiere cantidades masivas de potencia de procesamiento: cientos, tal vez incluso miles de unidades de procesamiento gráfico“, dijo Ordóñez-Román.
Según Haji Ali, el ruido digital que utilizan los modelos de difusión se puede traducir en una señal con dos tipos de datos: local y global.
La señal local contiene información detallada a nivel de pixel, como la forma de un ojo o la textura del pelaje de un perro. La señal global contiene más bien un contorno general de la imagen.
“Una de las razones por las que los modelos de difusión necesitan ayuda con relaciones de aspecto no cuadradas es que generalmente empaquetan información local y global juntas”, dijo Haji Ali, quien trabajó en la síntesis de movimiento en videos generados por IA antes de unirse al grupo de investigación de Ordóñez-Román en Rice para sus estudios de doctorado.
“Cuando el modelo intenta duplicar esos datos para tener en cuenta el espacio adicional en una imagen que no es cuadrada, se producen imperfecciones visuales”.
El método ElasticDiffusion del artículo de Haji Ali adopta un enfoque diferente para crear una imagen.
En lugar de empaquetar ambas señales juntas, ElasticDiffusion separa las señales locales y globales en rutas de generación condicionales e incondicionales.
Resta el modelo condicional del modelo incondicional, obteniendo una puntuación que contiene información global de la imagen.
Después de eso, la ruta incondicional con el detalle local a nivel de pixel se aplica a la imagen en cuadrantes, completando los detalles un cuadrado a la vez.
La información global (cuál debería ser la relación de aspecto de la imagen y qué es la imagen (un perro, una persona corriendo, etc.)) permanece separada, por lo que no hay posibilidad de que la IA confunda las señales y repita los datos.
El resultado es una imagen más limpia independientemente de la relación de aspecto que no necesita entrenamiento adicional.
“Este enfoque es un intento exitoso de aprovechar las representaciones intermedias del modelo para escalarlas de modo que se obtenga una consistencia global“, dijo Ordóñez-Román.
El único inconveniente de ElasticDiffusion en relación con otros modelos de difusión es el tiempo.
Actualmente, el método de Haji Ali tarda entre 6 y 9 veces más en generar una imagen.
El objetivo es reducir ese tiempo al mismo tiempo de inferencia que otros modelos como Stable Diffusion o DALL-E.
“Espero que esta investigación se dirija a definir… por qué los modelos de difusión generan estas partes más repetitivas y no pueden adaptarse a estas relaciones de aspecto cambiantes y crear un marco que pueda adaptarse exactamente a cualquier relación de aspecto independientemente del entrenamiento, en el mismo tiempo de inferencia”, dijo Haji Ali.
Fuente: TechXplore