Entre los muchos modelos de inteligencia artificial y aprendizaje automático disponibles en la actualidad para la traducción de imágenes, los modelos de traducción de imagen a imagen que utilizan redes generativas antagónicas (GAN) pueden cambiar el estilo de las imágenes.
Estos modelos funcionan utilizando dos imágenes de entrada: una imagen de contenido, que se modifica para que coincida con el estilo de una imagen de referencia.
Los modelos se utilizan para tareas como transformar imágenes en diferentes estilos artísticos, simular cambios climáticos, mejorar la resolución de video satelital y ayudar a los vehículos autónomos a reconocer diferentes condiciones de iluminación, como el día y la noche.
Ahora, investigadores de la Universidad Sophia han desarrollado un modelo que puede reducir los requisitos computacionales necesarios para ejecutar estos modelos, lo que hace posible ejecutarlos en una amplia gama de dispositivos, incluidos los teléfonos inteligentes.
En un estudio la profesora asistente del proyecto Rina Oh y el profesor Tad Gonsalves del Departamento de Ciencias de la Información y la Comunicación de la Universidad de Sophia propusieron un modelo de “traducción de imagen a imagen de flujo único (SSIT)” que utiliza un solo codificador para llevar a cabo esta transformación.
Normalmente, los modelos de traducción de imagen a imagen requieren dos codificadores (uno para la imagen de contenido y otro para la imagen de estilo) para “comprender” las imágenes.
Estos codificadores convierten las imágenes de contenido y estilo en valores numéricos (espacio de características) que representan aspectos clave de la imagen, como el color, los objetos y otras características.
Luego, el decodificador toma las características combinadas de contenido y estilo y reconstruye la imagen final con el contenido y el estilo deseados.
Por el contrario, SSIT utiliza un solo codificador para extraer características espaciales como las formas, los límites de los objetos y los diseños de la imagen de contenido.
Para la imagen de estilo, el modelo utiliza la Normalización de instancias adaptativa directa con agrupación (DAdaINP), que captura detalles clave del estilo, como colores y texturas, y se centra en las características más destacadas para mejorar la eficiencia.
Luego, un decodificador toma las características combinadas de contenido y estilo y reconstruye la imagen final con el contenido y el estilo deseados.
El profesor Oh afirma: “Implementamos un modelo de traducción guiada de imagen a imagen que realiza la transformación de estilo con costos computacionales reducidos de GPU mientras hace referencia a imágenes de estilo de entrada.
“A diferencia de los modelos relacionados anteriores, nuestro enfoque utiliza agrupación y convolución deformable para extraer de manera eficiente las características de estilo, lo que permite una transformación de estilo de alta calidad con un costo computacional reducido y características espaciales preservadas en las imágenes de contenido”.
El modelo se entrena mediante entrenamiento adversarial, donde las imágenes generadas son evaluadas por un discriminador con un transformador de visión, que captura patrones en las imágenes.
El discriminador evalúa si las imágenes generadas son reales o falsas comparándolas con las imágenes de destino, mientras que el generador aprende a crear imágenes que puedan engañar al discriminador.
Usando el modelo, los investigadores realizaron tres tipos de tareas de transformación de imágenes.
La primera involucró la transformación estacional, donde las fotos de paisajes se convirtieron de verano a invierno y viceversa.
La segunda tarea fue la conversión de foto a arte, en la que las fotos de paisajes se transformaron en estilos artísticos famosos, como los de Picasso, Monet o el anime.
La tercera tarea se centró en la traducción del tiempo y el clima para la conducción, donde las imágenes capturadas desde el frente de un automóvil se modificaron para simular diferentes condiciones, como el cambio de día a noche o de tiempo soleado a lluvioso.
En todas estas tareas, el modelo tuvo un mejor desempeño que otros cinco modelos GAN (a saber, NST, CNNMRF, MUNIT, GDWCT y TSIT), con puntajes más bajos en la distancia de inicio de Fréchet y la distancia de inicio de Kernel.
Esto demuestra que las imágenes generadas eran similares a los estilos de destino y hacían un mejor trabajo de replicación de colores y detalles artísticos.
“Nuestro generador pudo reducir el costo computacional y los FLOP en comparación con los otros modelos porque empleamos un solo codificador que consta de múltiples capas de convolución solo para la imagen de contenido y colocamos capas de agrupación para extraer características de estilo en diferentes ángulos en lugar de capas de convolución“, dice el profesor Oh.
A largo plazo, el modelo SSIT tiene el potencial de democratizar la transformación de imágenes, lo que lo hace implementable en dispositivos como teléfonos inteligentes o computadoras personales.
Permite a los usuarios de diversos campos, incluido el arte digital, el diseño y la investigación científica, crear transformaciones de imágenes de alta calidad sin depender de hardware costoso o servicios en la nube.
Fuente: IEEE Xplore