Los modelos generativos, redes neuronales artificiales que pueden generar imágenes o textos, se han vuelto cada vez más avanzados en los últimos años.
Estos modelos también pueden ser ventajosos para crear imágenes anotadas para entrenar algoritmos de visión artificial, que están diseñados para clasificar imágenes u objetos contenidos en ellas.
Si bien muchos modelos generativos, en particular las redes generativas adversarias (GAN), pueden producir imágenes sintéticas que se asemejan a las capturadas por cámaras, controlar de manera confiable el contenido de las imágenes que producen ha resultado un desafío.
En muchos casos, las imágenes generadas por las GAN no cumplen con los requisitos exactos de los usuarios, lo que limita su uso para diversas aplicaciones.
Investigadores de la Universidad Nacional de Ciencia y Tecnología de Seúl introdujeron recientemente un nuevo marco de trabajo de generación de imágenes diseñado para incorporar el contenido que los usuarios desean que contengan las imágenes generadas.
Este marco permite a los usuarios ejercer un mayor control sobre el proceso de generación de imágenes, produciendo imágenes que están más alineadas con las que estaban imaginando.
“Se ha logrado un progreso notable en la generación de imágenes con la introducción de modelos generativos“, escribieron Giang H. Le, Anh Q. Nguyen y los investigadores en su artículo.
“Sin embargo, controlar con precisión el contenido de las imágenes generadas sigue siendo una tarea difícil debido a su objetivo fundamental de entrenamiento.
Este artículo aborda este desafío proponiendo un nuevo marco de generación de imágenes diseñado explícitamente para incorporar el contenido deseado en las imágenes de salida”.
A diferencia de muchos modelos existentes para generar imágenes, el marco desarrollado por Le, Nguyen y sus colegas puede alimentarse con una imagen del mundo real, que luego utiliza para guiar el proceso de generación de imágenes.
De este modo, el contenido de las imágenes sintéticas que genera se parece mucho al de la imagen de referencia, incluso si las imágenes en sí son diferentes.
“El marco utiliza técnicas de codificación avanzadas, integrando subredes llamadas módulos de fusión de contenido y codificación de frecuencia“, escribieron Le, Nguyen y sus colegas.
“El módulo de codificación de frecuencias primero captura características y estructuras de imágenes de referencia centrándose exclusivamente en componentes de frecuencia seleccionados.
Posteriormente, el módulo de fusión de contenido genera un vector de guía de contenido que encapsula las características de contenido deseadas”.
El marco desarrollado por los investigadores tiene dos componentes distintos.
El primero es un codificador, un módulo que extrae características relacionadas con el contenido de la imagen de referencia alimentada al modelo.
El segundo es un módulo de fusión de contenido, que genera vectores para imágenes recién generadas que son guiadas por el contenido extraído de la imagen de referencia.
“Durante el proceso de generación de imágenes, los vectores de guía de contenido de imágenes reales se fusionan con vectores de ruido proyectados“, escribieron los autores.
“Esto garantiza la producción de imágenes generadas que no solo mantienen un contenido consistente de las imágenes de guía, sino que también muestran diversas variaciones estilísticas”.
Le, Nguyen y sus colegas evaluaron el rendimiento de su marco en una serie de pruebas, comparando también las imágenes generadas con las creadas por un modelo convencional basado en GAN.
Las imágenes que utilizaron para entrenar el modelo y como referencias para guiar el proceso de generación de imágenes se derivaron de varios conjuntos de datos, incluidos los conjuntos de datos Flickr-Faces-High Quality, Animal Faces High Quality y Large-scale Scene Understanding.
Los hallazgos de estas pruebas iniciales fueron muy prometedores, ya que se descubrió que el nuevo marco producía imágenes sintéticas que coincidían mejor con una imagen de referencia en términos de contenido en comparación con las creadas por el modelo convencional basado en GAN.
En promedio, las imágenes generadas por el marco conservaron el 85% de los atributos de la imagen de referencia.
Este estudio reciente podría informar el desarrollo de modelos para la generación de imágenes que creen imágenes más alineadas con las expectativas de los usuarios.
Estos modelos podrían usarse para compilar conjuntos de datos cuidadosamente diseñados para entrenar algoritmos de clasificación de imágenes, pero también podrían integrarse en plataformas impulsadas por IA para diseñadores y otros profesionales creativos.
Fuente: arXiv
Los modelos de IA generativa como ChatGPT se entrenan con grandes cantidades de datos obtenidos…
El kit para desarrolladores NVIDIA Jetson Orin Nano Super está diseñado tanto para aficionados como…
Google ha presentado Veo 2, una IA que supera a Sora al generar videos realistas…
La nueva IA de Google es capaz de generar diseños de cualquier tipo sin necesidad…
Han pasado casi cinco meses desde el lanzamiento de SearchGPT. La prometedora función de búsqueda…
En los últimos años, los ingenieros han intentado crear sistemas de hardware que soporten mejor…