Avances recientes en el campo de los modelos generativos han hecho posible que las IAs puedan reconocer información semántica latente en imágenes (como gestos o posturas), y aplicarla a labores de edición de imágenes como la transfiguración de objetos (cambiar cierto elemento de una imagen por otro de otra imagen).
Pero la mayoría de los algoritmos usados para ello son poco eficientes a la hora de delimitar la parte de la imagen en la que se aplican los cambios (CycleGAN, por ejemplo, puede cambiar el color de fondo de una imagen cuando se les indica que convierta un animal en otro).
Esto ocurre porque CycleGAN (y otros algoritmos similares) están diseñados de tal modo que es la red neuronal la que determina por su cuenta el área de imagen afectada.
Sin embargo hoy en día, en plena era del Adobe Photoshop y herramientas similares, los usuarios buscan un modo de controlar más directamente el resultado de dicha transformación.
Eso, y poder tener la opción de realizar tareas que a día de hoy son fáciles de describir con palabras pero difíciles de formular en ecuaciones.
Por ejemplo: “Cambiar el hocico de este pastor alemán por el de este bulldog”.
Por ello, un grupo de investigadores de la Universidad de Tokyo ha publicado en GitHub el código de un software de edición de imágenes mediante redes neuronales convolucionales llamado Neural-Collage.
Como los propios investigadores cuentan, con este método “el usuario puede transformar una parte de la imagen elegida por él, de un modo similar al copia y pega, al mismo tiempo que preserva la consistencia semántica”.
Neural-Collage ofrece, además, dos herramientas diferenciadas:
- Traslación de objetos
Permite al usuario insertar de manera intuitiva y con resultados realistas una determinada parte del cuerpo del sujeto A en el sujeto B (como en el ejemplo de antes del bulldog y el pastor alemán), o bien cambiar un sujeto completo por otro.
El usuario también puede especificar el nivel de transformación en una escala del 0 al 100.
2. Transformación semántica
“Con nuestro trasplante semántico, el usuario puede trasplantar una característica semántica del objeto seleccionado en la imagen de referencia a un objeto en la imagen de destino que se va a transformar”.
De tal modo, podemos aplicar el gesto o la postura de un animal al otro, sin cambiar su aspecto.
Fuente: Xataca