Investigadores de Apple y la Universidad de California en Santa Bárbara han lanzado MGIE, un nuevo modelo de inteligencia artificial de código abierto que permite editar imágenes usando lenguaje natural.
Los esfuerzos de Apple en el campo de la inteligencia artificial avanzan a paso firme, pese a que muchos piensen lo contrario. Investigadores de la firma de Cupertino se aliaron con la Universidad de California en Santa Bárbara (UCSB) para crear MGIE, un nuevo modelo de código abierto que permite editar imágenes usando lenguaje natural.
Es cierto que la web hoy se encuentra abarrotada de herramientas que permiten crear imágenes a partir de la inteligencia artificial generativa.
Sin embargo, el esfuerzo de Apple y los expertos de la citada Universidad se ha enfocado en la “edición guiada“, sacando provecho de los modelos de lenguaje multimodales de gran escala (MLLM, por sus sigas en inglés).
De acuerdo con los desarrolladores de esta herramienta, MGIE interpreta la imagen y la orden que el usuario ingresa y procede a realizar la edición, incluso sin poseer mayor contexto sobre el material o la solicitud en sí misma.
Así, por ejemplo, uno de los casos presentados es el de la fotografía de una pizza.
Utilizando solamente la descripción “hazla más saludable“, la inteligencia artificial de Apple modificó la imagen para incluir tomates e hierbas sobre ella.
“MGIE consta de un MLLM y un modelo de difusión. El MLLM aprende a derivar instrucciones expresivas concisas y ofrece orientación visual explícita.
El modelo de difusión se actualiza conjuntamente y realiza la edición de imágenes con la imaginación latente del objetivo previsto mediante un entrenamiento de extremo a extremo.
De esta manera, MGIE se beneficia de la derivación visual inherente y aborda comandos humanos ambiguos para lograr una edición razonable.
En el ejemplo […], es difícil captar lo que significa “saludable” sin un contexto adicional.
Nuestro MGIE puede conectar con precisión ‘ingredientes vegetales’ con la pizza y conducir a la edición correspondiente según las expectativas humanas”.
De la mano de MGIE, los investigadores de Apple y la UCSB quieren demostrar que los modelos de lenguaje multimodales de gran escala pueden ayudar a que la edición de imágenes con inteligencia artificial sea más sencilla.
En especial, facilitando las instrucciones necesarias para obtener los resultados deseados.
Los responsables del proyecto indican que las instrucciones humanas suelen ser demasiado breves para que los actuales métodos de edición con IA las entiendan y procesen correctamente.
Así, afirman que usar un MLLM para esta tarea “mejora el control y la flexibilidad” al editar imágenes, sin necesidad de máscaras regionales o descripciones demasiado elaboradas.
Los ejemplos que han presentado hacen más sencillo comprender de qué se trata toda esta historia.
Además de lo que ya mencionamos de la pizza, la inteligencia artificial de Apple puede realizar ediciones al estilo Photoshop.
En una imagen se ve a un hombre en primer plano y a una mujer detrás de él, a lo lejos, sentada en un sillón.
Con el comando “elimina a la mujer en el fondo”, MGIE modifica la foto para que solo el sujeto en primer plano sea visible.
Pero no se limita a borrar a la mujer; también cambia el enfoque y lo centra en la expresión en el rostro del hombre.
Los expertos de UCSB y Apple han logrado, además, que la inteligencia artificial realice ediciones locales.
Por ejemplo, que cambie lo que aparece en la pantalla de la foto de un computador, sin tocar el resto de la imagen.
Como así también que pueda concretar optimizaciones globales, como subir el brillo o ajustar la definición del material, entre otras posibilidades.
Al tratarse de un proyecto de investigación, todavía no se sabe si Apple planea incorporar esta inteligencia artificial en su software disponible al público.
No obstante, deja en claro que los de Cupertino están prestándole cada vez más atención a este tipo de tecnologías.
Introdujeron recientemente MLX, una herramienta que permite crear modelos de aprendizaje automático.
Si desean probar MGIE, pueden hacerlo directamente desde esta versión de prueba en Hugging Face Spaces.
Aunque al ser un proyecto de código abierto, pueden descargar información, código y modelos preentrenados desde este repositorio en GitHub y probarlo por ustedes mismos.
Fuente: arXiv