La técnica introduce “perturbaciones” casi invisibles para descartar modelos algorítmicos.
Dall-E y Stable Diffusion fueron solo el comienzo. A medida que proliferan los sistemas de IA generativa y las empresas trabajan para diferenciar sus ofertas de las de sus competidores, los chatbots en Internet están adquiriendo el poder de editar imágenes, así como de crearlas, con empresas como Shutterstock y Adobe a la cabeza.
Pero con esas nuevas capacidades potenciadas por la IA surgen dificultades familiares, como la manipulación no autorizada o el robo total de obras de arte e imágenes en línea existentes.
Las técnicas de marca de agua pueden ayudar a mitigar esto último, mientras que la nueva técnica “PhotoGuard” desarrollada por MIT CSAIL podría ayudar a prevenir lo primero.
PhotoGuard funciona alterando pixeles seleccionados en una imagen de modo que interrumpan la capacidad de una IA para comprender qué es la imagen.
Esas “perturbaciones“, como las llama el equipo de investigación, son invisibles para el ojo humano pero fácilmente legibles por las máquinas.
El método de ataque del “codificador” para introducir estos artefactos se dirige a la representación latente de la imagen objetivo del modelo algorítmico, las matemáticas complejas que describen la posición y el color de cada pixel en una imagen, lo que esencialmente evita que la IA entienda lo que está mirando.
El método de ataque de “difusión” más avanzado y computacionalmente intensivo camufla una imagen como una imagen diferente a los ojos de la IA.
Definirá una imagen objetivo y optimizará las perturbaciones en su imagen para parecerse a su objetivo.
Cualquier edición que una IA intente realizar en estas imágenes “inmunizadas” se aplicará a las imágenes “objetivo” falsas, lo que dará como resultado una imagen generada de aspecto poco realista.
“El ataque del codificador hace que el modelo piense que la imagen de entrada (que se va a editar) es otra imagen (por ejemplo, una imagen gris)“, dijo el estudiante de doctorado del MIT y autor principal del artículo, Hadi Salman.
“Mientras que el ataque de difusión obliga al modelo de difusión a realizar ediciones hacia alguna imagen de destino (que también puede ser una imagen gris o aleatoria).”
La técnica no es infalible, los actores maliciosos podrían trabajar para aplicar ingeniería inversa a la imagen protegida potencialmente agregando ruido digital, volteando la imagen.
“Un enfoque colaborativo que involucre a desarrolladores de modelos, plataformas de redes sociales y legisladores presenta una sólida defensa contra la manipulación no autorizada de imágenes.
Trabajar en este tema apremiante es de suma importancia hoy”, dijo Salman en un comunicado.
“Y aunque me complace contribuir a esta solución, se necesita mucho trabajo para que esta protección sea práctica.
Las empresas que desarrollan estos modelos deben invertir en diseñar inmunizaciones sólidas contra las posibles amenazas que plantean estas herramientas de IA“.
Fuente: Gradient Science