Un mensaje pirateado en una canción transmitida hace que Alexa envíe dinero a una entidad extranjera.
Un carro autónomo se choca después de que un bromista coloca estratégicamente calcomanías en una señal de alto, por lo que el auto lo interpreta mal como una señal de límite de velocidad.
Afortunadamente, aún no han ocurrido, pero este tipo de ataques, a veces llamados ataques adversos, podrían convertirse en algo común, a menos que la inteligencia artificial (IA) encuentre una manera de ser más astuta que ellos.
Ahora, investigadores han encontrado una nueva forma de darle a la IA una ventaja defensiva.
Este trabajo no solo podría proteger al público.
También ayuda a revelar por qué la IA, notoriamente difícil de entender, es víctima de tales ataques en primer lugar, dice Zico Kolter, un científico informático de la Universidad Carnegie Mellon, en Pittsburgh, Pennsylvania, que no participó en la investigación.
Debido a que algunas IA son demasiado inteligentes para su propio bien, al detectar patrones en imágenes que los humanos no pueden, son vulnerables a esos patrones y deben ser entrenadas con eso en mente, sugiere la investigación.
Para identificar esta vulnerabilidad, los investigadores crearon un conjunto especial de datos de entrenamiento: imágenes que para nosotros parece una cosa, pero a la IA le parecen otra: una imagen de un perro, por ejemplo, que, examinada de cerca por una computadora, tiene aspecto de piel de gato.
Luego, el equipo etiquetó erróneamente las imágenes, por ejemplo, calificando a la imagen del perro como la imagen de un gato, y entrenó un algoritmo para aprender las etiquetas.
Una vez que la IA había aprendido a ver a los perros con rasgos sutiles de gato como gatos, la probaron pidiéndole que reconociera imágenes nuevas y no modificadas.
A pesar de que la IA se había entrenado de esta manera extraña, podía identificar correctamente a los perros, gatos, etc., casi la mitad del tiempo.
En esencia, había aprendido a hacer coincidir las características sutiles con las etiquetas, independientemente de las características obvias.
El experimento de entrenamiento sugiere que las IA usan dos tipos de características, macros obvias como orejas y colas que las personas reconocen, y micro que solo podemos adivinar.
It is known that there are certain special hormones produced cialis no prescription in the testicles of men. Surely, buying viagra without prescription small male organ cannot excite women to begin having ejaculation. The period usually strikes at forty when age normally causes internal troubles to almost everyone. generic levitra 40mg ED pills are sales uk viagra safe when ordering on the web.Además, sugiere que los ataques adversos no solo confunden una IA con ajustes sin sentido en una imagen.
En esos ajustes, la IA está viendo inteligentemente rastros de otra cosa.
Una IA puede ver una señal de stop como una señal de límite de velocidad, por ejemplo, porque algo acerca de los adhesivos en realidad hace que se parezca sutilmente a una señal de límite de velocidad de una manera que los humanos son demasiado ajenos para comprender.
Algunos en el campo de la IA sospechaban que este era el caso, pero es bueno tener un trabajo de investigación que lo muestre, dice Kolter. Bo Li, un científico informático de la Universidad de Illinois en Champaign que no estuvo involucrado en el trabajo, dice que distinguir las características aparentes de las ocultas es una “dirección de investigación útil y buena”, pero que “todavía hay un largo camino” para hacerlo eficientemente.
Así que ahora que los investigadores tienen una mejor idea de por qué la IA comete tales errores, ¿se puede usar para ayudarlos a superar a los ataques adversos?
Andrew Ilyas, científico informático del Instituto de Tecnología de Massachusetts (MIT) en Cambridge, y uno de los autores del artículo, dice que los ingenieros podrían cambiar la forma en que entrenan a la AI.
Los métodos actuales para asegurar un algoritmo contra ataques son lentos y difíciles.
Pero si modifica los datos de entrenamiento para tener solo características obvias para el ser humano, cualquier algoritmo entrenado en ellos no reconocerá, y se dejará engañar por, características adicionales, quizás más sutiles.
Y, de hecho, cuando el equipo entrenó un algoritmo en imágenes sin las características sutiles, su software de reconocimiento de imagen fue engañado por ataques adversos solo el 50% del tiempo,
Eso se compara con una tasa de vulnerabilidad del 95% cuando la IA se entrenó en imágenes con patrones obvios y sutiles.
En general, los hallazgos sugieren que las vulnerabilidades de una IA se encuentran en sus datos de entrenamiento, no en su programación, dice Dimitris Tsipras de MIT, coautor.
Según Kolter, “una de las cosas que este artículo hace realmente bien es que lleva ese punto a casa con ejemplos muy claros”, como la demostración de que los datos de entrenamiento aparentemente mal etiquetados todavía pueden ayudar a una capacitación exitosa, “que hacen que esta conexión sea muy visceral”.
Fuente: Science Mag