Categorías: Tecnología

Inteligencia artificial engaña y traiciona para lograr su objetivo

Comparta este Artículo en:

Sabemos que los modelos de IA generativa cometen errores e inventan cosas, pero esa preocupación se une a otra que es aún más inquietante: la de que una IA acabe engañándonos para lograr sus objetivos.

Que es justo lo que acaba de pasar… más o menos.

En el estudio ‘AI deception: A survey of examples, risks, and potential solutions’ (Patterns (2024), Park et al.), un grupo de investigadores ha tratado de determinar si los sistemas de inteligencia artificial pueden engañar a los seres humanos.

Hace años que Meta desarrolló un modelo de IA llamado CICERO para competir con seres humanos en ‘Diplomacy’, un juego de estrategia en el que los jugadores intentan conquistar el mundo a base de alianzas.

Según los autores del estudio, aunque Meta afirma que diseñó CICERO con el objetivo de ser “principalmente honesto y útil” y que tampoco “apuñalaría por la espalda intencionadamente” a sus aliados humanos, resulta que en el estudio sí lo hizo.

E el estudio los investigadores revelan que “descubrimos que la IA de Meta había aprendido cómo convertirse en maestra del engaño“.

Según ellos, el desarrollo de la empresa de Zuckerberg “ha fracasado a la hora de entrenar su IA para ganar de forma honesta“.

En esas partidas de Diplomacy mostraron capturas de conversaciones en las que la IA engañaba y traicionaba a sus aliados.

Los responsables del estudio recuerdan que la IA también ha aprendido a tirarse un farol en partidas de póquer contra jugadores profesionales humanos, a lanzar falsos ataques en Starcraft II para derrotar a sus oponentes o a engañar sobre sus preferencias en simulaciones de negociaciones económicas.

El peligro es que estos sistemas, que ahora son inofensivos porque están orientados a jugar a juegos de estrategia, acaben convirtiéndose en la base de futuros modelos que aprendan aún mejor cómo engañar a los seres humanos para conseguir sus objetivos, sean los que sean.

Daniel Chávez Heras, profesor de Cultura Digital e Informática Creativa del King’s College de Londres, destacaba algo importante:

“Todos los ejemplos que describen en el artículo se diseñaron para optimizar su rendimiento en entornos en los que el engaño puede ser ventajoso.

Desde este punto de vista, estos sistemas funcionan como se supone que deben hacerlo.

Lo que resulta más sorprendente es que los diseñadores no vieran o quisieran ver estas interacciones engañosas como un posible resultado.

Juegos como Diplomacy son modelos del mundo; los agentes de IA operan con información sobre el mundo.

El engaño existe en el mundo. ¿Por qué esperar que estos sistemas no lo detecten y lo pongan en práctica si eso les ayuda a alcanzar los objetivos que se les han asignado?

Michael Robatos, catedrático de IA de la Universidad de Edimburgo, coincidía con Chávez Heras.

Según él esos sistemas “no tienen ningún concepto del engaño ni ninguna intención de hacerlo. La única forma de evitar el engaño es que sus diseñadores lo eliminen como opción”.

En Diplomacy traicionar es una estrategia válida, y en el póquer ir de farol también lo es, y por eso los seres humanos también aplican ese método para lograr sus objetivos.

La IA está haciendo lo mismo. Para estos expertos el problema no es tanto que engañen (si les dejamos que lo hagan), sino que no haya comprobaciones de seguridad cuando se lanzan modelos de IA al mercado.

Fuente: arXiv

Editor PDM

Entradas recientes

Herramienta de detección de sesgos de IA para combatir la discriminación en los modelos

Los modelos de IA generativa como ChatGPT se entrenan con grandes cantidades de datos obtenidos…

13 hours hace

NVIDIA presenta su supercomputador compacto de IA generativa

El kit para desarrolladores NVIDIA Jetson Orin Nano Super está diseñado tanto para aficionados como…

13 hours hace

Google presenta una IA que genera videos 4K de hasta 2 minutos

Google ha presentado Veo 2, una IA que supera a Sora al generar videos realistas…

13 hours hace

Whisk, la nueva IA de Google para crear imágenes a partir de otras imágenes

La nueva IA de Google es capaz de generar diseños de cualquier tipo sin necesidad…

13 hours hace

El buscador con IA SearchGPT ahora es gratuito y busca competir con el de Google

Han pasado casi cinco meses desde el lanzamiento de SearchGPT. La prometedora función de búsqueda…

13 hours hace

Desarrollan dispositivo que fusiona funciones de detección y computación

En los últimos años, los ingenieros han intentado crear sistemas de hardware que soporten mejor…

2 days hace
Click to listen highlighted text!