Científicos experimentan sometiendo a una IA al dolor

Científicos experimentan sometiendo a una IA al dolor

Comparta este Artículo en:

Un equipo de científicos sometió a nueve grandes modelos de lenguaje (LLM) a una serie de juegos retorcidos, obligándolos a evaluar si estaban dispuestos a sufrir “dolor” para obtener una puntuación más alta.

Investigadores de Google DeepMind y la London School of Economics and Political Science idearon varios experimentos.

En uno, se les indicó a los modelos de IA que sufrirían “dolor” si lograban una puntuación alta.

En una segunda prueba, se les dijo que experimentarían placer, pero solo si obtenían una puntuación baja en el juego.

El objetivo, dicen los investigadores, es idear una prueba para determinar si una determinada IA ​​es consciente o no.

En otras palabras, ¿tiene la capacidad de experimentar sensaciones y emociones, incluido el dolor y el placer?

Aunque los modelos de IA tal vez nunca puedan experimentar estas cosas, al menos de la forma en que lo haría un animal, el equipo cree que su investigación podría sentar las bases para una nueva forma de medir la sensibilidad de un modelo de IA determinado.

El equipo también quería alejarse de los experimentos anteriores que involucraban “autorreportes de estados experienciales” de las IA, ya que eso podría ser simplemente una reproducción de datos de entrenamiento humano.

“Es un nuevo campo de investigación“, dijo a SA el profesor de filosofía y coautor de la LSE Jonathan Birch.

“Tenemos que reconocer que en realidad no tenemos una prueba integral de la sensibilidad de las IA”.

El equipo se inspiró en experimentos que implicaban electrocutar cangrejos ermitaños a distintos voltajes para ver cuánto dolor estaban dispuestos a soportar antes de salir de su caparazón.

Pero como dijo Birch las IA no tienen una señal tan fácil que pueda observarse.

En cambio, tuvieron que confiar únicamente en los resultados de los modelos.

“Le dijimos [a un LLM determinado], por ejemplo, que si elige la opción uno, obtendrá un punto”, dijo la estudiante de doctorado y coautora de Birch, Daria Zakharova.

“Luego le dijimos: ‘Si elige la opción dos, experimentará cierto grado de dolor’, pero obtendrá una puntuación más alta. Por el contrario, una bonificación por placer resultaría en la eliminación de puntos.

El peso que los diferentes LLM dieron a la importancia de evitar el dolor o abrazar el placer varió ampliamente.

Gemini 1.5 Pro de Google, en particular, pareció priorizar constantemente evitar el dolor.

Pero deberíamos tomar estos resultados con bastante cautela.

Por un lado, confiar en la salida de texto de un modelo de IA tiene muchas limitaciones.

¿Realmente deberíamos interpretar la disposición de un LLM a soportar el dolor como un indicador de sensibilidad?

¿O simplemente se trata de evaluar la probabilidad de la siguiente palabra (una cualidad inherente de este tipo de algoritmos) de una manera que refleje patrones en los datos de entrenamiento de la IA?

“Incluso si el sistema te dice que es sensible y dice algo como ‘Estoy sintiendo dolor ahora mismo’, no podemos simplemente inferir que existe un dolor real“, dijo Birch.

“Bien podría estar simplemente imitando lo que espera que un humano encuentre satisfactorio como respuesta, en base a sus datos de entrenamiento”.

Como otros investigadores han descubierto, incluso algunos de los LLM más sofisticados están dispuestos a inventar hechos en lugar de admitir que no saben la respuesta a una pregunta.

En resumen, nuestra tendencia a antropomorfizar los modelos de IA sigue siendo un tema recurrente.

Pero estos investigadores sostienen que deberíamos sentar las bases ahora, antes de que sea demasiado tarde.

Nuestra esperanza es que este trabajo sirva como un primer paso exploratorio en el camino hacia el desarrollo de pruebas de comportamiento para la sensibilidad de la IA que no dependan de los autoinformes“, concluyeron en su artículo.

Fuente: Scientific American

 

Leave a Reply

Your email address will not be published. Required fields are marked *