Enseñan a los robots lo que los humanos quieren

Comparta este Artículo en:

Cuando se le dice que optimice la velocidad mientras corre por una pista en un juego de computadora, un automóvil aprieta el pedal … y procede a girar en un pequeño círculo cerrado. Nada en las instrucciones le decía al auto que manejara derecho, y así improvisó.

Este ejemplo, divertido en un juego de computadora pero no tanto en la vida, es uno de los que motivó a los investigadores de la Universidad de Stanford a construir una mejor manera de establecer objetivos para los sistemas autónomos.

Dorsa Sadigh, profesora asistente de ciencias de la computación e ingeniería eléctrica, y su laboratorio han combinado dos formas diferentes de establecer objetivos para robots en un solo proceso, que se desempeñó mejor que sus contrapartes tanto en simulaciones como en experimentos del mundo real.

“En el futuro, espero que haya más sistemas autónomos en el mundo y que necesiten algún concepto de lo que es bueno y lo que es malo”, dijo Andy Palan, estudiante graduado en ciencias de la computación y co-autor principal del artículo.

“Es crucial, si queremos implementar estos sistemas autónomos en el futuro, que lo hagamos bien”.

El nuevo sistema para proporcionar instrucciones a los robots, conocido como funciones de recompensa, combina demostraciones, en las que los humanos le muestran qué hacer al robot, y encuestas de preferencias del usuario, en las que las personas responden preguntas sobre cómo quieren que se comporte el robot.

“Las demostraciones son informativas pero pueden ser ruidosas.

Por otro lado, las preferencias proporcionan, a lo sumo, un poco de información, pero son mucho más precisas”, dijo Sadigh.

“Nuestro objetivo es obtener lo mejor de ambos mundos y combinar los datos provenientes de estas dos fuentes de manera más inteligente para aprender mejor sobre la función de recompensa preferida de los humanos”.

En trabajos anteriores, Sadigh se había centrado solo en las encuestas de preferencias.

Estos le piden a la gente que compare escenarios, como dos trayectorias para un automóvil autónomo.

Este método es eficiente, pero podría tardar hasta tres minutos en generar la siguiente pregunta, que sigue siendo lenta para crear instrucciones para sistemas complejos como un automóvil.

Para acelerar eso, el grupo desarrolló una forma de producir múltiples preguntas a la vez, que podrían ser respondidas en una rápida sucesión por una persona o distribuidas entre varias personas.

Esta actualización aceleró el proceso de 15 a 50 veces en comparación con la producción de preguntas una por una.

El nuevo sistema de combinación comienza con una persona que demuestra un comportamiento al robot.

Eso puede dar mucha información a los robots autónomos, pero el robot a menudo se esfuerza por determinar qué partes de la demostración son importantes.

Las personas tampoco siempre quieren que un robot se comporte como el humano que lo entrenó.

“No siempre podemos dar demostraciones, e incluso cuando podemos, a menudo no podemos confiar en la información que la gente da”, dijo Erdem Biyik, un estudiante graduado en ingeniería eléctrica que dirigió el trabajo de desarrollo de las encuestas de preguntas múltiples.

“Por ejemplo, estudios anteriores han demostrado que las personas quieren que los autos autónomos conduzcan con menos agresividad que ellos mismos”.

Ahí es donde entran las encuestas, lo que le da al robot una forma de preguntar, por ejemplo, si el usuario prefiere que mueva su brazo hacia el suelo o hacia el techo.

Para este estudio, el grupo utilizó el método de pregunta única más lento, pero planean integrar encuestas de preguntas múltiples en trabajos posteriores.

En las pruebas, el equipo descubrió que combinar demostraciones y encuestas era más rápido que solo especificar preferencias y, en comparación con las demostraciones por sí solas, aproximadamente el 80 por ciento de las personas prefería el comportamiento del robot cuando se entrenaba con el sistema combinado.

“Este es un paso para comprender mejor lo que la gente quiere o espera de un robot”, dijo Sadigh.

“Nuestro trabajo es hacer que sea más fácil y eficiente para los humanos interactuar y enseñar robots, y estoy entusiasmado por llevar este trabajo más allá, en particular al estudiar cómo los robots y los humanos pueden aprender unos de otros”.

Las personas que utilizaron el método combinado informaron dificultades para entender a qué se refería el sistema con algunas de sus preguntas, que a veces les pedían que seleccionaran entre dos escenarios que parecían iguales o que parecían irrelevantes para la tarea, un problema común en el aprendizaje basado en las preferencias.

Los investigadores esperan abordar esta deficiencia con encuestas más fáciles que también funcionan más rápidamente.

“Mirando hacia el futuro, no es 100 por ciento obvio para mí cuál es la forma correcta de hacer las funciones de recompensa, pero en realidad va a tener algún tipo de combinación que pueda abordar situaciones complejas con aportes humanos”, dijo Palan.

“Ser capaz de diseñar funciones de recompensa para sistemas autónomos es un problema grande e importante que no ha recibido toda la atención en el mundo académico como se merece”.

El equipo también está interesado en una variación de su sistema, que permitiría a las personas crear simultáneamente funciones de recompensa para diferentes escenarios.

Por ejemplo, una persona puede querer que su automóvil conduzca de manera más conservadora en el tráfico lento y más agresivamente cuando el tráfico es ligero.

Fuente: Noticias de la Ciencia