El modelo registra “sorpresa” cuando los objetos en una escena hacen algo inesperado, lo que podría usarse para construir una inteligencia artificial más inteligente.
Los humanos tienen una comprensión temprana de las leyes de la realidad física.
Los bebés, por ejemplo, tienen expectativas de cómo los objetos deben moverse e interactuar entre ellos, y mostrarán sorpresa cuando hacen algo inesperado, como desaparecer en un truco de de prestidigitación.
Ahora los investigadores del MIT han diseñado un modelo que demuestra la comprensión de algunas “físicas intuitivas” básicas sobre cómo deben comportarse los objetos.
El modelo podría usarse para ayudar a construir una inteligencia artificial más inteligente y, a su vez, proporcionar información para ayudar a los científicos a comprender la cognición infantil.
El modelo, llamado ADEPT, observa los objetos que se mueven en una escena y hace predicciones sobre cómo deberían comportarse los objetos, en función de su física subyacente.
Mientras rastrea los objetos, el modelo emite una señal en cada cuadro de video que se correlaciona con un nivel de “sorpresa”: cuanto mayor es la señal, mayor es la sorpresa.
Si un objeto no coincide de manera dramática con las predicciones del modelo, por ejemplo, al desaparecer o teletransportarse a través de una escena, sus niveles de sorpresa aumentarán.
En respuesta a videos que muestran objetos que se mueven de manera físicamente plausible e inverosímil, el modelo registró niveles de sorpresa que coincidieron con los niveles reportados por humanos que habían visto los mismos videos.
“Para el momento en que los bebés tienen 3 meses de edad, tienen la noción de que los objetos no parpadean dentro y fuera de la existencia, y no pueden moverse entre sí o teletransportarse”, dice el primer autor Kevin A. Smith, científico investigador en El Departamento de Cerebro y Ciencias Cognitivas (BCS) y miembro del Centro de Cerebros, Mentes y Máquinas (CBMM).
“Queríamos capturar y formalizar ese conocimiento para construir la cognición infantil en agentes de inteligencia artificial.
Ahora nos estamos acercando a la forma humana en la forma en que los modelos pueden separar escenas básicas inverosímiles o plausibles”.
ADEPT se basa en dos módulos: un módulo de “gráficos inversos” que captura representaciones de objetos de imágenes en bruto, y un “motor de física” que predice las representaciones futuras de los objetos a partir de una distribución de posibilidades.
Los gráficos inversos básicamente extraen información de los objetos, como la forma, la pose y la velocidad, de las entradas de pixeles.
Este módulo captura cuadros de video como imágenes y utiliza gráficos inversos para extraer esta información de los objetos en la escena.
Pero no se atasca en los detalles.
ADEPT requiere solo una geometría aproximada de cada forma para funcionar.
En parte, esto ayuda al modelo a generalizar predicciones a nuevos objetos, no solo a aquellos en los que está entrenado.
“No importa si un objeto es un rectángulo o un círculo, o si es un camión o un pato”.
ADEPT solo ve que hay un objeto con cierta posición, moviéndose de cierta manera, para hacer predicciones “, dice Smith.
“Del mismo modo, a los bebés pequeños tampoco parece importarles mucho algunas propiedades, como la forma, cuando hacen predicciones físicas”.
Estas descripciones de objetos gruesos se introducen en un motor de física: software que simula el comportamiento de sistemas físicos, como cuerpos rígidos o fluidos, y se usa comúnmente para películas, videojuegos y gráficos por computadora.
El motor de física de los investigadores “empuja los objetos hacia adelante en el tiempo”, dice Ullman.
Esto crea un rango de predicciones, o una “distribución de creencias”, para lo que sucederá con esos objetos en el siguiente cuadro.
A continuación, el modelo observa el siguiente fotograma real.
Una vez más, captura las representaciones de objetos, que luego se alinea con una de las representaciones de objetos predichas de su distribución de creencias.
Si el objeto obedeció las leyes de la física, no habrá mucho desajuste entre las dos representaciones.
Sexual parts of a human body are always delicate and should not be washed with ordinary http://www.midwayfire.com/documents/MFD%20Scholarship%20Offer.pdf cialis in the uk body soaps or shower gels that contain chemical irritants; shampoos and other personal care items also tend to leech away the skin’s natural lubricants and can cause cracked, peeling, sore penis skin. When purchased in prescription du viagra bulk, you can easily get one tablet is less than 3 pounds. The Sildenafil loaded cheap viagra canada pill ensures a healthy erection upon arousal. One can also place order to have it in any part of this system, therefore, a better understanding of different issues related to this system, would enable us to not only prevent the disease but would also help us tremendously to cope with the diseases related to the urinary system affect the digestive and reproductive systems buy generic levitra bought that as well, it is embarrassing for a man.Por otro lado, si el objeto hizo algo inverosímil, por ejemplo, desapareció detrás de una pared, habrá una gran falta de coincidencia.
ADEPT luego vuelve a muestrear su distribución de creencias y observa una probabilidad muy baja de que el objeto simplemente haya desaparecido.
Si hay una probabilidad suficientemente baja, el modelo registra una gran “sorpresa” como un pico de señal.
Básicamente, la sorpresa es inversamente proporcional a la probabilidad de que ocurra un evento.
Si la probabilidad es muy baja, el pico de señal es muy alto.
“Si un objeto va detrás de una pared, su motor de física mantiene la creencia de que el objeto todavía está detrás de la pared.
Si el muro se cae, y no hay nada allí, hay un desajuste “, dice Ullman.
“Entonces, el modelo dice:” Hay un objeto en mi predicción, pero no veo nada. La única explicación es que desapareció, así que eso es sorprendente “.
En psicología del desarrollo, los investigadores realizan pruebas de “violación de las expectativas” en las que a los bebés se les muestran pares de videos.
Un video muestra un evento plausible, con objetos que se adhieren a sus nociones esperadas de cómo funciona el mundo.
El otro video es el mismo en todos los sentidos, excepto que los objetos se comportan de una manera que viola las expectativas de alguna manera.
Los investigadores a menudo usarán estas pruebas para medir cuánto tiempo mira el bebé una escena después de que haya ocurrido una acción inverosímil.
Mientras más miren, los investigadores plantean la hipótesis, más se sorprenderán o interesarán por lo que acaba de suceder.
Para sus experimentos, los investigadores crearon varios escenarios basados en la investigación clásica del desarrollo para examinar el conocimiento del objeto central del modelo.
Emplearon a 60 adultos para mirar 64 videos de escenarios conocidos físicamente plausibles y físicamente inverosímiles.
Los objetos, por ejemplo, se moverán detrás de una pared y, cuando la pared se caiga, seguirán allí o se habrán ido.
Los participantes calificaron su sorpresa en varios momentos en una escala creciente de 0 a 100.
Luego, los investigadores mostraron los mismos videos al modelo.
Específicamente, los escenarios examinaron la capacidad del modelo para capturar nociones de permanencia (los objetos no aparecen o desaparecen sin ninguna razón), la continuidad (los objetos se mueven a lo largo de trayectorias conectadas) y la solidez (los objetos no pueden moverse entre sí).
ADEPT coincidió con los humanos particularmente bien en videos donde los objetos se movían detrás de las paredes y desaparecían cuando se retiraba la pared.
Curiosamente, el modelo también coincidió con niveles de sorpresa en videos que a los humanos no les sorprendió, pero que tal vez deberían haberlo hecho.
Por ejemplo, en un video donde un objeto que se mueve a cierta velocidad desaparece detrás de una pared e inmediatamente sale del otro lado, el objeto podría haberse acelerado dramáticamente cuando se fue detrás de la pared o podría haberse teletransportado al otro lado.
En general, los humanos y ADEPT estaban menos seguros de si ese evento fue o no sorprendente.
Los investigadores también encontraron que las redes neuronales tradicionales que aprenden física a partir de las observaciones, pero no representan objetos explícitamente, son mucho menos precisas para diferenciar escenas sorprendentes de escenas no sorprendentes, y sus elecciones para escenas sorprendentes a menudo no se alinean con los humanos.
Luego, los investigadores planean profundizar en cómo los bebés observan y aprenden sobre el mundo, con el objetivo de incorporar cualquier nuevo hallazgo en su modelo.
Los estudios, por ejemplo, muestran que los bebés hasta cierta edad en realidad no están muy sorprendidos cuando los objetos cambian por completo de alguna manera, como si un camión desaparece detrás de una pared, pero resurge como un pato.
“Queremos ver qué más se debe incorporar para comprender el mundo más como los bebés y formalizar lo que sabemos sobre psicología para construir mejores agentes de IA”, dice Smith.
Fuente: SciTechDaily
Recientemente, Sanctuary AI presentó su mano robótica que ahora es capaz de manipular objetos. (more…)
Especialistas en robótica de la Universidad de Leeds y el University College de Londres han…
El lenguaje de señas es un medio de comunicación sofisticado y vital para las personas…
Según un nuevo estudio dirigido por el Imperial College, una tecnología de navegación que utiliza…
Gemini 2.0 Flash Thinking Experimental es una nueva versión de la IA de Google que…
Las computadoras cuánticas difieren fundamentalmente de las clásicas. En lugar de utilizar bits (0 y…