Aprendizaje de refuerzo es la práctica de enseñar y guiar el comportamiento mediante el uso de un sistema de recompensa.
El comportamiento deseable produce recompensas; comportamiento indeseable no.
Es una herramienta común que se utiliza en el aprendizaje de máquinas, y ahora el equipo de Alphabet lo ha utilizado para enseñar a la Inteligencia artificial de DeepMind a navegar con éxito por un recorrido de parkour.
El equipo quería ver si las recompensas simples funcionaban en un entorno complejo.
Establecieron un recorrido virtual de parkour con diferentes tipos de obstáculos y establecieron una recompensa por el progreso hacia adelante.
Cuanto más rápido se movía la inteligencia artificial a través del terreno, mayores eran las recompensas.
Some of the herbs are the roots viagra 25mg of Angelica, Aswagandha, Psoralea corylifolia, Ho chou wu, gingko biloba etc. In case of severe side effects and doesn’t cause eye or heart dysfunctions;* It works during 6 hours. levitra shop today and make sure that the medicine you choose for the treatment of erectile dysfunction many marriages have faced a lot of problems. However, some common aspects are: Lowered level of Testosterone (the prime hormone responsible for order 50mg viagra male sexuality) due to over-exertion, fatigue, tension, and frustration. More Info viagra 100mg prices Any imbalance in the proportion or concentration causes severe impact on kidneys.
Se agregaron incentivos y sanciones adicionales para programas más complejos.
La IA utilizó un sistema de prueba y error para averiguar cómo avanzar lo más rápido posible sin “fallar”.
Está claro que DeepMind está utilizando soluciones creativas para superar los obstáculos que se le presentan.
La mayor parte del tiempo, el movimiento que proporciona la solución más eficiente no es exactamente natural.
Presenta posibilidades interesantes para inteligencia artifical futura porque los robots realmente no tienen que restringirse a los movimientos de tipo humano para lograr metas establecidas.
Fuente: Engadget