Google presenta agente de IA para navegar por Internet

Comparta este Artículo en:

Los chatbots como Gemini y ChatGPT podrían ser solo la punta del iceberg en la revolución de la inteligencia artificial (IA).

Todo apunta a que el próximo gran avance de esta industria llegará con los agentes: programas diseñados para tomar el control de sistemas o aplicaciones y llevar a cabo una amplia variedad de tareas.

Google acaba de dar un paso importantísimo en esta dirección.

Ha presentado a Project Mariner (anteriormente conocido como Project Jarvis).

Se trata de un agente de IA diseñado para comprender lo que aparece en la pantalla del navegador y realizar acciones en nombre del usuario.

El mismo está basado en Gemini 2.0, la versión más reciente de la familia de modelos de lenguaje de la compañía.

Project Mariner tiene la capacidad de interactuar con páginas web gracias a una extensión experimental disponible en Chrome.

En primer lugar, el sistema analiza las instrucciones del usuario (escritas o a través de la voz).

Después intenta realizar las peticiones solicitadas analizando los pixeles, el texto de las páginas, el código, las imágenes e incluso los formularios.

En un video de demostración vemos una ventana de Chrome con una hoja de cálculo abierta que contiene los nombres de varias compañías.

Una integrante del equipo de Google DeepMind le pide al agente que tome la lista de las compañías y que busque sus páginas web para extraer un correo electrónico de contacto.

Inmediatamente, el agente comienza a hacer exactamente lo que se le ha pedido.

Abre la página del buscador de Google, busca cada una de las compañías, navega dentro de ellas hasta el apartado About Us (Sobre nosotros) y extrae la información.

El agente va realizando un informe visual del progreso en una barra lateral del navegador, lo que permite saber exactamente qué está haciendo.

También que es posible detener su funcionamiento en cualquier momento.

Google dice que el agente puede ser útil para automatizar tareas repetitivas y ayudar a ahorrar tiempo a las personas.

Y, si una petición no es los suficientemente clara, el agente puede pedir aclaraciones o más información al usuario.

Esto debería reducir las situaciones de fallo. Cabe señalar que la compañía espera que su agente cometa algunos errores, pues se trata de una versión experimental disponible momentáneamente solo para algunos “probadores de confianza”.

En octubre de este año conocimos a Computer Use de Anthropic, un sistema que permite automatizar tareas en el sistema operativo del computador.

Dado que se trata de una versión inicial, el agente de Anthropic todavía es muy limitado.

Hay tareas que no consigue completar, y en ocasiones se vuelve lento o comete errores. En cualquier caso, esta tecnología debería seguir evolucionando.

Fuente: DeepMind