Project Astra es la ambiciosa iniciativa de Google para plantear el asistente de voz del futuro. Uno potenciado por la IA y por la visión que proporcionan las cámaras de nuestros smartphones o de otros dispositivos.
Así se llama este ambicioso proyecto de Google con el que quieren “desarrollar agentes de IA universales que puedan ser útiles en nuestra vida cotidiana“.
Un asistente de estas características debe ser capaz de entender y responder de la misma forma que lo hacen los humanos.
También “recordar lo que ve y oye para entender el contexto y actuar“.
Los responsables de la empresa reconocen que han avanzado mucho en la comprensión de información multimodal (esto es, que le llegan datos de texto, de voz, de audio, de video).
Sin embargo, “reducir el tiempo de respuesta a algo orientado a la conversación es un reto ingenieril difícil”.
En Project Astra están trabajando en ofrecer modelos de síntesis de voz que tengan mayor calidad y que permitan que los distintos agentes tengan una amplia variedad de entonaciones.
Según Google, los agentes serán capaces de entender el contexto en el que se están usando mejor que nunca, y además responderán rápido.
Todo ese aprendizaje acabará integrado en soluciones como la aplicación móvil de Gemini, que será equivalente a la que OpenAI ha presentado con ese ChatGPT basado en GPT-4o.
La aplicación, indican en Google, estará disponible antes de que acabe el año.
En el video de demostración publicado por Google se ve en funcionamiento una versión preliminar de Project Astra que hace uso de las cámaras del móvil para reconocer objetos de forma sorprendente.
De hecho en Google plantean opciones curiosas, como las de dibujar una flecha en la pantalla para luego pedirle al modelo que describa qué es ese objeto en pantalla.
Nos recuerda a esa nueva característica de “Rodear para buscar”, pero en este caso aplicada a esas consultas en directo sobre cosas que el modelo de IA reconoce.
Lo más llamativo del video llegó en la parte final, cuando la persona que está realizando la demostración pregunta “¿Dónde he dejado mis gafas“.
El asistente se lo indica, y cuando se las pone resulta que no son unas gafas de ver normales: ¡son unas gafas con cámara y la integración de Project Astra!.
A partir de ahí la usuaria hace unas breves demostraciones de cómo gracias a esa integración el modelo va ayudando y respondiendo a las preguntas de la usuaria de forma notable e ingeniosa.
Project Astra parece por tanto ser un competidor directo de las funciones que se presentaron con GPT-4o por parte de OpenAI.
La firma liderada por Sam Altman parece haberse adelantado ligeramente porque esas opciones de interacción por voz ya están llegando poco a poco a algunos usuarios, pero su disponibilidad masiva probablemente tarde varias semanas… o meses.
Google va ligeramente retrasada, pero esta alternativa parece igual de prometedora y será una interesante forma de animar esta particular competencia.
Fuente: Google