Se llama Vlogger y sus resultados son sorprendentemente realistas.
En un documento técnico, el equipo de Google describe a Vlogger como un “marco novedoso para sintetizar humanos a partir de audio“, y agrega que “es precisamente la automatización y el realismo conductual lo que buscamos en este trabajo… una interfaz multimodal para un agente conversacional encarnado.”
Este “agente”, continúan, está en última instancia “diseñado para respaldar conversaciones naturales con un usuario humano”.
Entonces, en otras palabras, el objetivo de estos investigadores es absolutamente crear personas falsas de apariencia realista que interactúen de una manera “humana” con seres humanos reales en el otro extremo.
En el artículo, los investigadores proponen que este modelo, que requiere sólo una imagen y un clip de audio deseado como entradas, podría usarse para “mejorar la comunicación en línea, la educación o los asistentes virtuales personalizados”.
Vlogger también puede editar videos en movimiento, lo que, según los investigadores, “facilitará los procesos creativos“.
Sin embargo, no mencionan que una herramienta que podría generar videoclips completamente sintéticos, en movimiento y hablando a partir de una sola imagen, parece propicia para el abuso.
De hecho, son los avances que Google afirma haber realizado en su creación de Vlogger los que lo hacen tan hipotéticamente peligroso.
Los deepfakes de IA, por ejemplo, ya son un problema creciente.
Pero si bien generar un deepfake es más fácil que nunca debido a la disponibilidad pública de herramientas de IA generativa, crear un video deepfake particularmente convincente generalmente requiere una combinación de múltiples herramientas de IA.
En este momento, cuando se utiliza el modelo Vlogger, los usuarios aún deben proporcionar el audio deseado para el video.
Aun así, Vlogger probablemente agilizaría el proceso en general.
Vlogger “no requiere formación para cada persona” que anima su tecnología.
Los investigadores también dicen que “genera la imagen completa” y “considera un amplio espectro de escenarios” que “son críticos para sintetizar correctamente a los humanos que se comunican”.
En pocas palabras, eso significa que Vlogger no requiere entrenamiento específico para cada persona animada individualmente, lo que presumiblemente le permite crear un video falso realista a partir de una sola imagen de casi cualquier persona, incluidas personas comunes y corrientes que no están en el ojo público.
Las animaciones de IA de Vlogger aún no son perfectas.
Todavía tienen un toque claramente inhumano, moviéndose y hablando de una manera extrañamente robótica.
Pero habilitada por una gran cantidad de datos (la herramienta está entrenada en el conjunto de datos MENTOR, un vasto tesoro que comprende 2.200 horas de video y “800.000 identidades”, según el artículo), la tecnología es impresionante de todos modos.
Fuente: GitHub