Es capaz de sintetizar un video de una cabeza parlante utilizando una imagen de origen que contiene la apariencia de la persona objetivo y un video de conducción que dicta el movimiento en la salida.
Luego, este movimiento se codifica en función de una nueva representación de puntos clave, donde la información específica de identidad y relacionada con el movimiento se descompone sin supervisión.
Una extensa validación experimental mostró que su modelo supera a los métodos de la competencia en conjuntos de datos de referencia.
Además, su representación compacta de puntos clave permite un sistema de videoconferencia que logra la misma calidad visual que el estándar comercial H.264 utilizando solo una décima parte del ancho de banda.
“Además, mostramos que nuestra representación de puntos clave permite al usuario girar la cabeza durante la síntesis, lo que es útil para simular una experiencia de videoconferencia cara a cara“, dijeron los investigadores.
Fuente: GitHub
Gemini Pro llega a Google Bard y a principios del año que viene lo hará…
Los gases de átomos ultrafríos son una plataforma bien establecida para el tratamiento de información…
Un nuevo implante cerebral desarrollado por investigadores de la Universidad de Stanford ha demostrado un…
Será el reactor de fusión más grande del mundo hasta que se construya el ITER…
Algo así como una casualidad fue lo que llevó a investigar porqué algunas personas nunca…
El OnePlus 12 quiere ser el rey de la gama premium. Un apartado mejorado de…