Es capaz de sintetizar un video de una cabeza parlante utilizando una imagen de origen que contiene la apariencia de la persona objetivo y un video de conducción que dicta el movimiento en la salida.
Luego, este movimiento se codifica en función de una nueva representación de puntos clave, donde la información específica de identidad y relacionada con el movimiento se descompone sin supervisión.
Una extensa validación experimental mostró que su modelo supera a los métodos de la competencia en conjuntos de datos de referencia.
Además, su representación compacta de puntos clave permite un sistema de videoconferencia que logra la misma calidad visual que el estándar comercial H.264 utilizando solo una décima parte del ancho de banda.
“Además, mostramos que nuestra representación de puntos clave permite al usuario girar la cabeza durante la síntesis, lo que es útil para simular una experiencia de videoconferencia cara a cara“, dijeron los investigadores.
Fuente: GitHub