Impresionante inteligencia artificial que crea videos combinando una imagen y un archivo de voz

Comparta este Artículo en:

EMO, la nueva inteligencia artificial viene de China, y ha sido presentada por Alibaba.

Emote Portrait Alive (EMO) es una IA generativa que permite generar videos de retratos a partir de una imagen y un archivo de voz.

Pero lo más llamativo es el resultado. La sincronización labial es excelente, pero también lo son las expresiones, que se adaptan en función del tono de voz.

Audrey Hepburn cantando Perfect de Ed Sheeran o a la mujer del video de Sora hablando con la voz de Mira Murati, en lo que es claramente una referencia interna entre los equipos que se dedican a la inteligencia artificial.

EMO ha sido desarrollado por Linrui Tian, Qi Wang, Bang Zhang y Liefeng Bo, del Instituto de Inteligencia Computacional del Grupo Alibaba.

Como ocurre con Sora, por el momento se trata de una herramienta dedicada a investigación y no está disponible al público para ser utilizada.

Sí comparten múltiples ejemplos con las distintas posibilidades.

Además de ver cantar o hablar, también encontramos ejemplos donde a partir de una misma imagen se obtiene un video de la persona enfadada, contenta o reflexiva.

EMO puede generar videos de retrato de distinto tiempo, en función de la duración que tenga el archivo de audio a partir del cual se genera.

Según explican los investigadores, la consistencia del personaje se mantiene durante todo el video.

Viendo los resultados es fácil pensar en el impacto que puede tener para múltiples actores.

Durante la huelga se discutió sobre los derechos de imagen, pero EMO también pone el foco en la voz.

Una característica igualmente única y a partir de la cual se pueden conseguir efectos impresionantes.

Fuente: GitHub