Investigadores del Centro Samsung de Inteligencia Artificial de Moscú y del Instituto Skolkovo de Ciencia y Tecnología han creado un nuevo sistema que puede transformar imágenes fijas de rostros en secuencias de video de cabezas parlantes de gran realismo.
El sistema desarrollado se basa en la aplicación de puntos de referencia de los movimientos de un ‘rostro objetivo’ sobre los de un ‘rostro fuente’, permitiendo en la práctica que el primero controle el modo en que se mueve el segundo.
En el video en que se explica el funcionamiento del sistema, el ingeniero Egor Zakharov afirma que “el modelo generado puede servir como avatar realista de una persona”.
De hecho, según Samsung, esta tecnología tendrá aplicaciones prácticas tanto para la industria de los efectos especiales como en el ámbito de la telepresencia (sobre todo en videoconferencias y videojuegos multijugador).
Los deepfakes de video no son, a estas alturas, algo novedoso, pero la nueva tecnología de Samsung sí destaca por dos aspectos fundamentales:
No requerir el uso de modelado 3D, y poder utilizar una única fotografía para crear un modelo parlante de una cara (por supuesto, a mayor número de fotos disponibles aumenta tanto el realismo del modelo como sus posibilidades de personalización).
Samsung explica que esta capacidad para crear videos realistas a partir de un único fotograma se debe a su gran base de datos de cabezas parlantes con muy distinta apariencia.
Gracias a eso, el sistema puede recurrir a una GAN (red generativa antagónica) que vaya generando varios modelos, que va modificando hasta que detecta que uno de ellos es lo bastante realista (es decir, que la propia IA lo confunde con un video real).
Según explican los investigadores en el artículo recientemente publicado, “Few-Shot Adversarial Learning of Realistic Neural Talking Head Models”,
“El sistema es capaz de inicializar los parámetros, tanto del generador como del discriminador, de un modo específico para cada persona, por lo que el entrenamiento puede basarse en tan sólo unas pocas imágenes y realizarse de manera rápida pese a la necesidad de ajustar decenas de millones de parámetros”.
Podemos ver desfilar rostros conocidos como los de Marilyn Monroe o Albert Einstein, animados a partir de una única foto… pero quizás el más chocante de ellos sea una Gioconda parlante, animada, claro está, a partir del famoso cuadro de Leonardo Da Vinci conservado en el Louvre.
Y no es el único ejemplo incluido de un rostro animado a partir de un cuadro: si la apariencia del rostro es lo bastante realista, los puntos de referencia de otro rostro humano seguirán pudiéndose usar en él.
En el lado negativo, parece que la amenaza de las manipulaciones de la opinión pública mediante deep fakes, tan temida por las fuerzas de seguridad de los países democráticos, no hace sino reforzarse en estos últimos meses.
Fuente: Xataca
RT-G es un robot avanzado diseñado para escenarios de confrontación. (more…)
Los modelos de aprendizaje automático pueden fallar cuando intentan hacer predicciones para individuos que estaban…
La IA ha llegado a un mercado que estaba maduro para la disrupción: los libros…
Modelar cómo se deforman los automóviles en un choque, cómo responden las naves espaciales a…
Investigadores chinos han afirmado que su unidad generó una producción de electricidad estable durante 160…
Recientemente, Sanctuary AI presentó su mano robótica que ahora es capaz de manipular objetos. (more…)