INTELIGENCIA ARTIFICIAL CAPAZ DE CREAR VIDEOS DEEPFAKE REALISTAS A PARTIR DE UN CLIP DE AUDIO

Inteligencia artificial capaz de crear videos deepfake realistas a partir de un clip de audio

Comparta este Artículo en:

La inteligencia artificial puede aplicarse en infinidad de campos y uno de los más controvertidos es el de la manipulación de videos.

Estos clips manipulados, conocidos como deepfakes, suponen todo un reto para las grandes plataformas sociales como Facebook, y es que no dejan de mejorar y de hacerse más difíciles de detectar.

Prueba de ello es la nueva IA de SenseTime, el gigante tecnológico de Hong Kong, que es capaz de crear deepfakes realistas.

Resumiendo su funcionamiento, la IA detecta en cada frame de un vídeo elementos como la expresión, la geometría y la pose de la cara.

Posteriormente, explican los autores del artículo, “se introduce una red recurrente para traducir el audio de origen en parámetros de expresión que están relacionados con el contenido de audio“.

Estos parámetros de expresión se usan para sintetizar un “humano foto-realista” en cada frame del video “con el movimiento de las regiones de la boca mapeado con precisión al audio de origen“.

¿En qué se traduce esto?

En que el video generado emula las expresiones faciales que se interpretan del clip de audio original, pero respetando la pose y características del rostro del sujeto, dando como resultado un video realista que, como pudieron comprobar los autores del estudio, es complicado de detectar a simple vista por los usuarios.

La metodología seguida por los investigadores es relativamente sencilla.

Puede ver un esquema en la imagen superior y se puede resumir en tres pasos:

Registrar un modelo facial paramétrico en 3D que incluye, como decíamos, la geometría de la cara, la pose y los parámetros de la expresión en cada frame del video.

La red de traducción de audio a expresión “aprende” el mapeo de la fuente de audio para aplicar los parámetros de expresión.

A este se le aplica Audio ID-Removing Network, que sirve para eliminar los problemas de grandes variaciones cuando se usan audios de diferentes personas.

Es importante, ya que los escasos datasets de vídeos disponibles incluyen diferentes sujetos, cada uno con su acento y su tono.

Finalmente, se genera una malla facial 3D reestructurada usando los puntos de referencia de la región de la boca en cada frame.

Dicho de otra forma, la cara generada por la IA mueve la cara y la boca para simular que está diciendo lo que se dice en el audio original, lo que hace que el video sea foto-realista.

En otras palabras, la inteligencia artificial de SenseTime puede coger un clip de cualquier persona y hacer que diga lo que sea respetando la expresión facial del sujeto y sus movimientos, pero aplicando las expresiones faciales extraídas del clip de audio.

Es curioso, de hecho, que la IA funciona incluso con diferentes poses.

En el minuto 2:36 del vídeo bajo puede ver un ejemplo.

Los resultados son de lo más realistas, hasta el punto de que la IA puede hacer que una persona cante (3:26 del video).

Lethal communications: – Toxic communications admitted another fact that may origin with ISD Look At This acquisition de viagra risk. Shreepad Khedekar is the Clinical Director, Imperial clinics Mumbai and Imperial clinics Belgrade, Consultant at Shushrusha Citizens Co-op Hospital Mumbai and Physician to several international stars and celebrities. sildenafil online no prescription Sure, the parents would try to curb their teenage son or daughter’s activities, but this is something which can’t escape as women are considered to be merely a passionate and cooperating member during the sex. lowest priced cialis The so view here viagra store usa if the erection happens it remains unchanged for a longer time.

En el vídeo se muestran varias ejemplos y resulta llamativo el detalle de la textura de la cara, los dientes, el movimiento de los labios, las líneas faciales y hasta los hoyuelos.

El modelo, eso sí, no es perfecto, ya que no es capaz de imitar emociones o estimar los sentimientos expresados en el clip de audio que se usa como fuente, solo recoge las expresiones faciales asociadas.

De la misma forma, se ignora la lengua, lo que hace que algunos fonemas como “z” (cuya pronunciación requiere poner la lengua entre los dientes) no se emulen de forma natural.

Finalmente, los investigadores destacan que el modelo tiende a ofrecer peores resultados cuando el clip de audio original tiene mucho acento.

Ponen el ejemplo de una persona que habla inglés con acento ruso, cuyo clip de audio no termina de sincronizarse bien con la malla 3D sintetizada por la IA.

Sea como fuere, los clips se evaluaron mostrándolos a un equipo de 100 voluntarios que debían marcar si un video era verdadero o había sido sintetizado.

En total fueron 168 videos, la mitad falsos y la mitad verdaderos, y el resultado fue que los videos generados por la IA fueron etiquetados como reales el 55% de las veces, mientras que los videos reales fueron marcados como tales el 70,1% de las veces.

Se trata de un proyecto interesante que podría usarse, como afirman los investigadores, “para avanzar en la edición de video”.

Sin embargo, también son conscientes de que tiene “potencial” para ser “mal usado o abusado” con diferentes propósitos, como manipulación de medios o difusión de propaganda maliciosa.

Precisamente por ello, afirman, “defendemos y apoyamos firmemente todas las medidas de salvaguardia contra esas prácticas de explotación” y “acogemos con satisfacción la promulgación y aplicación de legislación que obligue a que todos los videos editados sean etiquetados claramente como tales“.

Fuente: Xataca

Leave a Reply

Your email address will not be published. Required fields are marked *