DeepMind presentó V2A, una IA capaz de generar bandas sonoras, efectos y diálogos a partir de un archivo de video.
Google DeepMind presentó una nueva inteligencia artificial que puede generar música para un película.
La división enfocada en IA mostró sus avances en video a audio (V2A), una tecnología que produce sonidos a partir de un archivo de video y una entrada de texto.
El modelo es capaz de generar una pista de audio acorde con los elementos del video y sincronizarla.
DeepMind señala que V2A puede generar pistas, efectos de sonido realistas o diálogos que coincidan con los personajes.
El usuario solo tiene que proveer un archivo de video y un prompt en lenguaje natural que servirá como apoyo.
Las entradas de texto pueden incluir el tipo de sonido, género de música o tempo, así como frases que describan el entorno.
Los ingenieros mencionan que la tecnología V2A es capaz de producir una cantidad ilimitada de bandas sonoras para cualquier video.
El sistema puede combinarse con otros modelos de generación de video, como Veo, y permite un ajuste fino por medio de un prompt positivo o negativo que otorga mayor control al archivo de salida.
De acuerdo con Google, V2A utiliza un enfoque basado en difusión para generar y sincronizar el audio.
El sistema codifica la entrada de video en una representación comprimida y la ejecuta de manera iterativa a través del modelo de difusión.
Luego genera audio comprimido, que se decodifica en una forma de onda de audio.
Es importante destacar que las instrucciones en lenguaje natural (prompt) sirven como guía para que el modelo genere sonidos específicos.
DeepMind menciona que V2A puede comprender pixeles sin procesar, por lo que las instrucciones en texto son opcionales.
Eso sí, cuando se emplean en conjunto, la IA es capaz de asociar los eventos de audio específicos con una representación visual.
Los primeros resultados son sorprendentes y muestran el poder de la IA a la hora de sincronizar los efectos de sonido con el video.
Los ingenieros añadieron que el sistema no necesita alineación manual, por lo que no tendremos que preocuparnos por ajustar el tempo y otros valores.
Como ocurre con todos los modelos de IA, el sistema V2A no es perfecto.
Google menciona que la calidad del sonido generado dependerá de la calidad del video, por lo que si introduces una pista comprimida o de mala calidad, es posible que no obtengas los resultados deseados.
De igual modo, la generación de voces para videos que involucran diálogos necesita ajustes, puesto que no efectúa una sincronización de labios precisa.
V2A representa un salto importante en el terreno de la IA.
Para evitar un mal uso de esta tecnología, Google implementará marcas de agua en todo el contenido y la someterá a diversas pruebas de seguridad.
Al mismo tiempo, los ingenieros de DeepMind se apoyarán en expertos de otras áreas, principalmente de la comunidad creativa (cineastas, creadores, etc.) para moldear su sistema.
Por ahora no existe una fecha de lanzamiento definida para esta tecnología.
Fuente: DeepMind