Foley es el proceso de recrear sonidos, como los pasos de la gente o el choque de dos objetos, para añadirlos a las películas en postproducción como efectos de sonido.
Por ejemplo, en ‘El Señor de los Anillos: El Retorno del Rey’, el sonido que hacen las calaveras al caerse en el minuto 36:25 del film no se consiguió con calaveras de verdad, sino con 20 kilos de nueces moviéndose en un saco y unos cocos cayéndose al suelo.
Conseguir estos efectos de sonido es laborioso, pero AutoFoley, una inteligencia artificial desarrollada por John J. Prevost y Sanchita Ghose, de la Universidad de Texas, busca hacerlo más sencillo sintetizando sonidos a partir de imágenes.
Los investigadores describen AutoFoley como “una herramienta de aprendizaje profundo totalmente automatizada que puede utilizarse para sintetizar una pista de audio representativa para los videos“.
De acuerdo con Prevost y Ghose, puede utilizarse en aplicaciones en las que no existe un archivo de audio asociado a un video, o lo que es lo mismo, en videos sin sonido.
Para ello, AutoFoley se vale de dos modelos de machine learning.
El primero analiza las características de la imagen, como el movimiento.
El segundo analiza la relación temporal del objeto en los diferentes frames del video.
Después de aplicar cada uno de los modelos, el sonido se sintetiza para que encaje con el video.
AutoFoley, explican los investigadores en su artículo publicado en IEEE Xplore, fue entrenado con “un conjunto de datos de audio y video a gran escala que contiene una variedad de sonidos usados frecuentemente como efectos Foley en las películas“.
Finalmente, usaron AutoFoley para recrear el sonido de 1.000 videos cortos, como los que podemos ver en este artículo.
Como explican en IEEE Sprectrum, AutoFoley consigue mejores resultados cuando el sonido no tiene que estar perfectamente sincronizado con la escena.
En el video del caballo galopando, por ejemplo, puede verse que el sonido no está perfectamente sincronizado con las patas del animal, mientras que en el video de la hoguera no es fácil saber que es un audio sintetizado de forma artificial.
De hecho, los investigadores encuestaron a 57 estudiantes y el 73% de los sujetos “consideraron la pista de sonido generada como original“.
El modelo, como indicábamos, no es perfecto.
Los investigadores señalan que un requisito para que AutFoley funcione bien es el que el sujeto esté siempre en escena.
Por ejemplo, en las películas, si un caballo se sale de la escena seguimos escuchando cómo se aleja.
Esto, por el momento, no es capaz de ser interpretado por la IA, pero será un tema que abordarán en investigaciones futuras.
Fuente: Xataca