Meta presenta Movie Gen, una IA que genera videos hiperrealistas con sonido a partir de texto

Comparta este Artículo en:

Era solo cuestión de tiempo hasta que Meta se lanzara al ámbito de la creación de videos con inteligencia artificial, y ahora ha dado ese paso de la mano de Movie Gen.

Meta Movie Gen quiere ganarse un espacio en un segmento que ya tiene exponentes interesantes como Sora, de OpenAI, y Gen-3 Alpha, de Runway.

La nueva herramienta de los dirigidos por Mark Zuckerberg se compone de dos modelos fundacionales: Movie Gen Video, de 30.000 millones de parámetros, y Movie Gen Audio, de 13.000 millones de parámetros.

Según explica Meta, el funcionamiento de Movie Gen es bastante similar al de otras utilidades de este tipo.

Con solo una descripción de texto es posible crear un video de entre 4 y 16 segundos de duración, a 16 cuadros por segundo.

La IA también permite editar clips ya existentes utilizando diferentes prompts de texto, o incluso crear videos personalizados subiendo una foto del usuario.

Ver esta publicación en Instagram
Una publicación compartida de Mark Zuckerberg (@zuck)

Más allá de que los videos creados con Movie Gen son breves, lo que llama la atención es que Meta se haya inclinado por hacerlos a 16 FPS.

Otro punto a tener en cuenta es que, si bien la empresa dice que el material tiene calidad Full HD, esto se debe tomar con pinzas.

Meta Movie Gen puede crear videos en diferentes relaciones de aspecto (1:1, 16:9, etc.), pero el material original es generado con una resolución de 768 x 768 pixeles. El clip luego se escala a 1080p y se ajusta a la relación de aspecto requerida.

Uno de los principales elementos diferenciadores de Meta Movie Gen es su habilidad de generar sonidos para los videos en cuestión.

Tengamos en cuenta que herramientas como Sora, por ejemplo, no ofrecen esta posibilidad.

Según explican sus creadores, el modelo de 13.000 millones de parámetros puede usar un video y una descripción en texto para generar una pista de audio que se acople a lo que sucede en la imagen.

Los clips de audio que puede generar Meta Movie Gen tienen una duración de hasta 45 segundos y abarcan tanto efectos de sonido, como sonidos de ambiente y música instrumental.

Lo que no se soporta es la generación de voces o diálogos, lo cual seguramente responda a cuestiones de seguridad para evitar deepfakes.

En cuanto a los materiales usados para entrenar Meta Movie Gen, los de Menlo Park indican que se utilizó “una combinación de sets de datos licenciados y disponibles públicamente”, sin brindar mucho más.

Y si bien Zuckerberg indicó que la herramienta llegará a Instagram, y seguramente a las demás apps con soporte para Meta AI, en 2025, Meta no planea liberar el código fuente de Movie Gen, como sí ha hecho con los de los modelos Llama.

Fuente: Meta