Google ha presentado Veo 2, una IA que supera a Sora al generar videos realistas con calidad 4K de hasta 2 minutos de duración.
La pelea de la IA generativa se está librando en un nuevo frente: el video.
A unas semanas de que OpenAI abriera el acceso a Sora, Google anunció Veo 2, un nuevo modelo de lenguaje capaz de generar videos realistas a resolución 4K.
Lo más interesante de esta IA es que sus videos superan hasta por 6 veces la duración máxima que ofrece Sora.
El gigante tecnológico presentó Veo 2, el sucesor de su modelo de generación de video Veo anunciado durante la pasada I/O 2024.
Google anunció que la nueva IA de DeepMind es capaz de crear videos de alta calidad en una amplia gama de temas y estilos.
Veo 2 puede generar videos realistas con personas, animales, objetos o animaciones del tipo Pixar.
De acuerdo con Google, Veo 2 entiende lenguaje cinematográfico, por lo que le podríamos pedir que genere un vídeo especificando el lente, encuadre y efectos dentro del prompt.
Por ejemplo, sugerir que use un gran angular de 18 mm enfocándose en el sujeto y difuminando el fondo.
También podría señalar algún filtro específico de color para añadir dramatismo a la escena.
La tecnológica menciona que su modelo también cuenta con una comprensión mejorada de la física y controles de la cámara.
Veo 2 es capaz de producir representaciones realistas de fluidos, iluminación y efectos especiales.
Veo 2 genera videos con resolución 4K (3,840 x 2,160 pixeles) de hasta 2 minutos de duración, lo cual representa un salto impresionante con respecto a su predecesor y a lo que ofrece OpenAI.
Para tener una idea, Sora puede generar videos Full HD (1920 x 190 píxeles) con una duración máxima de 20 segundos.
Además, Google señala que Veo 2 alucina con menor frecuencia, por lo que veremos menos videos de personas con 6 dedos u objetos que no tienen justificación en la escena.
Otro aspecto importante tiene que ver con la confiabilidad.
Según Aäron van den Oord, científico investigador de DeepMind, Veo 2 se ha probado con un grupo reducido de usuarios para mejorar la calidad e identificar los problemas de seguridad del modelo.
Por otro lado, todos los videos generados con esta IA llevarán una marca de agua SynthID que servirá para identificarlos como contenido sintético.
Pese a los avances, Veo 2 todavía tiene algunos problemas por resolver.
Los ingenieros de Google mencionan que crear videos realistas y mantener la consistencia en escenas complejas o en movimiento representa un desafío.
“La coherencia y la consistencia son áreas de crecimiento“, dijo Eli Collins, vicepresidente de producto de DeepMind.
“Veo 2 puede adherirse consistentemente a una indicación durante un par de minutos, pero no puede adherirse a indicaciones complejas en horizontes largos”.
En términos prácticos Veo 2 no es capaz de simular a Tony Hawk haciendo trucos en su patineta, o una escena renacentista cargada de detalles y reflejos.
Veo 2 estará disponible dentro de VideoFX, la herramienta de generación de video de Google Labs.
Por el momento el acceso se limitará a unos cuantos usuarios, aunque la tecnológica prometió ampliar su disponibilidad durante 2025 a YouTube y otros productos de Google.
Fuente: Google