Ya hay inteligencia artificial que genera video a partir de de texto

Comparta este Artículo en:

Runway planea su lanzamiento de IA de texto a video Gen-2, pero el generador de clips ModelScope puede ser el primer generador de video de IA en captar la atención de Internet.

Runway, una de las dos startups que ayudaron a brindarnos el generador de arte de IA Stable Diffusion, anunció que su primera prueba pública para su modelo de video Gen-2 AI se lanzará pronto.

La compañía hizo la asombrosa afirmación de que era el “primer modelo de texto a video disponible públicamente”.

Desafortunadamente, un grupo más oscuro con un modelo inicial de texto a video mucho más jankier puede haberle ganado a Runway.

Desde febrero, el equipo relativamente pequeño de 45 personas en Runway ha sido conocido por sus herramientas de edición de video en línea, incluido su modelo de IA Gen-1 de video a video que podía crear y transformar videos existentes en función de indicaciones de texto o imágenes de referencia.

Gen-1 podía transformar una simple representación de una figura de palo nadando en un buzo, o convertir a un hombre caminando en la calle en alguien de plastilina con una superposición generada.

Se supone que Gen-2 es el siguiente gran paso, ya que permite a los usuarios crear videos de 3 segundos desde cero basados en indicaciones de texto simples.

Si bien la compañía aún no ha permitido que nadie lo tenga en sus manos, compartió algunos clips basados en indicaciones como “un primer plano de un ojo” y “una toma aérea de un paisaje montañoso”.

Generate videos with nothing but words. If you can say it, now you can see it.

Introducing, Text to Video. With Gen-2.

Learn more at https://t.co/PsJh664G0Q pic.twitter.com/6qEgcZ9QV4
— Runway (@runwayml) March 20, 2023

Pocas personas ajenas a la empresa han podido experimentar el nuevo modelo de Runway, pero si todavía anhela la generación de videos con IA, hay otra opción.

El sistema de texto a video de IA llamado ModelScope se lanzó el fin de semana pasado y ya causó cierto revuelo por sus videoclips ocasionalmente incómodos y a menudo locos de 2 segundos.

El DAMO Vision Intelligence Lab, una división de investigación del gigante del comercio electrónico Alibaba, creó el sistema como una especie de caso de prueba público.

El sistema utiliza un modelo de difusión bastante básico para crear sus videos, según la página de la empresa que describe su modelo de IA.

ModelScope es de código abierto y ya está disponible en Hugging Face, aunque puede ser difícil hacer que el sistema funcione sin pagar una pequeña tarifa para ejecutar el sistema en un servidor GPU separado.

Tech YouTuber Matt Wolfe tiene un buen tutorial sobre cómo configurar eso.

Por supuesto, puede continuar y ejecutar el código usted mismo si tiene la habilidad técnica y la VRAM para admitirlo.

ModelScope es bastante evidente en cuanto al origen de sus datos.

Muchos de estos videos generados contienen el contorno vago del logotipo de Shutterstock, lo que significa que los datos de capacitación probablemente incluyeron una porción considerable de videos e imágenes tomadas del sitio de fotos de archivo.

Es un problema similar con otros generadores de imágenes de IA como Stable Diffusion.

Getty Images demandó a Stability AI, la compañía que sacó a la luz pública el generador de arte de IA.

Por supuesto, eso todavía no ha impedido que algunos usuarios hagan pequeñas películas usando la IA bastante incómoda, como este Darth Vader de cara regordeta que visita un supermercado o Spider-Man y un carpincho que se unen para salvar el mundo.

@nikniksen Another #ai creation. This time #texttovideo #scifi #storywriting ♬ Originalton – Nik Niksen

En lo que respecta a Runway, el grupo busca hacerse un nombre en el cada vez más concurrido mundo de la investigación de IA.

En su artículo que describe su sistema Gen-1, los investigadores de Runway dijeron que su modelo está entrenado tanto en imágenes como en video de un “conjunto de datos a gran escala” con datos de imágenes de texto junto con videos sin subtítulos.

Esos investigadores descubrieron que simplemente faltaban conjuntos de datos de video y texto con la misma calidad que otros conjuntos de datos de imágenes con imágenes extraídas de Internet.

Esto obliga a la empresa a derivar sus datos de los propios videos.

Será interesante ver cómo se acumula la versión probablemente más pulida de texto a video de Runway.

Si la nueva lista de espera Gen-2 de Runway es como la de Gen-1, entonces los usuarios pueden esperar algunas semanas antes de tener el sistema en sus manos.

Mientras tanto, jugar con ModelScope puede ser una buena primera opción para aquellos que buscan interpretaciones de IA más extrañas.

Fuente: Gizmodo