Categorías: Tecnología

Inteligencia artificial china de código abierto para la creación de videos

Comparta este Artículo en:

Hay una nueva IA china de código abierto, llamada Goku AI, para la generación de videos.

Goku AI es un nuevo modelo de inteligencia artificial entrenado para poder generar video a partir del texto.

Viene a ser algo como las IA que generan imágenes, se le dice lo que quiere que aparezca en el video, y esta IA generará uno desde cero.

Este modelo es completamente revolucionario por dos cosas.

La primera es por la increíble calidad de sus resultados.

La IA de creación de videos todavía no ha llegado al gran público, y hemos ido viendo cómo pasan de resultados mediocres a unos realistas.

Esta IA se posiciona entre las más realistas en lo que se puede generar con ella.

Pero lo más disruptivo es que nuevamente se trata de un modelo de código abierto disponible para todos en Github.

Igual que con otros como DeepSeek, esto quiere decir que cualquiera puede acceder a ella y replicarla, y también se podrá usar su código para instalarse gratis en dispositivos.

Eso sí, actualmente no hay modelos destilados de Goku que se puedan usar en computadores normales, y el modelo completo necesita de unas GPU muy potentes y de conocimientos técnicos para instalarse.

Aun así, pronto deberíamos ver la llegada de modelos destilados que pueda usar con alguna de las herramientas gratis para instalar una IA en su computador.

Hasta ahora los modelos de inteligencia artificial más populares eran cerrados y solo se podían usar pagando.

Mientras, Goku llega en esta nueva oleada de IA china con modelos de código abierto que pueden utilizarse gratis.

Este modelo de inteligencia artificial funciona como un modelo de generación de video basado en el flujo y alimentado por un Transformador de Flujo Rectificado o (RTF), que ayuda a mejorar su calidad y la eficacia.

Con esta tecnología puede ir afinando las imágenes y cada fotograma del video progresivamente, haciendo que las transiciones de movimientos sean suaves y tengan una alta fidelidad visual.

El proceso de creación de video empieza cuando un usuario le escribe en formato de texto lo que quiere ver, o incluso cuando comparte imágenes.

Entonces, el modelo entiende lo que le está pidiendo con su lenguaje natural y convierte estos elementos en representaciones estructuradas.

Luego usa una dinámica de flujo rectificada para mejorar la interpolación de fotogramas, reducir el ruido, y tratar de garantizar una buena continuidad.

Como paso final, Goku sintetiza secuencias de video coherentes con transiciones fluidas.

En cuanto a sus tecnologías, el RFT permite mantener una buena calidad minimizando la carga computacional del proceso.

El proceso también usa un renderizado neural con el que garantizar que el video generado tenga movimientos realistas y transiciones fluidas, y que no haya resultados grotescos.

También se usa una arquitectura basada en transformadores para modelar las dependencias temporales en las secuencias de video.

Con todo esto, los videos resultantes deberían ser muy realistas, e incluso se pueden animar imágenes estáticas.

La principal función que se puede esperar de esta IA es la posibilidad de generar videos a partir de texto.

También puede usarse para convertir imágenes en clips animados.

Esto puede ser una auténtica revolución en muchos ámbitos, porque las personas resultantes son realistas, los efectos de la ropa y texturas también lo son, y los objetos se mueven con normalidad.

Fuente: GitHub