OpenAI, dueña de ChatGPT, presenta a Sora, inteligencia artificial para generar video a partir de texto

Comparta este Artículo en:

Sora puede generar videos de hasta 60 segundos a partir de indicaciones textuales.

El modelo promete tener una enorme capacidad para respetar las indicaciones del prompt.

Sora es una herramienta que en su actual versión experimental permite generar videos de hasta 60 segundos.

El modelo es capaz de generar escenas realistas, adhiriéndose a las indicaciones de los usuarios. Todo esto, manteniendo la calidad de los fotogramas.

Si nos detenemos un instante a pensar en cómo la IA generativa está avanzando, podríamos concluir en que lo está haciendo a velocidad de vértigo.

En 2021 nos sorprendíamos con la primera versión de DALL·E y su “habilidad” para crear un aguacate-silla.

Y en este momento vivimos en un presente donde los generadores de vídeo son una realidad.

Sora funciona esencialmente con la misma mecánica que los generadores de texto a imagen.

Utilizamos un prompt (indicación textual) para describir lo que queremos que el modelo genere.

Aquí, ciertamente, entra en juego la habilidad del usuario para generar prompt precisos para el modelo en cuestión.

Veamos el prompt del video superior generado por Sora.

“A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about”.

Como podemos ver, se ha conseguido una sorprendente escena de video, incluso con cambios de plano, pero gracias a indicaciones muy precisas.

Se describe minuciosamente la apariencia de la mujer que camina en las calles de Tokio, y se brindan detalles sobre todo lo que le rodea.

Desde las luces de neón brillantes hasta la humedad reflectante del suelo.

El modelo, explican, es capaz de generar escenas complejas con múltiples personajes.

Pero hay más, también se puede especificar el tipo de movimiento del sujeto y detalles precisos del entorno.

“El modelo entiende no solo lo que el usuario ha pedido en el mensaje, sino también cómo existen esas cosas en el mundo físico”, dice la compañía.

OpenAI añade que todos los videos publicados en el blog del anuncio de este nuevo modelo no han sido editados.

La compañía sí advierte que, como cualquier modelo de IA, Sora también tiene sus propias limitaciones e inconvenientes.

Dice que “puede tener dificultades para simular con precisión la física de una escena compleja y puede no comprender instancias específicas de causa y efecto”.

En este momento se encuentra disponible únicamente para los investigadores de OpenAI, es decir, su funcionamiento está limitado a pruebas de laboratorio.

No obstante, señalan que estará disponible en el catálogo de productos de OpenAI, pero no antes de que se tomen varias medidas para garantizar la seguridad de los usuarios.

Fuente: X