OpenAI presenta IA que genera video 50 veces más rápido que los modelos de actuales

Comparta este Artículo en:

Dos expertos del equipo OpenAI han desarrollado un nuevo tipo de modelo de consistencia de tiempo continuo (sCM) que, según afirman, puede generar medios de video 50 veces más rápido que los modelos que se utilizan actualmente.

En los métodos de aprendizaje automático mediante los que se entrenan las aplicaciones de IA, los modelos de difusión, a veces llamados modelos probabilísticos de difusión o modelos generativos basados en puntajes, son un tipo de modelo generativo variable.

Estos modelos suelen tener tres componentes principales: procesos directos e inversos y un procedimiento de muestreo.

Estos modelos son la base para generar productos basados en lo visual, como videos o imágenes fijas, aunque también se han utilizado con otras aplicaciones, como en la generación de audio.

Al igual que con otros modelos de aprendizaje automático, los modelos de difusión funcionan mediante el muestreo de grandes cantidades de datos.

La mayoría de estos modelos ejecutan cientos de pasos para generar un producto final, por lo que la mayoría de ellos tardan unos minutos en realizar sus tareas.

En marcado contraste, Lu y Song han desarrollado un modelo que realiza todo su trabajo utilizando solo dos pasos.

Esa reducción de pasos, señalan, ha reducido drásticamente la cantidad de tiempo que su modelo tarda en generar un video, sin ninguna pérdida de calidad.

El nuevo modelo utiliza más de 1.500 millones de parámetros y puede producir un video de muestra en una fracción de segundo ejecutándose en una máquina con una sola GPU A100.

Esto es aproximadamente 50 veces más rápido que los modelos que se utilizan actualmente.

Los investigadores señalan que su nuevo modelo también requiere mucho menos poder computacional que otros modelos, un problema constante con las aplicaciones de IA en general a medida que su uso se dispara.

También señalan que su nuevo enfoque ya se ha sometido a una evaluación comparativa para comparar sus resultados con otros modelos, tanto los que se utilizan actualmente como los que están desarrollando otros equipos.

Sugieren que su modelo debería permitir aplicaciones de IA generativas en tiempo real en un futuro cercano.

Fuente: arXiv

Editor PDM

Siguiente ¿Está la IA creando una nueva forma de pensar, un proceso de pensamiento externo a nuestra mente? »

Anterior « Apple Mac mini M4 (2024) estrena el chip M4 Pro y un diseño más compacto

Deja un comentario

Publicado por

Editor PDM

Etiquetas: generación de videointeligencia artificialOpenAIsCM

2 months hace

Mano robótica capaz de manipular objetos

Recientemente, Sanctuary AI presentó su mano robótica que ahora es capaz de manipular objetos. (more…)

2 days hace

Tecnología

Robots atraviesan entornos complejos sin sensores adicionales ni entrenamiento previo en terrenos difíciles

Especialistas en robótica de la Universidad de Leeds y el University College de Londres han…

2 days hace

Tecnología

Rompiendo barreras: IA para interpretar el lenguaje de señas americano en tiempo real

El lenguaje de señas es un medio de comunicación sofisticado y vital para las personas…

2 days hace

Tecnología

Dispositivo ayuda a personas con discapacidad visual a realizar tareas de localización tan bien como las personas videntes

Según un nuevo estudio dirigido por el Imperial College, una tecnología de navegación que utiliza…

2 days hace

Tecnología

Google lanza una versión de Gemini 2.0 capaz de razonar

Gemini 2.0 Flash Thinking Experimental es una nueva versión de la IA de Google que…

2 days hace

Tecnología

El siguiente paso de la computación cuántica: un nuevo algoritmo potencia la multitarea

Las computadoras cuánticas difieren fundamentalmente de las clásicas. En lugar de utilizar bits (0 y…

3 days hace

OpenAI presenta IA que genera video 50 veces más rápido que los modelos de actuales

Artículos relacionados:

Entrada Relacionada

Entradas recientes

Mano robótica capaz de manipular objetos

Robots atraviesan entornos complejos sin sensores adicionales ni entrenamiento previo en terrenos difíciles

Rompiendo barreras: IA para interpretar el lenguaje de señas americano en tiempo real

Dispositivo ayuda a personas con discapacidad visual a realizar tareas de localización tan bien como las personas videntes

Google lanza una versión de Gemini 2.0 capaz de razonar

El siguiente paso de la computación cuántica: un nuevo algoritmo potencia la multitarea