DreamFusion es el generador de texto a imagen 3D de próxima generación de Google.
DreamFusion es una evolución de Dream Fields, un generador de texto a imagen 3D revelado por Google en 2021.
Y al igual que Dream Fields, DreamFusion crea sus imágenes 3D al combinar un Neural Radiance Field (NeRF), o una red neuronal que puede cree escenas 3D sintéticas utilizando conjuntos de datos 2D parciales, con un modelo de solicitud de texto a imagen preentrenado.
¿El giro? A diferencia de Dream Fields, que utilizó la tecnología CLIP de OpenAI como el último modelo preentrenado, DreamFusion ahora usa la suya propia: Imagen, el competidor DALL-E 2 de Google.
“¡Feliz de anunciar DreamFusion, nuestro nuevo método para Text-to-3D!” Ben Poole, científico investigador de Google Brain y coautor del artículo de prueba de concepto, escribió en Twitter.
“Optimizamos un NeRF desde cero utilizando un modelo de difusión de texto a imagen preentrenado. ¡No se necesitan datos 3D!”
Si bien los modelos de DreamFusion no son totalmente realistas, sin duda son bastante impresionantes: como explican sus creadores en el artículo, los formularios generados por IA que se muestran en su sitio web son “coherentes, con normales de alta calidad, geometría de superficie y profundidad“ y se pueden volver a encender con un modelo de sombreado lambertiano”.
En otras palabras, si bien es posible que no sean tan convincentemente realistas como algunas de esas imágenes fotorrealistas de DALL-E 2 (todavía), tienen todos los elementos correctos.
Las proporciones son correctas, la profundidad tiene sentido, etc.
No está claro cuándo DreamFusion, o lo que venga después, estará disponible para el público.
Fuente: DreamFusion