Enseñan a inteligencia artificial a generar instantáneamente modelos 3D completamente texturizados a partir de imágenes 2D planas

Comparta este Artículo en:

Convertir un boceto o una foto de un objeto en un modelo 3D completamente realizado para que se pueda duplicar usando una impresora 3D, jugar en un videojuego o dar vida a una película a través de efectos visuales, requiere las habilidades de un modelador digital que funcione con una pila de imágenes.

Pero Nvidia ha entrenado con éxito una red neuronal para generar modelos 3D completamente texturizados usando una sola foto.

Hemos visto enfoques similares para generar automáticamente modelos 3D anteriormente, pero han requerido una serie de fotos tomadas desde muchos ángulos diferentes para obtener resultados precisos o la entrada de un usuario humano para ayudar al software a determinar las dimensiones y la forma de un objeto específico en una imagen.

Ninguno de ellos son enfoques equivocados del problema.

Cualquier mejora realizada en la tarea de modelado 3D es bienvenida, ya que hace que estas herramientas estén disponibles para un público más amplio, incluso para aquellos que carecen de habilidades avanzadas.

Pero también limitan los usos potenciales de dicho software.

En la Conferencia anual sobre Sistemas de Procesamiento de Información Neural que tiene lugar en Vancouver, Columbia Británica, esta semana, los investigadores de Nvidia presentarán un nuevo documento:

“Aprender a predecir objetos 3D con un renderizador basado en interpolación”, que detalla la creación de una nueva herramienta gráfica llamada abreviador basado en interpolación diferenciable, o DIB-R.

Los investigadores de Nvidia entrenaron a su red neuronal DIB-R en múltiples conjuntos de datos, incluidas fotos previamente convertidas en modelos 3D, modelos 3D presentados desde múltiples ángulos y conjuntos de fotos que se enfocaron en un tema en particular desde múltiples ángulos.

Se tarda aproximadamente dos días en entrenar la red neuronal sobre cómo extrapolar las dimensiones adicionales de un sujeto determinado, como las aves, pero una vez completado, puede producir un modelo 3D basado en una foto 2D que nunca antes se había analizado, en menos de 100 milisegundos.

Esa impresionante velocidad de procesamiento es lo que hace que esta herramienta sea particularmente interesante porque tiene el potencial de mejorar enormemente la forma en que las máquinas, como los robots o los automóviles autónomos, ven el mundo y entienden lo que les espera.

Las imágenes fijas extraídas de una transmisión de video en vivo desde una cámara se pueden convertir instantáneamente a modelos 3D que permiten a un automóvil autónomo, por ejemplo, medir con precisión el tamaño de un camión grande que debe evitar, o robots para predecir cómo recoger correctamente un objeto aleatorio basado en su forma estimada.

DIB-R podría incluso mejorar el rendimiento de las cámaras de seguridad encargadas de identificar a personas y rastrearlas, ya que un modelo 3D generado instantáneamente facilitaría realizar coincidencias de imágenes a medida que una persona se mueve a través de su campo de visión.

Sí, cada nueva tecnología es a la vez aterradora y genial.

Fuente: Gizmodo