Categorías: Tecnología

Inteligencia artificial produce imágenes fantásticas de casi cualquier cosa que pueda imaginar

Comparta este Artículo en:

Pero solo unos pocos evaluadores seleccionados pueden jugar con la IA generativa por el momento.

En enero de 2021, el consorcio OpenAI, fundado por Elon Musk y respaldado financieramente por Microsoft, presentó su proyecto más ambicioso hasta la fecha, el sistema de aprendizaje automático DALL-E.

Esta ingeniosa IA multimodal era capaz de generar imágenes (aunque bastante caricaturescas) basadas en los atributos descritos por un usuario: piense en “un gato hecho de sushi” o “una radiografía de un carpincho sentado en un bosque“.

El consorcio dio a conocer la próxima iteración de DALL-E, que cuenta con una resolución más alta y una latencia más baja que la original.

El primer DALL-E (un acrónimo de “Dalí“, como en el artista, y “WALL-E“, como en el personaje animado de Disney) podía generar imágenes, así como combinar múltiples imágenes en un collage, proporcionar diferentes ángulos de perspectiva , e incluso inferir elementos de una imagen, como efectos de sombreado, a partir de la descripción escrita.

A diferencia de un motor de renderizado 3D, cuyas entradas deben especificarse sin ambigüedades y con todo detalle, DALL·E a menudo puede ‘llenar los espacios en blanco’ cuando el pie de foto implica que la imagen debe contener un cierto detalle que no se indica explícitamente“. escribió el equipo de OpenAI en 2021.

DALL-E nunca tuvo la intención de ser un producto comercial y, por lo tanto, sus capacidades estaban algo limitadas, dado que el equipo de OpenAI se centró en él como una herramienta de investigación.

Su secuela se ha protegido de manera similar con imágenes potencialmente objetables eliminadas de forma preventiva de sus datos de entrenamiento y una marca de agua que indica que es una imagen generada por IA aplicada automáticamente.

Además, el sistema evita activamente que los usuarios creen imágenes basadas en nombres específicos.

Porque laa gente se pregunta cómo sería “Christopher Walken comiendo un churro en la Capilla Sixtina”.

DALL-E 2, que utiliza el sistema de reconocimiento de imágenes CLIP de OpenAI, se basa en esas capacidades de generación de imágenes.

Los usuarios ahora pueden seleccionar y editar áreas específicas de imágenes existentes, agregar o eliminar elementos junto con sus sombras, combinar dos imágenes en un solo collage y generar variaciones de una imagen existente.

Además, las imágenes de salida son cuadrados de 1024 px, frente a los avatares de 256 px que generó la versión original.

El CLIP de OpenAI fue diseñado para mirar una imagen dada y resumir su contenido de una manera que los humanos puedan entender.

El consorcio invirtió ese proceso, construyendo una imagen a partir de su resumen, en su trabajo con el nuevo sistema.

DALL-E 1 simplemente tomó nuestro enfoque GPT-3 del lenguaje y lo aplicó para producir una imagen: comprimimos imágenes en una serie de palabras y aprendimos a predecir lo que viene después”, dijo el científico investigador de OpenAI, Prafulla Dhariwal.

A diferencia de la primera, con la que cualquiera podía jugar en el sitio web de OpenAI, esta nueva versión actualmente solo está disponible para que la prueben socios examinados que están limitados en lo que pueden cargar o generar con ella.

Solo se pueden utilizar fuentes familiares y todo lo que involucre desnudez, obscenidad, ideología extremista o “grandes conspiraciones o eventos relacionados con importantes eventos geopolíticos en curso” está descartado.

La gente tendrá que espera para generar “Donald Trump montando a una Nancy Pelosi desnuda y afectada por COVID como un caballo a través del Senado de los EE. UU. el 6 de enero mientras hace un saludo nazi”.

La cosecha actual de evaluadores también tiene prohibido exportar sus trabajos generados a una plataforma de terceros, aunque OpenAI está considerando agregar las capacidades de DALL-E 2 a su API en el futuro.

Si desea probar DALL-E 2 usted mismo, puede inscribirse en la lista de espera en el sitio web de OpenAI.

Fuente: The Verge

Editor PDM

Entradas recientes

En China patrulla un nuevo robot policía

RT-G es un robot avanzado diseñado para escenarios de confrontación. (more…)

7 hours hace

Técnica reduce el sesgo en los modelos de IA y al mismo tiempo preserva o mejora la precisión

Los modelos de aprendizaje automático pueden fallar cuando intentan hacer predicciones para individuos que estaban…

7 hours hace

Curso de humanidades en universidad norteamericana utilizará un libro de texto generado por IA

La IA ha llegado a un mercado que estaba maduro para la disrupción: los libros…

7 hours hace

IA resuelve problemas complejos de ingeniería más rápido que las supercomputadoras

Modelar cómo se deforman los automóviles en un choque, cómo responden las naves espaciales a…

7 hours hace

Diseñan celdas que generan electricidad a oscuras

Investigadores chinos han afirmado que su unidad generó una producción de electricidad estable durante 160…

7 hours hace

Mano robótica capaz de manipular objetos

Recientemente, Sanctuary AI presentó su mano robótica que ahora es capaz de manipular objetos. (more…)

3 days hace
Click to listen highlighted text!