Pero solo unos pocos evaluadores seleccionados pueden jugar con la IA generativa por el momento.
En enero de 2021, el consorcio OpenAI, fundado por Elon Musk y respaldado financieramente por Microsoft, presentó su proyecto más ambicioso hasta la fecha, el sistema de aprendizaje automático DALL-E.
Esta ingeniosa IA multimodal era capaz de generar imágenes (aunque bastante caricaturescas) basadas en los atributos descritos por un usuario: piense en “un gato hecho de sushi” o “una radiografía de un carpincho sentado en un bosque“.
El consorcio dio a conocer la próxima iteración de DALL-E, que cuenta con una resolución más alta y una latencia más baja que la original.
El primer DALL-E (un acrónimo de “Dalí“, como en el artista, y “WALL-E“, como en el personaje animado de Disney) podía generar imágenes, así como combinar múltiples imágenes en un collage, proporcionar diferentes ángulos de perspectiva , e incluso inferir elementos de una imagen, como efectos de sombreado, a partir de la descripción escrita.
“A diferencia de un motor de renderizado 3D, cuyas entradas deben especificarse sin ambigüedades y con todo detalle, DALL·E a menudo puede ‘llenar los espacios en blanco’ cuando el pie de foto implica que la imagen debe contener un cierto detalle que no se indica explícitamente“. escribió el equipo de OpenAI en 2021.
DALL-E nunca tuvo la intención de ser un producto comercial y, por lo tanto, sus capacidades estaban algo limitadas, dado que el equipo de OpenAI se centró en él como una herramienta de investigación.
Su secuela se ha protegido de manera similar con imágenes potencialmente objetables eliminadas de forma preventiva de sus datos de entrenamiento y una marca de agua que indica que es una imagen generada por IA aplicada automáticamente.
Además, el sistema evita activamente que los usuarios creen imágenes basadas en nombres específicos.
Porque laa gente se pregunta cómo sería “Christopher Walken comiendo un churro en la Capilla Sixtina”.
DALL-E 2, que utiliza el sistema de reconocimiento de imágenes CLIP de OpenAI, se basa en esas capacidades de generación de imágenes.
Los usuarios ahora pueden seleccionar y editar áreas específicas de imágenes existentes, agregar o eliminar elementos junto con sus sombras, combinar dos imágenes en un solo collage y generar variaciones de una imagen existente.
Además, las imágenes de salida son cuadrados de 1024 px, frente a los avatares de 256 px que generó la versión original.
El CLIP de OpenAI fue diseñado para mirar una imagen dada y resumir su contenido de una manera que los humanos puedan entender.
El consorcio invirtió ese proceso, construyendo una imagen a partir de su resumen, en su trabajo con el nuevo sistema.
“DALL-E 1 simplemente tomó nuestro enfoque GPT-3 del lenguaje y lo aplicó para producir una imagen: comprimimos imágenes en una serie de palabras y aprendimos a predecir lo que viene después”, dijo el científico investigador de OpenAI, Prafulla Dhariwal.
A diferencia de la primera, con la que cualquiera podía jugar en el sitio web de OpenAI, esta nueva versión actualmente solo está disponible para que la prueben socios examinados que están limitados en lo que pueden cargar o generar con ella.
Solo se pueden utilizar fuentes familiares y todo lo que involucre desnudez, obscenidad, ideología extremista o “grandes conspiraciones o eventos relacionados con importantes eventos geopolíticos en curso” está descartado.
La gente tendrá que espera para generar “Donald Trump montando a una Nancy Pelosi desnuda y afectada por COVID como un caballo a través del Senado de los EE. UU. el 6 de enero mientras hace un saludo nazi”.
La cosecha actual de evaluadores también tiene prohibido exportar sus trabajos generados a una plataforma de terceros, aunque OpenAI está considerando agregar las capacidades de DALL-E 2 a su API en el futuro.
Si desea probar DALL-E 2 usted mismo, puede inscribirse en la lista de espera en el sitio web de OpenAI.
Fuente: The Verge
Actualmente fluye electricidad libre de carbono a la red que abastece a los centros de…
Un nuevo material desarrollado por académicos chinos logra la invisibilidad. (more…)
Científicos lituanos descubrieron una manera de reducir el costo de la producción de biodiésel añadiendo…
El tacto es un sentido fundamental, y tocar lo que nos rodea y percibir sensaciones…
La Universidad de Hong Kong asegura que el nuevo material es resistente a la corrosión…
La interacción entre vista y oído, y una capacidad técnica asombrosa para captar sonidos ultradébiles…