ImageBind eventualmente podría conducir a avances en la accesibilidad y la creación de entornos de realidad mixta.
Meta desarrolla una herramienta de IA de código abierto llamada ImageBind que predice conexiones entre datos de manera similar a cómo los humanos perciben o imaginan un entorno.
Mientras que los generadores de imágenes como Midjourney, Stable Diffusion y DALL-E 2 combinan palabras con imágenes, lo que les permite generar escenas visuales basadas solo en una descripción de texto, ImageBind proyecta una red más amplia.
Puede vincular texto, imágenes/videos, audio, mediciones 3D (profundidad), datos de temperatura (térmicos) y datos de movimiento (de unidades de medición inerciales), y lo hace sin tener que entrenarse primero en cada posibilidad.
Es una etapa temprana de un marco que eventualmente podría generar entornos complejos a partir de una entrada tan simple como un mensaje de texto, una imagen o una grabación de audio (o alguna combinación de los tres).
ImageBind busca acercar el aprendizaje automático al aprendizaje humano.
Por ejemplo, si está parado en un entorno estimulante como una calle concurrida de la ciudad, su cerebro (en gran parte inconscientemente) absorbe las imágenes, los sonidos y otras experiencias sensoriales para inferir información sobre los automóviles y peatones que pasan, los edificios altos, el clima y mucho más.
Los humanos y otros animales evolucionaron para procesar estos datos para nuestra ventaja genética: supervivencia y transmisión de nuestro ADN.
(Cuanto más consciente esté de su entorno, más podrá evitar el peligro y adaptarse a su entorno para una mejor supervivencia y prosperidad).
A medida que las computadoras se acercan a imitar las conexiones multisensoriales de los animales, pueden usar esos enlaces para generar escenas basadas solo en fragmentos limitados de datos.
Una herramienta de IA multimodal como ImageBind puede eventualmente crear un video del perro con sonidos correspondientes, incluida una sala de estar suburbana detallada, la temperatura de la habitación y las ubicaciones precisas del perro y cualquier otra persona en la escena.
“Esto crea oportunidades distintivas para crear animaciones a partir de imágenes estáticas combinándolas con indicaciones de audio”, dijeron los investigadores de Meta.
“Por ejemplo, un creador podría acoplar una imagen con un despertador y el canto de un gallo, y usar un mensaje de audio de canto para segmentar el gallo o el sonido de una alarma para segmentar el reloj y animar ambos en una secuencia de video”.
En cuanto a qué más se podría hacer con este nuevo juguete, apunta claramente a una de las ambiciones principales de Meta: la realidad virtual, la realidad mixta y el metaverso.
Por ejemplo, imagine un auricular futuro que pueda construir escenas 3D totalmente realizadas (con sonido, movimiento, etc.) sobre la marcha.
O bien, los desarrolladores de juegos virtuales podrían eventualmente usarlo para eliminar gran parte del trabajo preliminar de su proceso de diseño.
Del mismo modo, los creadores de contenido podrían hacer videos inmersivos con paisajes sonoros y movimientos realistas basados solo en la entrada de texto, imagen o audio.
También es fácil imaginar una herramienta como ImageBind abriendo nuevas puertas en el espacio de la accesibilidad, generando descripciones multimedia en tiempo real para ayudar a las personas con discapacidades visuales o auditivas a percibir mejor su entorno inmediato.
“En los sistemas típicos de IA, hay una incrustación específica (es decir, vectores de números que pueden representar datos y sus relaciones en el aprendizaje automático) para cada modalidad respectiva”, dijo Meta.
“ImageBind muestra que es posible crear un espacio de incorporación conjunto a través de múltiples modalidades sin necesidad de capacitarse en datos con cada combinación diferente de modalidades.
Esto es importante porque no es factible para los investigadores crear conjuntos de datos con muestras que contengan, por ejemplo, datos de audio y datos térmicos de una calle concurrida de la ciudad, o datos de profundidad y una descripción de texto de un acantilado junto al mar”.
Meta considera que la tecnología eventualmente se expandirá más allá de sus seis “sentidos” actuales, por así decirlo.
“Si bien exploramos seis modalidades en nuestra investigación actual, creemos que la introducción de nuevas modalidades que vinculan tantos sentidos como sea posible, como el tacto, el habla, el olfato y las señales de resonancia magnética funcional del cerebro, permitirán modelos de IA más ricos centrados en el ser humano”.
Los desarrolladores interesados en explorar esta inteligencia artificial pueden comenzar sumergiéndose en el código fuente abierto de Meta.
Fuente: ImageBind