Inteligencia artificial para convertir grabaciones de sonido en imágenes precisas de la calle

Comparta este Artículo en:

Usando inteligencia artificial generativa, un equipo de investigadores de la Universidad de Texas en Austin ha convertido sonidos de grabaciones de audio en imágenes de la calle.

La precisión visual de estas imágenes generadas demuestra que las máquinas pueden replicar la conexión humana entre la percepción auditiva y visual de los entornos.

El equipo de investigación describe el entrenamiento de un modelo de IA de paisaje sonoro a imagen utilizando datos de audio y visuales recopilados de una variedad de paisajes urbanos y rurales y luego usando ese modelo para generar imágenes a partir de grabaciones de audio.

“Nuestro estudio descubrió que los entornos acústicos contienen suficientes señales visuales para generar imágenes de paisajes urbanos altamente reconocibles que representan con precisión diferentes lugares“, dijo Yuhao Kang, profesor asistente de geografía y medio ambiente en UT y coautor del estudio.

“Esto significa que podemos convertir los entornos acústicos en representaciones visuales vívidas, traduciendo efectivamente los sonidos en imágenes”.

Utilizando videos y audios de YouTube de ciudades de América del Norte, Asia y Europa, el equipo creó pares de clips de audio de 10 segundos y fotogramas de imágenes de las distintas ubicaciones y los utilizó para entrenar un modelo de IA que pudiera producir imágenes de alta resolución a partir de la entrada de audio.

Luego compararon las creaciones de sonido a imagen de IA realizadas a partir de 100 clips de audio con sus respectivas fotos del mundo real, utilizando evaluaciones tanto humanas como informáticas.

Las evaluaciones informáticas compararon las proporciones relativas de vegetación, edificios y cielo entre las imágenes originales y las generadas, mientras que a los jueces humanos se les pidió que hicieran coincidir correctamente una de las tres imágenes generadas con una muestra de audio.

Los resultados mostraron fuertes correlaciones en las proporciones de cielo y vegetación entre las imágenes generadas y las del mundo real y una correlación ligeramente menor en las proporciones de los edificios.

Y los participantes humanos promediaron un 80% de precisión al seleccionar las imágenes generadas que correspondían a las muestras de audio originales.

“Tradicionalmente, la capacidad de visualizar una escena a partir de sonidos es una capacidad exclusivamente humana, que refleja nuestra profunda conexión sensorial con el entorno.

Nuestro uso de técnicas avanzadas de IA respaldadas por grandes modelos de lenguaje (LLM) demuestra que las máquinas tienen el potencial de aproximarse a esta experiencia sensorial humana“, dijo Kang.

“Esto sugiere que la IA puede extenderse más allá del mero reconocimiento del entorno físico para enriquecer potencialmente nuestra comprensión de las experiencias subjetivas humanas en diferentes lugares“.

Además de aproximarse a las proporciones del cielo, la vegetación y los edificios, las imágenes generadas a menudo mantenían los estilos arquitectónicos y las distancias entre los objetos de sus contrapartes de imágenes del mundo real, además de reflejar con precisión si los paisajes sonoros se grabaron durante condiciones de iluminación soleadas, nubladas o nocturnas.

Los autores señalan que la información de la iluminación podría provenir de variaciones en la actividad de los paisajes sonoros.

Por ejemplo, los sonidos del tráfico o el chirrido de los insectos nocturnos podrían revelar la hora del día.

Tales observaciones amplían la comprensión de cómo los factores multisensoriales contribuyen a nuestra experiencia de un lugar.

“Cuando cierras los ojos y escuchas, los sonidos que te rodean pintan imágenes en tu mente“, dijo Kang.

“Por ejemplo, el zumbido distante del tráfico se convierte en un paisaje urbano bullicioso, mientras que el suave susurro de las hojas te lleva a un bosque sereno.

Cada sonido teje un tapiz vívido de escenas, como por arte de magia, en el teatro de tu imaginación”.

El trabajo de Kang se centra en el uso de la IA geoespacial para estudiar la interacción de los humanos con sus entornos. En otro artículo reciente publicado en Humanities and Social Sciences Communications, él y sus coautores examinaron el potencial de la IA para capturar las características que dan a las ciudades sus identidades únicas.

Fuente: ScienceDirect