Categorías: Tecnología

Inteligencia artificial crea audio a partir de texto

Comparta este Artículo en:
FacebookFacebookTwitterTwitterEmailEmailWhatsAppWhatsAppShareShare

Los generadores de imágenes a partir de texto parecen haber llegado para quedarse.

Si queremos “una pintura de un lindo gatito negro en una ciudad con estilo cyberpunk” y no queremos ponernos manos a la obra con lápices o pinceles, podemos resignar parte del proceso creativo tradicional y pedirle a DALL-E, Midjourney o Stable Diffusion que haga el trabajo por nosotros.

Esto es algo sorprendente si tenemos en cuenta que hace tan solo unos años era algo inimaginable.

No obstante, los avances en el campo de la inteligencia artificial son cada vez mayores.

Hace unos meses empezaron a aparecer los primeros generadores de videos a partir de texto, y ahora es el turno de darle la bienvenida a AudioGen, un generador de audio. Un “DALL-E”, del sonido.

AudioGen es un programa de inteligencia artificial que genera sonidos a partir de descripciones textuales.

Según explican los investigadores de Meta y de la Universidad Hebrea de Jerusalén, que son los responsables del proyecto, se utiliza un modelo generativo autorregresivo para interpretar los pedidos en lenguaje natural y generar desde cero muestras de audio.

Como podemos escuchar en el audio compartido por el investigador Felix Kreuk, el programa de inteligencia artificial ha sido capaz de generar sonidos relacionados a “alguien silbando mientras el viento sopla”, “un hombre habla mientras los pájaros cantan y los perros ladran”, “sirenas y un motor zumbando se acercan y pasan”, entre otros pedidos realizados en lenguaje natural.

De acuerdo con los investigadores, este modelo de IA supera inconvenientes de audio complejos.

Por ejemplo, puede distinguir entre diferentes tipos de sonidos y separarlos acústicamente.

Por ejemplo, puede filtrar a dos personas que hablan al mismo tiempo.

Y se trata de una característica elemental para poder generar una amplia variedad de muestras de audio precisas.

No sabemos específicamente el conjunto de datos se ha utilizado, pero los miembros el proyecto dicen que entrenaron el modelo “utilizando diez conjuntos de datos de audio y etiquetas coincidentes”.

Recordemos que muchos modelos de IA son entrenados con conjuntos o subconjuntos de datos que contienen creaciones con derechos de autor, lo que está generando debates en relación al copyright.

Cabe señalar que el proyecto todavía está siendo desarrollado a puertas cerradas.

No obstante, los investigadores pretenden ponerlo a disposición del público.

Así, próximamente publicarán el código de AudioGen y demás detalles técnicos en su perfil de GitHub.

Además, explican, seguirán trabajando para mejorar las capacidades del programa.

Fuente: AudioGen

Editor PDM

Entradas recientes

Transforman conjuntos robóticos en materiales inteligentes que imitan la vida

Investigadores han diseñado grupos de robots que se comportan como materiales inteligentes con forma y…

7 hours hace

Nuevo lenguaje de programación para computación de alto rendimiento

Muchas empresas invierten grandes cantidades en la contratación de talento para crear el código de…

7 hours hace

Avance hacia automóviles eléctricos más seguros y con más autonomía

El níquel parece tener un futuro brillante en las baterías de vehículos eléctricos: Es más…

7 hours hace

Primer sistema operativo para redes cuánticas

Cuando la computación cuántica despegue definitivamente, hará viables tareas que hoy resultan inabordables incluso para…

7 hours hace

Nuevo Huawei Pura X, teléfono plegable con sistema HarmonyOS

El nuevo Huawei Pura X es diferente a todo lo que ha visto hasta ahora.…

7 hours hace

NVIDIA presenta DGX Spark y DGX Station: los supercomputadores de IA personal

NVIDIA presentó sus nuevos supercomputadores DGX Spark y DGX Station diseñados para el desarrollo de…

1 day hace
Click to listen highlighted text!