Crean inteligencia artificial de código abierto que genera música y efectos de sonido a partir de texto

Crean inteligencia artificial de código abierto que crea música y efectos de sonido a partir de texto

Comparta este Artículo en:

Meta lanza AudioCraft, una plataforma de código abierto capaz de crear música y efectos de sonido a partir de texto.

El anuncio sale a la luz apenas semanas después de la introducción de LLaMA 2, su más reciente modelo de inteligencia artificial, también Open Source.

A través de AudioCraft, Meta ofrece la posibilidad de generar “música y sonidos realistas de alta calidad“.

Esta plataforma utiliza tres modelos para brindar los resultados prometidos: MusicGen, AudioGen y el decodificador EnCodec.

Según se explicó, el primero se entrenó utilizando tanto música licenciada como perteneciente a la compañía de Menlo Park.

En tanto que para el adiestramiento del segundo se usó un catálogo público de efectos de sonido.

En cuanto a EnCodec, se trata de una versión optimizada que permite obtener resultados de calidad requiriendo de “menos artefactos“.

Al igual que en plataformas capaces de generar imágenes (Dall-E 2, Midjourney), o en chatbots conversacionales (ChatGPT, Bard), el usuario debe ingresar un prompt de texto y la herramienta se encarga del resto.

Así, se le puede pedir a AudioCraft que genere el sonido de las sirenas de una patrulla de policía acercándose y alejándose.

O que componga una canción de un determinado género musical, usando instrumentos específicos o hasta incluyendo un solo.

El primer ejemplo se concretaría a través de AudioGen, mientras que el segundo mediante MusicGen.

Según Meta, las distintas herramientas que componen AudioCraft no solo han sido diseñadas para que sean fáciles de usar y ofrezcan resultados inmediatos de calidad, también, para que sus creaciones sean consistentes en el largo plazo.

Text Prompt: Pop dance track with catchy melodies, tropical percussions, and upbeat rhythms, perfect for the beach

Al brindar esta inteligencia artificial como software de código abierto, pretenden que expertos sean capaces de usarlo para entrenar sus propios modelos con sus propios sets de datos.

Text Prompt: Earthy tones, environmentally conscious, ukulele-infused, harmonic, breezy, easygoing, organic instrumentation, gentle grooves

No obstante, también se lanzarán versiones preentrenadas del modelo AudioGen para simplificar la creación de efectos de sonido con información preexistente.

“Si bien hemos visto mucho entusiasmo en torno a la IA generativa para imágenes, video y texto, el audio parece estar un poco rezagado.

Hay algo de trabajo por ahí, pero es muy complicado y no muy abierto, por lo que las personas no pueden jugar fácilmente con él.

La generación de audio de alta fidelidad de cualquier tipo requiere el modelado de señales y patrones complejos en diferentes escalas.

Podría decirse que la música es el tipo de audio más difícil de generar, ya que se compone de patrones locales y de largo alcance, desde un conjunto de notas hasta una estructura musical global con múltiples instrumentos“. Dijo Meta, sobre el lanzamiento de AudioCraft.

Será interesante ver cómo el enfoque Open Source de AudioCraft ayuda a su adopción entre investigadores y entusiastas de la IA generativa.

De todos modos, es lógico pensar que las nuevas herramientas de Meta puedan llegar a ser un potencial foco de conflicto en el futuro.

Especialmente MusicGen, considerando que las herramientas para crear música con inteligencia artificial ya están generando controversia.

De hecho, Google se adelantó a AudioCraft con una herramienta similar.

MusicLM nació para generar canciones a partir de una simple orden de texto y se entrenó con más de 280.000 horas de música.

Sin embargo, aún no se encuentra disponible para el público masivo porque los de Mountain View no logran resolver un problema nada menor: el plagio.

Alrededor del 1 % de la música que genera esta IA es una réplica de material protegido por las leyes de derechos de autor.

Algo que en principio parece menor, pero que puede significar un fuerte dolor de cabeza legal.

Universal Music Group, una de las principales discográficas del mundo, pidió a Apple y Spotify que bloqueen a los bots que extraen letras y melodías de las canciones de sus artistas.

Según la compañía, ese material protegido con copyright luego se usa para entrenar modelos de inteligencia artificial capaces de crear música parecida a la de intérpretes o compositores como Taylor Swift y Elton John.

Fuente: Engadget

Editor PDM

Siguiente Utilizan inteligencia artificial para leer secuencias de ADN, ARN y proteínas »

Anterior « Logran manejar dispositivos electrónicos a partir de señales musculares

Deja un comentario

Publicado por

Editor PDM

Etiquetas: AudioCraftinteligencia artificialmúsica

2 years hace

IA revoluciona el análisis de imágenes médicas y predice enfermedades con precisión asombrosa

Una nueva inteligencia artificial llamada LILAC puede detectar cambios microscópicos en imágenes médicas y predecir…

15 hours hace

Tecnología

Apple presenta sus Mac Studio (2025) con procesadores M4 Max y M3 Ultra

Estas dos variantes se diferencian esencialmente en el chip que los gobierna, que puede ser…

15 hours hace

Tecnología

Robot capaz de saltar 23 veces la longitud de su cuerpo

Los colémbolos, unos pequeños insectos que suelen encontrarse arrastrándose por la hojarasca y la tierra…

15 hours hace

Tecnología

La protección antirrobo ya está disponible en todos los teléfonos Android

La protección antirrobo es una de las características de seguridad más importantes de Android, y…

15 hours hace

Tecnología

El call center más grande del mundo implementa IA para “neutralizar el acento” de los empleados indios

La empresa francesa propietaria del call center más grande del mundo ha anunciado que está…

15 hours hace

Tecnología

iPad Air (2025) con chip M3 para darle una dosis extra de potencia a la IA

Apple acaba de presentar el iPad Air con chip M3. No hay grandes cambios a…

2 days hace

Crean inteligencia artificial de código abierto que genera música y efectos de sonido a partir de texto

Artículos relacionados:

Entrada Relacionada

Entradas recientes

IA revoluciona el análisis de imágenes médicas y predice enfermedades con precisión asombrosa

Apple presenta sus Mac Studio (2025) con procesadores M4 Max y M3 Ultra

Robot capaz de saltar 23 veces la longitud de su cuerpo

La protección antirrobo ya está disponible en todos los teléfonos Android

El call center más grande del mundo implementa IA para “neutralizar el acento” de los empleados indios

iPad Air (2025) con chip M3 para darle una dosis extra de potencia a la IA