Crean inteligencia artificial de código abierto que genera música y efectos de sonido a partir de texto

Comparta este Artículo en:

Meta lanza AudioCraft, una plataforma de código abierto capaz de crear música y efectos de sonido a partir de texto.

El anuncio sale a la luz apenas semanas después de la introducción de LLaMA 2, su más reciente modelo de inteligencia artificial, también Open Source.

A través de AudioCraft, Meta ofrece la posibilidad de generar “música y sonidos realistas de alta calidad“.

Esta plataforma utiliza tres modelos para brindar los resultados prometidos: MusicGen, AudioGen y el decodificador EnCodec.

Según se explicó, el primero se entrenó utilizando tanto música licenciada como perteneciente a la compañía de Menlo Park.

En tanto que para el adiestramiento del segundo se usó un catálogo público de efectos de sonido.

En cuanto a EnCodec, se trata de una versión optimizada que permite obtener resultados de calidad requiriendo de “menos artefactos“.

Al igual que en plataformas capaces de generar imágenes (Dall-E 2, Midjourney), o en chatbots conversacionales (ChatGPT, Bard), el usuario debe ingresar un prompt de texto y la herramienta se encarga del resto.

Así, se le puede pedir a AudioCraft que genere el sonido de las sirenas de una patrulla de policía acercándose y alejándose.

O que componga una canción de un determinado género musical, usando instrumentos específicos o hasta incluyendo un solo.

El primer ejemplo se concretaría a través de AudioGen, mientras que el segundo mediante MusicGen.

Según Meta, las distintas herramientas que componen AudioCraft no solo han sido diseñadas para que sean fáciles de usar y ofrezcan resultados inmediatos de calidad, también, para que sus creaciones sean consistentes en el largo plazo.

Text Prompt: Pop dance track with catchy melodies, tropical percussions, and upbeat rhythms, perfect for the beach

Al brindar esta inteligencia artificial como software de código abierto, pretenden que expertos sean capaces de usarlo para entrenar sus propios modelos con sus propios sets de datos.

Text Prompt: Earthy tones, environmentally conscious, ukulele-infused, harmonic, breezy, easygoing, organic instrumentation, gentle grooves

No obstante, también se lanzarán versiones preentrenadas del modelo AudioGen para simplificar la creación de efectos de sonido con información preexistente.

“Si bien hemos visto mucho entusiasmo en torno a la IA generativa para imágenes, video y texto, el audio parece estar un poco rezagado.

Hay algo de trabajo por ahí, pero es muy complicado y no muy abierto, por lo que las personas no pueden jugar fácilmente con él.

La generación de audio de alta fidelidad de cualquier tipo requiere el modelado de señales y patrones complejos en diferentes escalas.

Podría decirse que la música es el tipo de audio más difícil de generar, ya que se compone de patrones locales y de largo alcance, desde un conjunto de notas hasta una estructura musical global con múltiples instrumentos“. Dijo Meta, sobre el lanzamiento de AudioCraft.

Será interesante ver cómo el enfoque Open Source de AudioCraft ayuda a su adopción entre investigadores y entusiastas de la IA generativa.

De todos modos, es lógico pensar que las nuevas herramientas de Meta puedan llegar a ser un potencial foco de conflicto en el futuro.

Especialmente MusicGen, considerando que las herramientas para crear música con inteligencia artificial ya están generando controversia.

De hecho, Google se adelantó a AudioCraft con una herramienta similar.

MusicLM nació para generar canciones a partir de una simple orden de texto y se entrenó con más de 280.000 horas de música.

Sin embargo, aún no se encuentra disponible para el público masivo porque los de Mountain View no logran resolver un problema nada menor: el plagio.

Alrededor del 1 % de la música que genera esta IA es una réplica de material protegido por las leyes de derechos de autor.

Algo que en principio parece menor, pero que puede significar un fuerte dolor de cabeza legal.

Universal Music Group, una de las principales discográficas del mundo, pidió a Apple y Spotify que bloqueen a los bots que extraen letras y melodías de las canciones de sus artistas.

Según la compañía, ese material protegido con copyright luego se usa para entrenar modelos de inteligencia artificial capaces de crear música parecida a la de intérpretes o compositores como Taylor Swift y Elton John.

Fuente: Engadget