Inteligencia artificial de código abierto transforma textos y melodías en nuevas canciones

Comparta este Artículo en:

Los modelos de inteligencia artificial generativa nos habían sorprendido hasta ahora por su capacidad para conversar, redactar textos de todo tipo o crear imágenes fantásticas, pero ahora lleva un nuevo sistema que da un paso más en esa ambiciosa conquista del ámbito creativo: la música.

MusicGen. Así se llama el nuevo modelo de IA generativa creado por Meta (antiguo Facebook).

Como sucede en otros casos, se basa en la arquitectura Transformer de Google que lo ha cambiado todo en este ámbito.

La idea aquí no es predecir la próxima palabra con sentido, como sucede con ChatGPT, sino hacer eso mismo, pero con un fragmento musical.

Los responsables del estudio explican que el sistema descompone los datos de audio en componentes más pequeños gracias al “tokenizador” de audio de Meta, llamado Encodec.

We present MusicGen: A simple and controllable music generation model. MusicGen can be prompted by both text and melody.
We release code (MIT) and models (CC-BY NC) for open research, reproducibility, and for the music community: https://t.co/OkYjL4xDN7 pic.twitter.com/h1l4LGzYgf
— Felix Kreuk (@FelixKreuk) June 9, 2023

El equipo entrenó al modelo con 20.000 horas de música licenciada, y se basaron especialmente en un conjunto interno de 10.000 pistas de audio de alta calidad, así como datos musicales de Shutterstock y Pond5.

En otras plataformas se suele usar el texto para obtener una respuesta, y aquí ocurre lo mismo: basta con que introduzcamos un prompt descriptivo para obtener una pequeña melodía.

Podremos además combinar ese texto con una pequeño fragmento musical para un resultado sorprendente.

En la página web del proyecto se muestran un buen conjunto de ejemplos con los resultados generados tanto por MusicGen como por sistemas similares.

Para usar MusicGen puede usar este enlace.

Las creaciones son piezas cortas de 12 segundos.

Los resultados son, como en el caso de la creación de imágenes en la primera generación de esos modelos, sorprendentes pero no necesariamente espectaculares.

Steve Dent · Ode to 80s pop music joy

Aún así las combinaciones para remezclar son prácticamente ilimitadas, y una vez más usar prompts de textos lo más precisos y completos posibles puede ayudar a obtener pequeñas melodías que pueden servir de inspiración a los artistas.

Los investigadores de Meta usaron tres modelos con distintos tamaños: 300 millones, 1.500 millones y 3.3 millones de parámetros, y aunque el último fue el que ofreció audio de mejor calidad, el intermedio fue el mejor calificado por los oyentes humanos.

Hay otros modelos como Riffusion o desde luego el conocido MusicLM de Google que ya planteaban este tipo de solución a la creación musical, y según una evaluación que combina métricas objetivas y subjetivas, MusicGen los supera a todos.

Otro apartado llamativo de MusicGen es que se trata de un desarrollo de código abierto.

Tanto el código como los modelos están disponibles en GitHub y se permite el uso comercial.

Meta sigue así la misma línea que planteó con LLaMA, aunque en este último caso el modelo, competidor de GPT-3 y GPT-4, estaba teóricamente restringido al ámbito académico.

Este tipo de sistemas vuelven a plantear una amenaza para la industria musical, que podría verse afectada por la capacidad creativa de estas plataformas.

Tenemos al alcance otra herramienta que desde luego puede ayudar a plantear cambios en el proceso creativo, ahora más accesible que nunca al gran público.

Fuente: MusicGen