Categorías: Tecnología

Inteligencia artificial de código abierto transforma textos y melodías en nuevas canciones

Comparta este Artículo en:

Los modelos de inteligencia artificial generativa nos habían sorprendido hasta ahora por su capacidad para conversar, redactar textos de todo tipo o crear imágenes fantásticas, pero ahora lleva un nuevo sistema que da un paso más en esa ambiciosa conquista del ámbito creativo: la música.

MusicGen. Así se llama el nuevo modelo de IA generativa creado por Meta (antiguo Facebook).

Como sucede en otros casos, se basa en la arquitectura Transformer de Google que lo ha cambiado todo en este ámbito.

La idea aquí no es predecir la próxima palabra con sentido, como sucede con ChatGPT, sino hacer eso mismo, pero con un fragmento musical.

Los responsables del estudio explican que el sistema descompone los datos de audio en componentes más pequeños gracias al “tokenizador” de audio de Meta, llamado Encodec.

El equipo entrenó al modelo con 20.000 horas de música licenciada, y se basaron especialmente en un conjunto interno de 10.000 pistas de audio de alta calidad, así como datos musicales de Shutterstock y Pond5.

En otras plataformas se suele usar el texto para obtener una respuesta, y aquí ocurre lo mismo: basta con que introduzcamos un prompt descriptivo para obtener una pequeña melodía.

Podremos además combinar ese texto con una pequeño fragmento musical para un resultado sorprendente.

En la página web del proyecto se muestran un buen conjunto de ejemplos con los resultados generados tanto por MusicGen como por sistemas similares.

Para usar MusicGen puede usar este enlace.

Las creaciones son piezas cortas de 12 segundos.

Los resultados son, como en el caso de la creación de imágenes en la primera generación de esos modelos, sorprendentes pero no necesariamente espectaculares.

https://api.soundcloud.com/tracks/1537621141

Aún así las combinaciones para remezclar son prácticamente ilimitadas, y una vez más usar prompts de textos lo más precisos y completos posibles puede ayudar a obtener pequeñas melodías que pueden servir de inspiración a los artistas.

Los investigadores de Meta usaron tres modelos con distintos tamaños: 300 millones, 1.500 millones y 3.3 millones de parámetros, y aunque el último fue el que ofreció audio de mejor calidad, el intermedio fue el mejor calificado por los oyentes humanos.

Hay otros modelos como Riffusion o desde luego el conocido MusicLM de Google que ya planteaban este tipo de solución a la creación musical, y según una evaluación que combina métricas objetivas y subjetivas, MusicGen los supera a todos.

Otro apartado llamativo de MusicGen es que se trata de un desarrollo de código abierto.

Tanto el código como los modelos están disponibles en GitHub y se permite el uso comercial.

Meta sigue así la misma línea que planteó con LLaMA, aunque en este último caso el modelo, competidor de GPT-3 y GPT-4, estaba teóricamente restringido al ámbito académico.

Este tipo de sistemas vuelven a plantear una amenaza para la industria musical, que podría verse afectada por la capacidad creativa de estas plataformas.

Tenemos al alcance otra herramienta que desde luego puede ayudar a plantear cambios en el proceso creativo, ahora más accesible que nunca al gran público.

Fuente: MusicGen

Editor PDM

Entradas recientes

Mano robótica capaz de manipular objetos

Recientemente, Sanctuary AI presentó su mano robótica que ahora es capaz de manipular objetos. (more…)

2 days hace

Robots atraviesan entornos complejos sin sensores adicionales ni entrenamiento previo en terrenos difíciles

Especialistas en robótica de la Universidad de Leeds y el University College de Londres han…

2 days hace

Rompiendo barreras: IA para interpretar el lenguaje de señas americano en tiempo real

El lenguaje de señas es un medio de comunicación sofisticado y vital para las personas…

2 days hace

Dispositivo ayuda a personas con discapacidad visual a realizar tareas de localización tan bien como las personas videntes

Según un nuevo estudio dirigido por el Imperial College, una tecnología de navegación que utiliza…

2 days hace

Google lanza una versión de Gemini 2.0 capaz de razonar

Gemini 2.0 Flash Thinking Experimental es una nueva versión de la IA de Google que…

2 days hace

El siguiente paso de la computación cuántica: un nuevo algoritmo potencia la multitarea

Las computadoras cuánticas difieren fundamentalmente de las clásicas. En lugar de utilizar bits (0 y…

3 days hace
Click to listen highlighted text!