Inteligencia artificial de Google permite crear música a partir de texto

Comparta este Artículo en:

Google acaba de presentar su nuevo desarrollo, MusicLM, un modelo capaz de generar música a partir de pautas escritas.

Su enfoque no es del todo nuevo.

Ya se han presentado otros sistemas de IA centradas en la música, como Riffusion, Dance Diffusion, Jukebox o incluso AudioML, de la propia Google.

Lo que hace relevante MusicLM son sus resultados, compartidos por Google y que puede consultar en detalle, con clips de audio, en su web, asentados a su vez en un entrenamiento alimentado con cerca de 280.000 horas de melodías.

“MusicLM es un modelo que genera música de alta fidelidad a partir de descripciones de texto como ‘una melodía de violín relajante respaldada por un riff de guitarra distorsionado’”, explican los autores del artículo, en el que reivindican que su modelo “supera a los sistemas anteriores” tanto en lo que se refiere a la calidad de audio como en su capacidad para ajustarse a las indicaciones.

“Además demostramos que MusicLM puede condicionarse tanto al texto como a una melodía, ya que puede transformar piezas silbadas y tarareadas según el estilo descrito en un pie de texto”.

Tiene enorme versatilidad para generar melodías basándose en indicaciones escritas.

En su listado de ejemplos se incluyen piezas compuestas a partir de pautas como “banda sonora principal de un juego arcade” o “una fusión de reggaeton y dance electrónica, con un sonido espacial y de otro mundo”.

Orientaciones de partida que luego pueden completarse con otras sobre ritmos, instrumentación, repeticiones, detalles de persecución o desarrollo.

Google también ha compartido otros resultados generados a partir de descripciones diferentes, más abstractas, detalladas o incluso genéricas.

En su lista de audios se incluyen por ejemplo melodías creadas con una secuencia de órdenes, lo que deriva en sintonías que cuentan una historia, igual que la banda sonora de una película.

¿Un ejemplo? Una pieza bien cohesionada, sin cortes bruscos y de un minuto de duración, que MusicLM desarrolló a partir de esta sucesión: “Hora de meditar, hora de despertar, hora de correr y hora de dar el 100%”.

Otra de las pruebas consistió en describirle cuadros de Salvador Dalí, Jacques-Louis David o Matisse, entre otros artistas, para que generase melodías con lo que esos textos recogían.

Los pasajes se sacaron de enciclopedias, webs especializadas o incluso la Wikipedia.

¿Significa eso que todo en MusicLM es perfecto? No.

Hay composiciones que suenan distorsionadas y cuando recurre a voces humanas, algo para lo que está preparada, a priori, estas suelen ser incomprensibles.

De momento, eso sí, tendrá que conformarse con escuchar las pruebas realizadas por los propios expertos de Google.

Quizás la cuestión más espinosa de todas atañe a los derechos de autor de las muestras con la que se entrena el modelo y de las que luego se surte para generar canciones.

Durante su investigación los expertos comprobaron que más o menos el 1% de las composiciones generadas por MusicLM se reproducía directamente a partir de piezas ya existentes con las que se había entrenado.

“Descubrimos que solo una pequeña fracción de los ejemplos se memorizaba con exactitud, mientras que en el 1% identificábamos una coincidencia aproximada.

Insistimos en la necesidad de seguir trabajando en el futuro para hacer frente a los riesgos asociados a la generación de música.”

Fuente: Engadget