La inteligencia artificial (IA) ha abierto nuevas e interesantes oportunidades para la industria musical, por ejemplo, permitiendo el desarrollo de herramientas que pueden generar automáticamente composiciones musicales o pistas de instrumentos específicos.
Sin embargo, la mayoría de las herramientas existentes están diseñadas para ser utilizadas por músicos, compositores y productores musicales, en lugar de usuarios no expertos.
Investigadores de LG AI Research desarrollaron recientemente un nuevo sistema interactivo que permite a cualquier usuario traducir fácilmente sus ideas en música.
Este sistema combina un transformador autorregresivo solo decodificador entrenado en conjuntos de datos musicales con una interfaz de usuario intuitiva.
“Presentamos la demostración de la generación simbólica de música, centrándonos en proporcionar motivos musicales breves que sirvan como tema central de la narrativa“, escribieron Sangjun Han, Jiwon Ham y sus colegas en su artículo.
“Para la generación, adoptamos un modelo autorregresivo que toma metadatos musicales como entradas y genera 4 compases de secuencias MIDI multipista”.
El modelo basado en transformadores que sustenta el sistema de generación de música simbólica del equipo se entrenó en dos conjuntos de datos musicales, a saber, el conjunto de datos MIDI Lakh y el conjunto de datos MetaMIDI.
En conjunto, estos conjuntos de datos contienen más de 400.000 archivos MIDI (interfaz digital de instrumentos musicales), que son archivos de datos que contienen información variada sobre pistas musicales (por ejemplo, las notas tocadas, la duración de las notas, la velocidad a la que se tocan).
Para entrenar su modelo, el equipo convirtió cada archivo MIDI en un archivo de representación de eventos musicales (REMI).
Este formato específico codifica los datos MIDI en tokens que representan varias características musicales (por ejemplo, tono y velocidad).
Los archivos REMI capturan la dinámica de la música de formas que son particularmente favorables para entrenar modelos de IA para la generación de música.
“Durante el entrenamiento, eliminamos tokens aleatoriamente de los metadatos musicales para garantizar un control flexible”, escribieron los investigadores.
“Proporciona a los usuarios la libertad de seleccionar tipos de entrada mientras se mantiene el rendimiento generativo, lo que permite una mayor flexibilidad en la composición musical”.
Además de desarrollar su modelo basado en transformadores para la generación de música simbólica, Han, Ham y sus colegas crearon una interfaz sencilla que lo haría accesible tanto a usuarios expertos como no expertos.
Esta interfaz actualmente consta de una barra lateral y un panel interactivo central.
En la barra lateral, los usuarios pueden especificar aspectos de la música que quieren que el modelo genere, como qué instrumentos deben tocar y el tempo de la canción.
Una vez que el modelo genera una canción, pueden editar la pista en el panel central, por ejemplo, eliminando o agregando instrumentos o ajustando el momento en el que comenzarán a reproducir la música.
“Validamos la efectividad de la estrategia a través de experimentos en términos de capacidad del modelo, fidelidad musical, diversidad y capacidad de control“, escribieron Han, Ham y sus colegas.
“Además, ampliamos el modelo y lo comparamos con otros modelos de generación de música a través de una prueba subjetiva. Nuestros resultados indican su superioridad tanto en control como en calidad musical“.
Los investigadores descubrieron que su modelo funcionó significativamente bien y pudo generar de manera confiable un máximo de 4 compases de música según las especificaciones del usuario.
En futuros estudios, podrían mejorar aún más su sistema ampliando la duración de las pistas musicales que su modelo puede crear, ampliando las especificaciones que los usuarios pueden proporcionar y mejorando aún más la interfaz de usuario del sistema.
“Nuestro modelo, entrenado para generar 4 compases de música con control global, tiene limitaciones a la hora de ampliar la duración de la música y controlar los elementos locales a nivel de compás“, escribieron los investigadores.
“Sin embargo, nuestros intentos tienen importancia a la hora de generar temas musicales de alta calidad que se puedan utilizar como bucle”.
Fuente: arXiv
Pika 1.5 se centra en el hiperrealismo y le permite crear videos con física alucinante…
Los modelos de inteligencia artificial (IA) como ChatGPT se ejecutan en algoritmos y tienen un…
Científicos descubren que el cáncer pervierte a los astrocitos, un tipo de células cerebrales, y…
Para obtener imágenes microscópicas es necesario capturar múltiples mediciones secuenciales y, a continuación, utilizar algoritmos…
Un equipo combinado de investigadores biológicos y especialistas en robótica del Hospital Brigham and Women's,…
El robot humanoide Fourier GR-2 recibió algunas mejoras incluidas manos diestras de 12 grados de…