Herramienta dificulta a la IA entrenarse con canciones

Comparta este Artículo en:

Casi 200 años después de la muerte de Beethoven, un equipo de músicos y científicos informáticos creó una inteligencia artificial (IA) generativa que completó su Décima Sinfonía de manera tan convincente que los expertos en música no podían diferenciar la música que se originaba en la IA o en las notas escritas a mano del compositor.

Antes de que estas herramientas de IA puedan generar nuevos tipos de datos, incluidas las canciones, deben entrenarse en enormes bibliotecas de ese mismo tipo de datos.

Las empresas que crean modelos de IA generativa suelen recopilar estos datos de entrenamiento de Internet, a menudo de sitios web en los que los propios artistas han puesto a disposición su arte.

“La mayoría de las obras de arte de alta calidad en línea están protegidas por derechos de autor, pero estas empresas pueden obtener las versiones protegidas por derechos de autor muy fácilmente”, dijo Jian Liu, profesor asistente en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) Min H. Kao, que se especializa en ciberseguridad y aprendizaje automático.

“Quizás paguen 5 dólares por una canción, como un usuario normal, y tengan la versión completa.

Pero esa compra sólo les da una licencia personal; no están autorizados a utilizar la canción con fines comerciales”.

Las empresas suelen ignorar esa restricción y entrenar a sus modelos de IA con la obra protegida por derechos de autor.

Los usuarios desprevenidos que pagan por la herramienta generativa pueden generar nuevas canciones que suenen sospechosamente similares a las originales creadas por humanos y protegidas por derechos de autor.

Tennessee se convirtió en el primer estado de los EE. UU. en proteger legalmente las voces de los artistas musicales del uso no autorizado por parte de la IA generativa.

Si bien aplaudió ese primer paso, Liu vio la necesidad de ir más allá: proteger no sólo las pistas vocales, sino las canciones enteras.

En colaboración con su estudiante de doctorado Syed Irfan Ali Meerza y Lichao Sun de la Universidad de Lehigh, Liu ha desarrollado HarmonyCloak, un nuevo programa que hace que los archivos musicales sean esencialmente inaprendibles para los modelos de IA generativa sin cambiar cómo suenan para los oyentes humanos.

“Nuestra investigación no solo aborda las preocupaciones más urgentes de la comunidad creativa, sino que también presenta una solución tangible para preservar la integridad de la expresión artística en la era de la IA”, afirmó.

Liu, Meerza y Sun se comprometieron a proteger la música sin comprometer la experiencia de los oyentes.

Decidieron encontrar una forma de engañar a las IA generativas utilizando sus propios sistemas de aprendizaje básicos.

Al igual que los humanos, los modelos de IA generativa pueden determinar si un fragmento de datos que encuentran es información nueva o algo que coincide con su conocimiento existente.

Las IA generativas están programadas para minimizar esa brecha de conocimiento aprendiendo tanto como sea posible de cada nuevo fragmento de datos.

“Nuestra idea es minimizar la brecha de conocimiento nosotros mismos para que el modelo reconozca erróneamente una nueva canción como algo que ya ha aprendido“, explicó Liu.

“De esa manera, incluso si una empresa de IA puede seguir introduciendo su música en su modelo, la IA ‘piensa’ que no hay nada que aprender de ella”.

El equipo de Liu también tuvo que lidiar con la naturaleza dinámica de la música.

Las canciones suelen mezclar múltiples canales instrumentales con voces humanas, cada canal abarca su propio espectro de frecuencias, y los canales pueden pasar del primer plano al fondo y cambiar de tempo a medida que pasa el tiempo.

Afortunadamente, así como hay formas de engañar a un modelo de IA, hay formas de engañar al oído humano.

La percepción humana de los sonidos depende de varios factores.

Los humanos no pueden oír sonidos muy suaves (como música que se reproduce a una milla de distancia) o fuera de ciertas frecuencias (como el tono de un silbato para perros).

También hay formas de engañar al oído para que ignore un sonido que es técnicamente audible.

Por ejemplo, un ruido suave que se reproduce inmediatamente después de uno más fuerte pasará desapercibido, especialmente si las notas tienen frecuencias similares.

El equipo de Liu creó HarmonyCloak para introducir nuevas notas, o perturbaciones, que pueden engañar a los modelos de IA, pero que están lo suficientemente enmascaradas por las notas originales de la canción como para evadir la detección humana.

“Nuestro sistema preserva la calidad de la música porque solo agregamos ruidos imperceptibles“, dijo Liu.

“Queremos que los humanos no puedan distinguir entre esta música alterada y la original”.

Canción original:

La misma canción con ruido imperceptible:

Para probar la eficacia de HarmonyCloak, Liu, Meerza y Sun reclutaron a 31 voluntarios humanos junto con tres modelos de IA de última generación para generar música.

Los voluntarios humanos dieron a las canciones originales y a las que no se pueden aprender calificaciones igualmente altas en cuanto a su agrado.

Mientras tanto, los resultados de los modelos de IA se deterioraron rápidamente, obteniendo puntuaciones mucho peores tanto de los humanos como de las métricas estadísticas a medida que más canciones en sus bibliotecas de entrenamiento estaban protegidas por HarmonyCloak.

Música generada por IA sin ruido imperceptible:

Música generada por IA con ruido imperceptible:

“Estos hallazgos subrayan el impacto sustancial de la música que no se puede aprender en la calidad y la percepción de la música generada por IA”, dijo Liu.

“Desde la perspectiva del compositor musical, esta es la solución perfecta; los modelos de IA no pueden ser entrenados en su trabajo, pero los compositores aún pueden poner su música a disposición del público”.

Fuente: Mosis Lab