¿Sería posible en el futuro darle a un botón y cambiar la voz de una canción que estemos escuchando, para seleccionar otra entre varios cantantes de éxito?
Eso es exactamente lo que ha logrado un equipo de científicos de Facebook AI Research (la división de Facebook dedicada a la investigación en el campo de la inteligencia artificial) y de la Universidad de Tel Aviv.
En un artículo publicado en Arxiv.org (“Unsupervised Singing Voice Conversion”), los investigadores describen el funcionamiento de este sistema, capaz de aprender a convertir unas voces en otras con sólo escuchar audios de las mismas durante 5-30 minutos.
Y ello sin necesidad de supervisión humana.
“[Nuestra tecnología] no está condicionada por la letra ni por las notas [musicales], no requiere de datos de entrenamiento paralelos para los distintos cantantes, y no emplea sistemas de transcripción de audio ni para el texto ni para las notas.
Mientras que los métodos de corrección de tono ya existentes […] corrigen sólo cambios de tono localizados, nuestro trabajo ofrece flexibilidad [y altera] otras características de la voz”.
Este sistema se basa en el autocodificador WaveNet desarrollado por DeepMind que estudia el diagrama y genera los elementos de audio correspondientes para ofrecer la voz sintetizada.
Partiendo de esa base, los investigadores han empleado un método de traducción inversa, que permite convertir una muestra de datos en una muestra objetivo (esto es, la voz del cantante original en otra) antes de volver a traducirla y ajustar el siguiente intento si el resultado no coincide con el original.
En los experimentos se utilizaron dos datasets diferentes: del primero, conocido como DAMP y mantenido por la Univ. de Stanford, se seleccionaron 5 cantantes con 10 canciones al azar (nueve de las cuales usaron para entrenar el sistema de inteligencia artificial); del segundo, conocido como NUS-48E y mantenido por la Univ. Nacional de Singapur, eligieron 12 cantantes con cuatro canciones por cada uno (todas ellas utilizadas para el entrenamiento).
Finalmente, se utilizó un sistema doble de valoración de la calidad de las muestras generadas: uno basado en revisores humanos (que otorgaron una puntuación media de 4) y un segundo basado en un proceso automatizado, que valoró una identificación casi total entre las muestras de origen y las generadas.
Ahora el siguiente reto es que los futuros métodos de conversión de voz que se vayan desarrollando puedan realizar dicha labor sin necesidad de prescindir del acompañamiento instrumental de fondo.
Fuente: Xataca