La inteligencia artificial puede detectar la edad, el género o la raza de una persona únicamente con su voz y partir de estos elementos crear un rostro lo más parecido posible.
¿Cuánto puede inferir la apariencia de una persona con base en su forma de hablar?
Esa es la pregunta con la que un grupo de investigadores del Instituto de Tecnología de Massachusetts inició un proyecto que tiene como objetivo lograr que un algoritmo sea capaz de generar los rasgos físicos más característicos de una persona únicamente con su habla.
Como resultado, crearon Speech2Face, una IA que consigue crear un rostro virtual muy similar al de un humano únicamente reproduciendo unos segundos de un audio con su voz.
Speech2Face, en concreto, se basa en un sistema de red neuronal capaz de reconocer algunos elementos físicos de un ser humano solo con su voz.
Entre ellos, la raza, la edad o el género.
Para ello, la IA se ha sometido a un proceso de entrenamiento que consiste en aprender las correlaciones que existen entre la voz y la cara de miles de personas que aparecen en videos de YouTube.
De este modo, el algoritmo puede tener multitud de referencias que le permitan crear un rostro sin necesidad de ninguna imagen.
El resultado es la creación de rostros virtuales muy similares a los de personales reales.
No obstante, no 100 % precisos, como los que sí se pueden obtener con una inteligencia artificial que compara las caras sintéticas con fotografías de caras reales.
De hecho, y tal como detallan los investigadores del MIT en su artículo, el objetivo no es crear una imagen que replique el rostro de una persona, sino generar una que recupere “los rasgos físicos característicos que están correlacionados” con el habla.
A diferencia de la IA denominada Speech2Face y que puede crear un avatar de una persona únicamente escuchando la voz, hay sistemas de aprendizaje automático capaces de generar caras tan similares a las de una persona real, que incluso el ser humano no puede diferenciar.
Una investigación publicada en la revista PNAS, de hecho, demuestra que la mayoría de personas que participaron en un estudio cuyo objetivo era comprobar si podían distinguir los rostros reales de los virtuales, encontraron más confiables aquellos generados por inteligencia artificial, que los reales.
Este tipo de caras virtuales se crean utilizando un sistema compuesto por dos redes neuronales.
La primera se encarga de generar los avatares a partir de una matriz de pixeles.
La segunda, en cambio, se dedica a comparar el rostro creado por IA con uno real.
Si encuentra diferencias, penaliza al primer sistema para que este no vuelva a cometer el mismo error.
Así, hasta conseguir que la imagen sea extremadamente parecido al real.
Estos sistemas de aprendizaje pueden tener importantes beneficios si se consiguen aplicar en el día a día.
Por ejemplo, la IA capaz de crear un rostro a partir de la voz puede resultar útil para generar avatares de delincuentes.
No obstante, también suponen un importante peligro.
Sobre todo, teniendo en cuenta que la facilidad con la que se puede crear un rostro para, entre otros usos, suplantar la identidad de una persona.
Fuente: Speech2Face