Este método de aprendizaje automático podría ayudar con la comprensión de escenas robóticas, la edición de imágenes o los sistemas de recomendación en línea.
Un robot que manipule objetos mientras, por ejemplo, trabaja en una cocina, se beneficiará al comprender qué elementos están compuestos por los mismos materiales.
Con este conocimiento, el robot sabría ejercer una fuerza similar, ya sea que recoja una pequeña porción de mantequilla de una esquina oscura del mostrador o una barra entera del interior de una nevera bien iluminada.
Identificar objetos en una escena que están compuestos del mismo material, conocido como selección de materiales, es un problema especialmente desafiante para las máquinas porque la apariencia de un material puede variar drásticamente según la forma del objeto o las condiciones de iluminación.
Científicos del MIT y Adobe Research han dado un paso para resolver este desafío.
Desarrollaron una técnica que puede identificar todos los pixeles en una imagen que representa un material determinado, que se muestra en un pixel seleccionado por el usuario.
El método es preciso incluso cuando los objetos tienen diferentes formas y tamaños, y el modelo de aprendizaje automático que desarrollaron no se ve engañado por las sombras o las condiciones de iluminación que pueden hacer que el mismo material parezca diferente.
Aunque entrenaron su modelo usando solo datos “sintéticos“, que son creados por una computadora que modifica escenas 3D para producir muchas imágenes diferentes, el sistema funciona de manera efectiva en escenas interiores y exteriores reales que nunca antes había visto.
El enfoque también se puede utilizar para videos; una vez que el usuario identifica un pixel en el primer cuadro, el modelo puede identificar objetos hechos del mismo material a lo largo del resto del video.
Además de las aplicaciones en la comprensión de escenas para la robótica, este método podría usarse para la edición de imágenes o incorporarse a sistemas computacionales que deduzcan los parámetros de los materiales en las imágenes.
También podría utilizarse para sistemas de recomendación web basados en materiales. (Quizás un comprador está buscando ropa hecha de un tipo particular de tela, por ejemplo).
“Saber con qué material estás interactuando suele ser bastante importante.
Aunque dos objetos pueden parecer similares, pueden tener diferentes propiedades materiales.
Nuestro método puede facilitar la selección de todos los demás pixeles en una imagen que están hechos del mismo material”, dice Prafull Sharma, estudiante de posgrado en ingeniería eléctrica e informática y autor principal de un artículo sobre esta técnica.
Los métodos existentes para la selección de materiales tienen dificultades para identificar con precisión todos los pixeles que representan el mismo material.
Por ejemplo, algunos métodos se enfocan en objetos completos, pero un objeto puede estar compuesto de varios materiales, como una silla con brazos de madera y un asiento de cuero.
Otros métodos pueden utilizar un conjunto predeterminado de materiales, pero estos a menudo tienen etiquetas amplias como “madera“, a pesar de que hay miles de variedades de madera.
En cambio, Sharma y sus colaboradores desarrollaron un enfoque de aprendizaje automático que evalúa dinámicamente todos los pixeles de una imagen para determinar las similitudes materiales entre un pixel que selecciona el usuario y todas las demás regiones de la imagen.
Si una imagen contiene una mesa y dos sillas, y las patas de la silla y el tablero están hechos del mismo tipo de madera, su modelo podría identificar con precisión esas regiones similares.
Antes de que los investigadores pudieran desarrollar un método de IA para aprender a seleccionar materiales similares, tuvieron que superar algunos obstáculos.
En primer lugar, ningún conjunto de datos existente contenía materiales que estuvieran etiquetados con la precisión suficiente para entrenar su modelo de aprendizaje automático.
Los investigadores generaron su propio conjunto de datos sintéticos de escenas interiores, que incluía 50 000 imágenes y más de 16 000 materiales aplicados aleatoriamente a cada objeto.
“Queríamos un conjunto de datos en el que cada tipo de material individual se marcara de forma independiente”, dice Sharma.
Con un conjunto de datos sintéticos en la mano, entrenaron un modelo de aprendizaje automático para la tarea de identificar materiales similares en imágenes reales, pero falló.
Los investigadores se dieron cuenta de que el cambio de distribución era el culpable.
Esto ocurre cuando un modelo se entrena con datos sintéticos, pero falla cuando se prueba con datos del mundo real que pueden ser muy diferentes del conjunto de entrenamiento.
Para resolver este problema, construyeron su modelo sobre un modelo de visión por computadora previamente entrenado, que ha visto millones de imágenes reales.
Utilizaron el conocimiento previo de ese modelo aprovechando las características visuales que ya había aprendido.
“En el aprendizaje automático, cuando se usa una red neuronal, generalmente se aprende la representación y el proceso de resolver la tarea juntos. Hemos desenredado esto.
El modelo preentrenado nos da la representación, luego nuestra red neuronal solo se enfoca en resolver la tarea”, dice.
El modelo de los investigadores transforma las características visuales genéricas preentrenadas en características específicas del material, y lo hace de una manera que es robusta para las formas de los objetos o las diversas condiciones de iluminación.
Luego, el modelo puede calcular una puntuación de similitud de material para cada píxel de la imagen.
Cuando un usuario hace clic en un pixel, el modelo determina qué tan cerca en apariencia está cada otro pixel de la consulta.
Produce un mapa donde cada pixel se clasifica en una escala de 0 a 1 por similitud.
“El usuario simplemente hace clic en un pixel y luego el modelo seleccionará automáticamente todas las regiones que tienen el mismo material”, dice.
Dado que el modelo genera una puntuación de similitud para cada pixel, el usuario puede ajustar los resultados estableciendo un umbral, como el 90 por ciento de similitud, y recibir un mapa de la imagen con esas regiones resaltadas.
El método también funciona para la selección de imágenes cruzadas: el usuario puede seleccionar un pixel en una imagen y encontrar el mismo material en una imagen separada.
Durante los experimentos, los investigadores descubrieron que su modelo podía predecir regiones de una imagen que contenían el mismo material con mayor precisión que otros métodos.
Cuando midieron qué tan bien la predicción se comparó con la realidad del terreno, es decir, las áreas reales de la imagen que están compuestas del mismo material, su modelo coincidió con una precisión de aproximadamente el 92 por ciento.
En el futuro, quieren mejorar el modelo para que pueda capturar mejor los detalles finos de los objetos en una imagen, lo que aumentaría la precisión de su enfoque.
“Los materiales ricos contribuyen a la funcionalidad y la belleza del mundo en el que vivimos.
Pero los algoritmos de visión artificial suelen pasar por alto los materiales y, en cambio, se centran en gran medida en los objetos.
Este documento hace una contribución importante en el reconocimiento de materiales en imágenes y videos en una amplia gama de condiciones desafiantes”, dice Kavita Bala, decana de la Facultad de Informática y Ciencias de la Información de Cornell Bowers y profesora de Ciencias de la Computación, que no participó en este trabajo.
“Esta tecnología puede ser muy útil tanto para los consumidores finales como para los diseñadores.
Por ejemplo, el propietario de una casa puede imaginar lo caras que pueden parecer opciones como volver a tapizar un sofá o cambiar la alfombra de una habitación, y puede tener más confianza en sus elecciones de diseño en función de estas visualizaciones”.
Fuente: MIT News