Categorías: Tecnología

Nueva inteligencia artificial de Disney es el reconocimiento facial para la animación

Comparta este Artículo en:

El sistema podría revolucionar la forma en que buscamos y descubrimos contenido de streaming.

El archivo masivo de Disney abarca casi un siglo de contenido, lo que puede convertir cualquier búsqueda de personajes, escenas u objetos en pantalla específicos en una tarea importante.

Sin embargo, un equipo de investigadores de la Direct-to-Consumer & International Organization de Disney (DTCI) ha creado una plataforma de aprendizaje automático para ayudar a automatizar el archivo digital de todo ese contenido.

Lo llaman el genoma del contenido.

La plataforma CG está diseñada para poblar gráficos de conocimiento con metadatos de contenido, similar a lo que ve en los resultados de Google si busca a Steve Jobs (a continuación).

A partir de ahí, las aplicaciones de IA pueden aprovechar esos datos para mejorar las funciones de búsqueda, descubrimiento y personalización, o como Anthony Accardo, Director de Investigación y Desarrollo de DTCI, dijo, ayuda a los animadores a encontrar tomas y secuencias específicas dentro del archivo de Disney.

“Entonces, si un animador que trabaja en una nueva temporada de Clone Wars quiere encontrar un tipo específico de explosión que ocurrió hace tres temporadas o como referencia para hacer algo para esta temporada actual, esa persona tiene que pasar horas en YouTube viendo videos porque no puedes encontrar eso simplemente mirando los títulos de los episodios“.

Pero con la ayuda de esta plataforma, el animador podrá simplemente buscar los metadatos necesarios.

El proyecto comenzó en 2016 después de unos años de investigación, dijo Accardo.

“Realmente se trataba de preparar una compañía como Disney, [que estaba] operando en un sentido tradicional para transmisión y distribución de video en el hogar, para lo aprovechar las diferencias entre una plataforma de video digital con acceso directo a los consumidores y los métodos de distribución tradicionales“.

Pero construir tal sistema desde cero no es tarea fácil.

El desarrollo de una taxonomía funcional y robusta es vital, continuó Accardo, “especialmente si va a generar muchos metadatos diferentes para muchos atributos diferentes.

Debe comenzar a pensar cómo va a administrar esos términos y esas etiquetas.

Si deja que esas taxonomías se salgan de control, los datos resultantes que genere serán difíciles de aprovechar de cualquier manera sofisticada y a escala”.

Luego, el equipo creó lo que describe como “primer canal de etiquetado automatizado“, según una publicación de Medium.

“Etiquetar contenido es un componente importante del uso de aprendizaje supervisado de DTCI, que se emplea regularmente en casos de uso personalizados que requieren detección específica“, escribió el equipo de DTCI.

“El etiquetado es también la única forma de identificar una gran cantidad de información contextual y de personajes a partir de datos estructurados, como argumentos, arquetipos de personajes o motivaciones“.

Se aprovechó el software de reconocimiento facial existente, que el equipo de DTCI luego aplicó a su catálogo de películas y programas de televisión.

El módulo pudo detectar y reconocer con éxito rostros humanos de la acción en pantalla.

Después de ese éxito inicial, el equipo también pudo capacitar al sistema para detectar ubicaciones específicas.

Pero reconocer la cara de un humano en un video en vivo es una tarea muy diferente a enseñarle a una IA a detectar caras animadas.

“La cara de un personaje en Cars tiene propiedades humanas pero no se ve como una cara humana“, dijo Miquel Àngel Farré, Gerente de Investigación y Desarrollo de DTCI.

“Por lo tanto, necesitamos algo que pueda aprender el concepto abstracto de “cara”, y con el aprendizaje automático tradicional, fue muy complicado.

Pero gracias al aprendizaje profundo pudimos lograr eso”.

A sex enhancement drug increases the viagra for sale australia production of testosterone levels in the body. There are certain causes due to viagra cheap online which one can suffer lifelong can enlisted as: Colon cancer Constipation Acidity The defecation posture for the human being is not meant for that. It is a safe, powerful, effective and affordable drug among the ED patients. http://www.slovak-republic.org/symbols/honours/ cheap generic viagra Diet: In case you are planning to cialis 10 mg about cialis 10 mg undergo IVF pregnancy treatment, any woman is free to fulfill her expectations no matter how difficult it seems with erectile dysfunction.

El equipo trató de aplicar el modelo de reconocimiento facial de acción real al contenido animado pero con resultados mixtos.

Resulta que los métodos de aprendizaje automático que emplearon, como HOG+SVM, funcionan bien en la selección de cambios de color, brillo y textura, escribió el equipo en su publicación Media, pero solo podía distinguir características humanas: dos ojos, un nariz y boca, si estuvieran dentro de las proporciones humanas generales.

Como tal, el uso de este sistema para etiquetar Monsters Inc. fue correcto.

Luego anotaron unos cientos de fotogramas de dos shows animados de Disney Junior, Elena de Avalor y The Lion Guard, e intentaron entrenar el sistema usando esas pequeñas muestras, pero eso también arrojó resultados decepcionantes.

El equipo no tuvo otra opción que recurrir a métodos de aprendizaje profundo para entrenar el sistema de reconocimiento facial animado.

“Para los personajes animados, fue realmente una de esas cosas que no hay otra forma de hacerlo”, explicó Farré.

“Es realmente lo que funciona bien“.

El problema con eso, sin embargo, es que los conjuntos de datos de entrenamiento de aprendizaje profundo son masivos por naturaleza.

Entonces, en cambio, el equipo usó las muestras que ya tenía para ajustar una arquitectura de Detección de Objetos CNN Faster-R que ya había sido entrenada para detectar caras animadas usando un conjunto de datos diferente que no es de Disney.

Básicamente, en lugar de entrenar una arquitectura completamente nueva utilizando grandes cantidades de contenido de Disney, el equipo empleó el método más rápido para tomar una arquitectura existente y ya capacitada y adaptarla a su contenido específico.

Después de ajustar ligeramente el conjunto de datos para corregir los resultados falsos positivos, el equipo combinó su detector de reconocimiento facial animado con otros algoritmos, como los rastreadores de cajas delimitadoras, para acortar el tiempo de procesamiento y mejorar la eficiencia.

“Esto nos permitió acelerar el procesamiento, ya que se requieren menos detecciones, y podemos propagar las caras detectadas a todos los cuadros“, escribió el equipo.

El proceso de etiquetado no está completamente automatizado, los humanos supervisan los resultados generados por el sistema, dependiendo de cómo se usen esos datos.

“Si esto es algo que va a potenciar una función orientada al consumidor, o una búsqueda orientada al consumidor“, dijo Accardo, “entonces queremos asegurarnos de que el clasificador esté entrenado y sea altamente preciso y personalizado para ese contenido“.

Ejecutamos esos resultados a través de nuestra plataforma de control de calidad y hacemos que los humanos los controlen “.

Esta tecnología también podría ser revolucionaria para los consumidores.

Dado que el sistema se puede aplicar a “todos los estudios [de Disney], todas las redes de transmisión, todo, desde ESPN hasta los largometrajes y las cadenas de televisión“, como señala Accardo, en teoría, podría buscar todos los episodios de una serie que contiene un personaje recurrente o un objeto recurrente menor específico, o se filmaron en una ubicación específica, o presentan una secuencia de acción específica.

Los motores de recomendación y descubrimiento podrían ser más precisos y eficientes para detectar el tipo de contenido que los espectadores buscan sin los resultados contundentes que vemos en los servicios de streaming actuales.

En el futuro, Accardo y el equipo esperan ampliar aún más la capacidad del sistema para comprender conceptos generalizados al aprovechar las técnicas de aprendizaje automático multimodales, como el marco que PyTorch lanzó recientemente y que el equipo utilizó en su trabajo.

“En 2014, 2015, tuvimos esta conversación sobre cómo identificar automáticamente un arresto“, explicó Accardo.

“Lo haríamos utilizando el procesamiento del lenguaje natural contra el guión, utilizando el reconocimiento del logotipo para identificar una insignia de un oficial de policía, utilizando todas estas cosas diferentes para identificar un concepto que no es claramente visible o audible“.

Pero antes de que eso pueda suceder, se necesita más investigación y desarrollo.

“Lo que pasa con el aprendizaje automático y la inteligencia artificial es que las cosas que se basan en la comprensión de todo el contexto son más difíciles“, dijo Accardo.

“Debe comenzar con las cosas claramente identificables y luego puede pasar al aprendizaje automático multimodal”.

“El uso de inferencia, el uso de gráficos de conocimiento, el uso de la semántica, para enriquecer realmente su capacidad de automatizar la captura del contexto humano y la comprensión“, concluyó, “eso para mí es súper emocionante“.

Fuente: Engadget