Hay muchas razones válidas para preocuparse acerca de cómo las técnicas de aprendizaje profundo podrían usarse potencialmente para manipular imágenes por razones nefastas.
Pero como lo demuestra Denis Shiryaev al mejorar algunas viejas películas en blanco y negro de 1896, esas herramientas con IA también pueden ser una forma poderosa de revivir el pasado.
Cuando se miran películas antiguas que están plagadas de problemas en la imagen, problemas de enfoque y una falta total de color, es difícil sentirse conectado con las personas en el clip, o lo que está sucediendo.
Parece una película y, a lo largo de los años, ese medio ha enseñado a nuestros cerebros que lo que están viendo en la pantalla podría no ser real.
En comparación, la experiencia de ver videos de amigos y familiares capturados en su teléfono inteligente es completamente diferente gracias a las resoluciones 4K y las altas velocidades de cuadros.
Esos clips se sienten más auténticos y, mientras los mira, hay más conexión con el momento, incluso si en realidad no estaba allí mientras se estaba filmando.
En 1896, Louis Lumière, uno de los famosos hermanos Lumière que ayudó a ser pionero de las películas y el equipo utilizado para capturar imágenes en movimiento en una película, filmó un cortometraje titulado L’Arrivée d’un train en gare de La Ciotat que presentaba un tren lentamente arribando a una estación.
El corto clip de 45 segundos es más famoso por varias leyendas urbanas con respecto a los cinéfilos que salen corriendo del teatro durante las proyecciones en 1896, aterrorizados de que un tren real estuviera a punto de pasar a través de la pantalla.
Es posible que nunca se haya probado si la película tuvo ese efecto en el público, pero dado lo nuevo y novedoso que era el medio, el clip ciertamente habría sido una experiencia única para alguien que nunca antes había visto imágenes en movimiento.
L’Arrivée d’un train en gare de La Ciotat no tiene el mismo efecto en el público moderno, pero Denis Shiryaev se preguntó si podría hacerse más convincente utilizando algoritmos alimentados por redes neuronales (incluidos Gigapixel AI y DAIN de Topaz Labs) no solo para aumentar el metraje a 4K, sino también para aumentar la velocidad de cuadros a 60 cuadros por segundo.
Gigapixel AI utiliza un algoritmo de interpolación patentado que “analiza la imagen y reconoce detalles y estructuras y ‘completa’ la imagen” según el sitio web de Topaz Labs.
Efectivamente, Topaz enseñó a una IA a enfocar y aclarar con precisión las imágenes incluso después de que se hayan ampliado hasta en un 600 por ciento.
DAIN, por otro lado, imagina e inserta cuadros entre los fotogramas clave de un video clip existente.
Es el mismo concepto que la función de suavizado de movimiento en televisores 4K. En este caso, sin embargo, agregó suficientes cuadros para aumentar la velocidad a 60 FPS.
Ambos son ejemplos de tecnología de mejora, que ha sido una parte esencial del entretenimiento de transmisión desde 1998, cuando los primeros televisores de alta definición llegaron al mercado.
Televisores de definición estándar de la vieja escuela que muestran con una resolución de 720×480, un total de 345,600 pixeles de contenido que se puede mostrar a la vez.
Los televisores de alta definición muestran a 1920 × 1080, o 2,073,600 pixeles en total, seis veces la resolución de SD, mientras que los televisores 4K, con su resolución de 3840×2160, necesitan 8,294,400 pixeles.
Debe completar 6 millones de pixeles adicionales para agrandar una imagen HD para que quepa en una pantalla 4K, por lo que el escalador debe descubrir qué mostrar en esos pixeles adicionales.
Aquí es donde entra el proceso de interpolación.
La interpolación estima lo que cada uno de esos nuevos pixeles debe mostrar en función de lo que muestran los pixeles a su alrededor; sin embargo, hay varias formas diferentes de medir eso.
El método de “vecino más cercano” simplemente llena los pixeles en blanco con el mismo color que su vecino más cercano (de ahí el nombre).
Es simple y efectivo, pero da como resultado una imagen irregular y abiertamente pixelada.
La interpolación bilineal requiere un poco más de potencia de procesamiento, pero permite que el televisor analice cada pixel en blanco en función de sus dos vecinos más cercanos y genere un gradiente entre ellos, lo que agudiza la imagen.
La interpolación bicúbica, por otro lado, muestrea sus 16 vecinos más cercanos.
Esto da como resultado una coloración precisa pero una imagen borrosa aún, al combinar los resultados de la interpolación bilineal y bicúbica, los televisores pueden dar cuenta de las deficiencias de cada proceso y generar imágenes mejoradas con una pérdida mínima de calidad óptica (nitidez y artefactos ocasionales) en comparación con el original .
Dado que el proceso de interpolación es esencialmente un juego de adivinanzas, ¿por qué no hacer que una IA tome las decisiones?
Utilizando redes neuronales convolucionales profundas, los programas como DAIN pueden analizar y mapear videoclips y luego insertar imágenes de relleno generadas entre cuadros existentes.
Es posible que le grite a sus padres por usar la configuración de suavizado de movimiento en su nuevo y elegante televisor, pero aquí la velocidad de fotogramas aumentada tiene un efecto dramático en llevarle a la acción.
Además de seguir siendo blanco y negro (que podría descartarse simplemente como una opción artística) y el artefacto visual ocasional introducido por las redes neuronales, la versión mejorada de L’Arrivée d’un train en gare de La Ciotat parece que podría haberse grabado ayer en un teléfono inteligente o una GoPro.
Incluso las personas que esperan en la plataforma se parecen a los recreadores históricos disfrazados que encontrará representando a un personaje antiguo en una aldea pionera.
Los resultados están lejos de ser perfectos; se ve muy bien como una pieza del tamaño de YouTube, pero en pantalla completa los objetos en primer plano y el interior de los objetos son bastante buenos, pero si se observan los bordes de las cosas, o las cosas en el fondo, las costuras se separan un poco.
Esperamos que Shiryaev aplique uno de los muchos algoritmos de aprendizaje profundo que también pueden colorear fotos en blanco y negro a esta película, pero el potencial es obvio de estas herramientas para mejorar el metraje histórico para aumentar su impacto.
Y Shiryaev finalmente creó la versión en color:
Daihatsu Motor está causando sensación en el Japan Mobility Show 2023 con su innovador me:MO,…
La hipertensión arterial es el principal factor de riesgo cardiovascular. (more…)
La enfermedad de Alzheimer es un trastorno cerebral progresivo que produce disfunción neuronal y cognitiva…
La 'súper melanina' sintética acelera la reparación de la piel. (more…)
Esta tecnología ha permitido separar y editar la voz de John Lennon en Now and…
Crear un logo para su proyecto o negocio es algo sencillo con inteligencia artificial, e…