Inteligencia artificial capaz de describir imágenes ‘tan bien como las personas’

Comparta este Artículo en:

Es un nuevo hito para la inteligencia artificial que realmente podría ayudar a las personas con discapacidad visual.

Describir una imagen con precisión, y no solo como un robot despistado, ha sido durante mucho tiempo el objetivo de la inteligencia artificial.

En 2016, Google dijo que su inteligencia artificial podría subtitular imágenes casi tan bien como los humanos, con un 94 por ciento de precisión.

Ahora Microsoft dice que ha ido aún más lejos: sus investigadores han construido un sistema de inteligencia artificial que es incluso más preciso que los humanos, tanto que ahora se encuentra en la cima de la tabla de clasificación como el punto de referencia de subtítulos de imágenes.

Microsoft afirma que es dos veces mejor que el modelo de subtítulos de imágenes que ha estado utilizando desde 2015.

Y si bien ese es un hito notable en sí mismo, Microsoft no se está quedando con esta tecnología para sí misma.

Ahora ofrece el nuevo modelo de subtítulos como parte de los servicios cognitivos de Azure, por lo que cualquier desarrollador puede incorporarlo a sus aplicaciones.

También está disponible hoy en Seeing AI, la aplicación de Microsoft para usuarios ciegos y con discapacidad visual que puede narrar el mundo que los rodea.

Y a finales de este año, el modelo de subtítulos también mejorará sus presentaciones en PowerPoint para la web, Windows y Mac.

También aparecerá en Word y Outlook en plataformas de escritorio.

“[Subtítulos de imagen] es uno de los problemas más difíciles en la IA“, dijo Eric Boyd, CVP de Azure AI, en una entrevista con Engadget.

“Representa no solo la comprensión de los objetos en una escena, sino cómo interactúan y cómo describirlos“.

El perfeccionamiento de las técnicas de subtítulos puede ayudar a todos los usuarios: facilita la búsqueda de las imágenes que busca en los motores de búsqueda.

Y para los usuarios con discapacidad visual, puede hacer que la navegación por Internet y el software sea mucho mejor.

No es inusual ver empresas promocionando sus innovaciones de investigación en IA, pero es mucho más raro que esos descubrimientos se implementen rápidamente en productos.

Xuedong Huang, director de tecnología de los servicios cognitivos de IA de Azure, presionó para integrarlo en Azure rápidamente debido a los posibles beneficios para los usuarios.

Su equipo entrenó el modelo con imágenes etiquetadas con palabras clave específicas, lo que ayudó a darle un lenguaje visual que la mayoría de los marcos de IA no tienen.

Por lo general, este tipo de modelos se entrenan con imágenes y subtítulos completos, lo que dificulta que los modelos aprendan cómo interactúan los objetos específicos.

“Este pre-entrenamiento de vocabulario visual es esencialmente la educación necesaria para entrenar el sistema; estamos tratando de educar esta memoria motora ”, dijo Huang en una publicación de blog.

Eso es lo que le da a este nuevo modelo una ventaja en el punto de referencia, que se centra en determinar qué tan bien puede la IA subtitular imágenes que nunca antes habían visto.

Pero si bien superar un punto de referencia es significativo, la prueba real para el nuevo modelo de Microsoft será cómo funciona en el mundo real.

Según Boyd, el desarrollador de Seeing AI Saqib Shaik, quien también impulsa una mayor accesibilidad en Microsoft como persona ciega, lo describe como una mejora dramática con respecto a su oferta anterior.

Y ahora que Microsoft ha establecido un nuevo hito, será interesante ver cómo los modelos de la competencia de Google y otros investigadores también compiten.

Fuente: Engadget