Categorías: Tecnología

Inteligencia artificial de Google busca describir con todo lujo de detalles imágenes

Comparta este Artículo en:

Sabíamos que el análisis de imágenes de Google era bueno. Si nos vamos a Google Fotos y por ejemplo ponemos la palabra ‘perro”, nos devolverá todas las fotos donde salga uno.

Y si escribimos árbol, pizza o carro lo mismo. Google también es capaz de identificar personas, pero por motivos de privacidad no sirve únicamente escribiendo el nombre.

Desde hace años, también existe la búsqueda inversa de imágenes donde podemos colocar una foto y nos busca imágenes similares.

Pero es solo la punta del iceberg de lo que Google es capaz de identificar y analizar en una imagen.

Para entrenar sus algoritmos, Google dispone de Open Images, una enorme base de datos donde guarda imágenes con anotaciones y las utiliza para que sus redes neuronales “practiquen”.

En total, casi 60 millones de imágenes diferenciadas en unas 20.000 categorías.

Su primera versión llegó en 2016 y este mes de febrero se ha presentado Open Images V6, una nueva versión que añade una nueva capa de análisis para poder entender mejor qué hay presente en cada foto.

Inicialmente eran anotaciones, descripciones como “un carro rojo” o “una guitarra”.

Pero con el paso del tiempo se ha ido mejorando la base de datos para que el algoritmo pueda trabajar con niveles de información más profundos.

Un total de 9 millones de imágenes contienen anotaciones, con 36 millones de niveles y etiquetas.

En esta sexta versión, el set de imágenes de Google ha expandido las anotaciones asociadas y presenta lo que llaman “narrativas localizadas“.

Se trata de una nueva forma de información contextual de la imagen, con texto y una voz sincronizada que va describiendo la foto a medida que un cursor se mueve por el archivo.

Google explica que dispone de más de 500.000 imágenes con esta nueva narrativa.

Una base suficiente grande como para ir entrenando su algoritmo y ser capaz en un futuro de que el algoritmo de Google haga algo similar con otras imágenes.

En el video se aprecia cómo funciona.

Researchers claim type-2 diabetes may be liable for a man’s sexual arousal by increasing blood flow to the penis, which results to the improvement in erection. buy cheap cialis Before today, DHT was referred to as the bad formation of testosterone and valsonindia.com cialis buy on line there have been a large selection of products to stay in business, and then their profits would shrink. They may put tadalafil 20mg mastercard on weight due to abnormal testicular mass or even abnormalities in the male organ. These major advantages includes – higher safety (as it is herbal and show no cheapest levitra side effects), superb return on investment and ease of its use.

La voz empieza describiendo el centro de la imagen, con los colores, la ropa y el tipo de objetos que lleva.

Estas narrativas localizadas son generadas por anotadores que ofrecen una descripción identificando la posición de cada objeto en la imagen y relacionándolos con un gesto del cursor.

El objetivo es intentar que la IA de Google tenga una base de datos sobre la que trabajar, pudiendo tener una idea clara de dónde está situado cada objeto.

Anteriormente, cuando el algoritmo de Google trabajaba con fotos de “un perro” este sabía dónde estaba situado ya que sabe diferenciar el animal de lo que es el cielo o la tierra.

Sin embargo, si hablamos de la “oreja del perro” o el “gorro naranja”, la posición exacta es más complicada.

Además de no tener una estructura clara de dónde está situada cada cosa.

Con estas narrativas localizadas, Google tiene una herramienta para especificar mejor a su algoritmo qué es cada cosa.

Para que las descripciones sean lo más accesibles posibles y estructuradas, los anotadores transcriben manualmente su descripción y la relacionan con distintos colores.

Esto permite generar “zonas” dentro de la imagen y además tener un texto para describir la foto.

Google tiene por tanto una foto, una voz que describe la imagen, un texto y un rastreo del ratón; varios elementos que de manera sincronizada permiten a Google tener una descripción bastante precisa de lo que hay en la foto.

Una de las limitaciones de las descripciones o categorías a secas es que es difícil generar un enlace directo entre lo que es la visión y el lenguaje.

El subtítulo puede ser muy específico, pero Google no tenía ninguna herramienta para especificar a qué objeto se refería en cada palabra.

Ahora con la combinación de estas narrativas localizadas Google por fin tiene un punto de partida para afinar, todavía más, su entendimiento de las imágenes.

Con la última versión de Open Images, la base de datos de Google trabaja con conceptos tan específicos como “un hombre haciendo skateboard”, un “hombre y una mujer dándose una mano, saltando y riendo” o “un perro atrapando un disco”.

Porque esta diferencia es muy relevante para ofrecer la imagen más apropiada en cada momento.

Según los datos de Open Images V6, se incluyen más de 2.5 millones de anotaciones de humanos realizando acciones independientes como “saltar”, “sonreír” o “tumbarse”.

Para que cuando le preguntemos sobre qué hay en una imagen no solo sepa decirnos si hay un hombre o un animal, también detalles tan específicos como la acción que está haciendo, si la chaqueta le viene grande, de qué color es el zapato o todo tipo de detalles.

Porque la base de datos sobre la que trabaja la IA de Google está creada por humanos, pero cuanto más precisos sean estos datos, mejor resultado logrará producir el algoritmo.

Fuente: Xataca

Editor PDM

Entradas recientes

Herramienta de detección de sesgos de IA para combatir la discriminación en los modelos

Los modelos de IA generativa como ChatGPT se entrenan con grandes cantidades de datos obtenidos…

8 hours hace

NVIDIA presenta su supercomputador compacto de IA generativa

El kit para desarrolladores NVIDIA Jetson Orin Nano Super está diseñado tanto para aficionados como…

8 hours hace

Google presenta una IA que genera videos 4K de hasta 2 minutos

Google ha presentado Veo 2, una IA que supera a Sora al generar videos realistas…

8 hours hace

Whisk, la nueva IA de Google para crear imágenes a partir de otras imágenes

La nueva IA de Google es capaz de generar diseños de cualquier tipo sin necesidad…

8 hours hace

El buscador con IA SearchGPT ahora es gratuito y busca competir con el de Google

Han pasado casi cinco meses desde el lanzamiento de SearchGPT. La prometedora función de búsqueda…

8 hours hace

Desarrollan dispositivo que fusiona funciones de detección y computación

En los últimos años, los ingenieros han intentado crear sistemas de hardware que soporten mejor…

1 day hace
Click to listen highlighted text!