Categorías: Tecnología

Inteligencia artificial de Google busca describir con todo lujo de detalles imágenes

Comparta este Artículo en:

Sabíamos que el análisis de imágenes de Google era bueno. Si nos vamos a Google Fotos y por ejemplo ponemos la palabra ‘perro”, nos devolverá todas las fotos donde salga uno.

Y si escribimos árbol, pizza o carro lo mismo. Google también es capaz de identificar personas, pero por motivos de privacidad no sirve únicamente escribiendo el nombre.

Desde hace años, también existe la búsqueda inversa de imágenes donde podemos colocar una foto y nos busca imágenes similares.

Pero es solo la punta del iceberg de lo que Google es capaz de identificar y analizar en una imagen.

Para entrenar sus algoritmos, Google dispone de Open Images, una enorme base de datos donde guarda imágenes con anotaciones y las utiliza para que sus redes neuronales “practiquen”.

En total, casi 60 millones de imágenes diferenciadas en unas 20.000 categorías.

Su primera versión llegó en 2016 y este mes de febrero se ha presentado Open Images V6, una nueva versión que añade una nueva capa de análisis para poder entender mejor qué hay presente en cada foto.

Inicialmente eran anotaciones, descripciones como “un carro rojo” o “una guitarra”.

Pero con el paso del tiempo se ha ido mejorando la base de datos para que el algoritmo pueda trabajar con niveles de información más profundos.

Un total de 9 millones de imágenes contienen anotaciones, con 36 millones de niveles y etiquetas.

En esta sexta versión, el set de imágenes de Google ha expandido las anotaciones asociadas y presenta lo que llaman “narrativas localizadas“.

Se trata de una nueva forma de información contextual de la imagen, con texto y una voz sincronizada que va describiendo la foto a medida que un cursor se mueve por el archivo.

Google explica que dispone de más de 500.000 imágenes con esta nueva narrativa.

Una base suficiente grande como para ir entrenando su algoritmo y ser capaz en un futuro de que el algoritmo de Google haga algo similar con otras imágenes.

En el video se aprecia cómo funciona.

Researchers claim type-2 diabetes may be liable for a man’s sexual arousal by increasing blood flow to the penis, which results to the improvement in erection. buy cheap cialis Before today, DHT was referred to as the bad formation of testosterone and valsonindia.com cialis buy on line there have been a large selection of products to stay in business, and then their profits would shrink. They may put tadalafil 20mg mastercard on weight due to abnormal testicular mass or even abnormalities in the male organ. These major advantages includes – higher safety (as it is herbal and show no cheapest levitra side effects), superb return on investment and ease of its use.

La voz empieza describiendo el centro de la imagen, con los colores, la ropa y el tipo de objetos que lleva.

Estas narrativas localizadas son generadas por anotadores que ofrecen una descripción identificando la posición de cada objeto en la imagen y relacionándolos con un gesto del cursor.

El objetivo es intentar que la IA de Google tenga una base de datos sobre la que trabajar, pudiendo tener una idea clara de dónde está situado cada objeto.

Anteriormente, cuando el algoritmo de Google trabajaba con fotos de “un perro” este sabía dónde estaba situado ya que sabe diferenciar el animal de lo que es el cielo o la tierra.

Sin embargo, si hablamos de la “oreja del perro” o el “gorro naranja”, la posición exacta es más complicada.

Además de no tener una estructura clara de dónde está situada cada cosa.

Con estas narrativas localizadas, Google tiene una herramienta para especificar mejor a su algoritmo qué es cada cosa.

Para que las descripciones sean lo más accesibles posibles y estructuradas, los anotadores transcriben manualmente su descripción y la relacionan con distintos colores.

Esto permite generar “zonas” dentro de la imagen y además tener un texto para describir la foto.

Google tiene por tanto una foto, una voz que describe la imagen, un texto y un rastreo del ratón; varios elementos que de manera sincronizada permiten a Google tener una descripción bastante precisa de lo que hay en la foto.

Una de las limitaciones de las descripciones o categorías a secas es que es difícil generar un enlace directo entre lo que es la visión y el lenguaje.

El subtítulo puede ser muy específico, pero Google no tenía ninguna herramienta para especificar a qué objeto se refería en cada palabra.

Ahora con la combinación de estas narrativas localizadas Google por fin tiene un punto de partida para afinar, todavía más, su entendimiento de las imágenes.

Con la última versión de Open Images, la base de datos de Google trabaja con conceptos tan específicos como “un hombre haciendo skateboard”, un “hombre y una mujer dándose una mano, saltando y riendo” o “un perro atrapando un disco”.

Porque esta diferencia es muy relevante para ofrecer la imagen más apropiada en cada momento.

Según los datos de Open Images V6, se incluyen más de 2.5 millones de anotaciones de humanos realizando acciones independientes como “saltar”, “sonreír” o “tumbarse”.

Para que cuando le preguntemos sobre qué hay en una imagen no solo sepa decirnos si hay un hombre o un animal, también detalles tan específicos como la acción que está haciendo, si la chaqueta le viene grande, de qué color es el zapato o todo tipo de detalles.

Porque la base de datos sobre la que trabaja la IA de Google está creada por humanos, pero cuanto más precisos sean estos datos, mejor resultado logrará producir el algoritmo.

Fuente: Xataca

Editor PDM

Entradas recientes

Crean genoma con más del 50% de ADN sintético

Biólogos han producido una cepa de levadura cuyo genoma está compuesto en más de un…

4 hours hace

Fabrican motor de cohete impreso en 3D

Antes de que el ser humano pisara la Luna, ya había ingenieros tratando de resolver…

4 hours hace

Compañía de bebidas nombra a robot con inteligencia artificial como CEO

La empresa polaca de bebidas Dictador anunció que había designado a un robot llamado Mika…

4 hours hace

Inteligencia artificial capaz de mapear icebergs 10.000 veces más rápido que los humanos

Investigadores de la Universidad de Leeds han introducido una red neuronal que puede trazar con…

4 hours hace

Nuevo récord de eficiencia en energía solar

La empresa china LONGi ha batido el récord de eficiencia de una célula fotovoltaica con…

4 hours hace

Samsung lanza su alternativa a ChatGPT

Samsung ha presentado Gauss, su propio modelo de inteligencia artificial generativa. Puede procesar lenguaje natural,…

1 day hace
Click to listen highlighted text!