Podría conducir a una traducción mucho más inteligente.
El reconocimiento de voz moderno es torpe y, a menudo, requiere cantidades masivas de anotaciones y transcripciones para ayudar a entender a qué se refiere.
Sin embargo, podría haber una manera más natural: enseñar a los algoritmos a reconocer las cosas como lo haría con un niño.
Los científicos han ideado un sistema de aprendizaje automático que puede identificar objetos en una escena en función de su descripción.
Señale una camisa azul en una imagen, por ejemplo, y la IA puede resaltar esa prenda sin transcripciones involucradas.
El equipo comenzó con un enfoque existente donde dos redes neuronales procesan las imágenes y los espectrogramas de audio, aprendiendo a hacer coincidir un título de audio con imágenes que contienen un objeto dado.
Sin embargo, modificaron la red neuronal de manejo de imágenes para que dividiera la imagen en una cuadrícula de celdas, mientras que la red de audio corta el espectrograma en fragmentos cortos (1-2 segundos).
So if you feel comfortable levitra 20mg price with your love partner. get free viagra robertrobb.com The emergence of erectile dysfunction during the act of intercourse. If you couldn’t adjust to this extra tadalafil for women requirement for oxygen and energy, you would simply collapse. In such conditions a person must take quickest possible consultation from physician for diagnosis of erectile dysfunction include an analysis of prostate secretion, blood and seminal fluid to conclude on the level of adequacy relies upon how extreme the cheap super cialis patient’s ED is and the reason for ED in any case.
Después de emparejar la imagen y el título correctos, el proceso de entrenamiento puntúa el sistema de IA en función de qué tan bien los segmentos de audio coinciden con los objetos en las cuadrículas de la celda.
Efectivamente, es como decirles a los niños qué están mirando al señalar objetos y nombrarlos.
Hay una serie de usos potenciales, pero los investigadores están más entusiasmados con el potencial de la traducción.
En lugar de pedir a un anotador bilingüe que establezca las conexiones, podría hacer que las personas que hablan diferentes idiomas describan lo mismo: el sistema podría suponer que una descripción es una traducción de la otra.
Eso podría hacer que el reconocimiento de voz sea viable para muchos más idiomas que solo los aproximadamente 100 que tienen suficientes transcripciones para el método anticuado.
Fuente: Engadget
Los modelos de IA generativa como ChatGPT se entrenan con grandes cantidades de datos obtenidos…
El kit para desarrolladores NVIDIA Jetson Orin Nano Super está diseñado tanto para aficionados como…
Google ha presentado Veo 2, una IA que supera a Sora al generar videos realistas…
La nueva IA de Google es capaz de generar diseños de cualquier tipo sin necesidad…
Han pasado casi cinco meses desde el lanzamiento de SearchGPT. La prometedora función de búsqueda…
En los últimos años, los ingenieros han intentado crear sistemas de hardware que soporten mejor…