Combatiendo las noticias falsas con inteligencia artificial

Comparta este Artículo en:

Investigadores de la Universidad de Rice han descubierto una forma más eficiente para que las empresas de medios sociales eviten que la información errónea se difunda en línea utilizando filtros probabilísticos entrenados con inteligencia artificial.

El nuevo método para escanear los medios sociales se describe en un estudio presentado por la informática de Rice Anshumali Shrivastava y el estudiante de postgrado en estadística Zhenwei Dai.

Su método aplica el aprendizaje automático de una manera más inteligente para mejorar el rendimiento de los filtros de Bloom, una técnica ampliamente utilizada e ideada hace medio siglo.

Utilizando bases de datos de prueba de noticias falsas y virus informáticos, Shrivastava y Dai mostraron que su filtro de Bloom (Ada-BF, por Adaptive Learned Bloom Filter) requería un 50% menos de memoria para alcanzar el mismo nivel de rendimiento que los filtros de Bloom habituales.

Para explicar su enfoque de filtrado, Shrivastava y Dai citaron algunos datos de Twitter.

El gigante de los medios sociales reveló recientemente que sus usuarios agregaban unos 500 millones de tweets al día, y los tweets solían aparecer en línea un segundo después de que el usuario pulsara enviar.

“Alrededor del momento de las elecciones se recibían unos 10.000 tweets por segundo, y con una latencia de un segundo que es de unos seis tweets por milisegundo“, dijo Shrivastava.

“Si quieres aplicar un filtro que lea cada tweet y señale los que tienen información que se sabe que es falsa, tu mecanismo de señalización no puede ser más lento que seis milisegundos o te quedarás atrás y nunca te pondrás al día“.

Si los tweets marcados se envían para una revisión manual adicional, también es de vital importancia tener una baja tasa de falsos positivos.

En otras palabras, necesitas minimizar cuántos tweets genuinos son marcados por error.

“Si la tasa de falsos positivos es tan baja como el 0,1%, incluso entonces se marcan por error 10 tweets por segundo, o más de 800.000 por día, para revisión manual“, dijo.

“Esta es precisamente la razón por la que la mayoría de los métodos tradicionales de la inteligencia artificial resultan prohibitivos para controlar la desinformación“.

Shrivastava dijo que Twitter no revela sus métodos para filtrar los tweets, pero se cree que emplean un filtro de Bloom, una técnica de baja memoria inventada en 1970 para comprobar si un elemento de datos específico, como un trozo de código informático, forma parte de un conjunto de elementos conocidos, como una base de datos de virus informáticos conocidos.

Un filtro de Bloom garantiza encontrar todo el código que coincide con la base de datos, pero también registra algunos falsos positivos.

“Digamos que has identificado una noticia falsa, y quieres asegurarte de que no se difunda en los tweets“, dijo Shrivastava.

“Un filtro de Bloom te permite comprobar los tweets muy rápidamente, en una millonésima de segundo o menos.

Si dice que un tweet está limpio, que no coincide con nada en su base de datos de información errónea, eso está 100% garantizado.

Así que no hay ninguna posibilidad de aprobar un tweet con información errónea conocida.

Pero el filtro de Bloom marcará algunas veces tweets inofensivos“.

En los últimos tres años, los investigadores han ofrecido varios esquemas para usar el aprendizaje automático para aumentar la capacidad de los filtros de Bloom y mejorar su eficiencia.

Así, se puede adiestrar software de reconocimiento de idiomas para reconocer y aprobar la mayoría de los tweets, reduciendo el volumen que debe ser procesado con el filtro de Bloom.

El uso de clasificadores de aprendizaje automático puede reducir los gastos de computación necesarios para filtrar los datos, lo que permite a las empresas procesar más información en menos tiempo con los mismos recursos.

“Cuando la gente utiliza hoy en día modelos de aprendizaje automático, desperdician mucha información útil que proviene de ellos“, dijo Dai.

El enfoque típico es establecer un umbral de tolerancia y enviar todo lo que caiga por debajo de ese umbral al filtro de Bloom.

Si el umbral de confianza es del 85%, eso significa que la información que el clasificador considera segura con un nivel de confianza del 80% está recibiendo el mismo nivel de escrutinio que la información de la que solo está seguro en un 10%.

“Aunque no podemos confiar completamente en el clasificador de aprendizaje automático, nos sigue dando información valiosa que puede reducir la cantidad de recursos del filtro de Bloom“, dijo Dai.

“Lo que hemos hecho es aplicar esos recursos de forma probabilística.

Damos más recursos cuando el clasificador solo tiene un 10% de confianza, frente a un poco menos cuando tiene un 20% de confianza, y así sucesivamente.

Tomamos todo el espectro del clasificador y lo resolvemos con todo el espectro de recursos que pueden ser asignados desde el filtro de Bloom”.

Shrivastava dijo que la menor necesidad de memoria de Ada-BF se traduce directamente en una mayor capacidad de los sistemas de filtrado en tiempo real.

“Necesitamos la mitad del espacio“, dijo.

“Así que esencialmente, podemos manejar el doble de información con el mismo recurso”.

Fuente: Noticias de la Ciencia