Google lanza una herramienta que marca e identifica texto generado por una IA

Comparta este Artículo en:

La IA debería firmar sus obras, los sistemas de IA generativa deberían etiquetar (por ejemplo, con marcas de agua) los contenidos que generan como lo que son: contenidos generados por IA.

Google y DeepMind llevan tiempo trabajando en este problema.

Hace más de un año presentaron SynthID, y ahora acaban de ofrecerlo como herramienta libre para que cualquiera pueda utilizarla.

El objetivo: que las plataformas de IA generativa tengan así un método de firmar los contenidos que generan para poder luego identificarlos fácilmente.

Como explican en DeepMind, SynthID funciona para etiquetar textos, música, imágenes o videos generados por IA.

En el caso del texto, por ejemplo, cuando una IA genera texto lo hace mediante tokens.

Cada token puede ser una simple letra, pero también una palabra o parte de una frase.

El modelo predice el siguiente token con base en lo que le precede asignando a cada token una puntuación, y el modelo acaba trabajando con patrones de puntuaciones reconocibles: es posible compararlos con un texto cualquiera, lo que ayuda a determinar si puede haber sido generado por IA o no.

SynthID Text, la versión para textos generados por IA, ya lleva un tiempo integrado en los modelos de la familia Gemini.

Según Google eso no ha perjudicado la calidad, precisión o velocidad de la generación de texto.

Aun así, la compañía reconoce que SynthID no se comporta demasiado bien con textos cortos, textos que se han reescrito, textos traducidos de otros idiomas o con respuestas a preguntas muy concretas porque en ellas la respuesta suele ser muy específica. (“¿Cuál es la capital de Francia?“).

Las técnicas de marcas de agua para los contenidos son una gran idea.

Sin embargo, a pesar de limitaciones como las que Google reconoce, su valía como solución a esta situación se enfrenta a un gran obstáculo.

No hay un sistema de etiquetado estándar y universal.

OpenAI lleva años trabajando en su propio sistema de marcas de agua, y lo mismo ocurre con Adobe, que forma parte de la C2PA (Coalition for Content Provenance and Authenticity).

Este organismo tiene su propia especificación, pero aunque la idea es la misma que la de Google u OpenAI, su implementación es ligeramente distinta.

Meta, por cierto, también tiene el suyo propio para audios generados por IA.

La solución a esta situación es clara: habría que elegir una única solución entre todas las disponibles y adoptarla como estándar universal.

Uno que todas las empresas y desarrolladores deberían poder adoptar libremente y que permitiría que poco a poco impulsara su uso masivo.

Estos esfuerzos aportan, pero también provocan esa falta de un criterio unificado tan necesaria en este ámbito.

Fuente: SynthID