Un algoritmo que tarda sólo unos segundos en escanear un documento en busca de imágenes duplicadas acumula más imágenes sospechosas que una persona.
El detective de imágenes científicas Sholto David escribe un blog sobre la manipulación de imágenes en artículos de investigación, un pasatiempo que lo ha expuesto a muchos relatos de fraude científico.
Pero otros científicos “todavía no saben cuál es el alcance del problema”, dice David. Decidió que necesitaba algunos datos.
El biólogo independiente de Pontypridd, Reino Unido, pasó la mayor parte de varios meses estudiando minuciosamente cientos de artículos en una revista, buscando alguno con imágenes duplicadas.
Luego pasó los mismos artículos a través de una herramienta de inteligencia artificial (IA).
Trabajando a dos o tres veces la velocidad de David, el software encontró casi todos los 63 documentos sospechosos que había identificado y 41 que había pasado por alto.
David describió el ejercicio, como una de las primeras comparaciones publicadas entre humanos y máquinas para encontrar imágenes manipuladas.
Los hallazgos se producen cuando los editores académicos se enfrentan al problema de la manipulación de imágenes en artículos científicos.
En un estudio, la reconocida especialista en imágenes forenses Elisabeth Bik, con sede en San Francisco, California, y sus colegas informaron que casi el 4% de los artículos que había escaneado visualmente en 40 revistas de ciencias biomédicas contenían imágenes duplicadas de manera inapropiada.
No toda la manipulación de imágenes se realiza con intenciones nefastas.
Los autores pueden modificar las imágenes por accidente, por razones estéticas o para hacer más comprensible una figura.
Pero a las revistas y otros les gustaría captar imágenes con alteraciones que crucen la línea, cualquiera que sea la motivación de los autores.
Y ahora están recurriendo a la IA en busca de ayuda.
Unas 200 universidades, editoriales y sociedades científicas confían ya en Imagetwin, la herramienta que utilizó David para su estudio.
El software compara imágenes de un artículo con más de 25 millones de imágenes de otras publicaciones: la base de datos más grande de este tipo en el mundo de la integridad de las imágenes, según los desarrolladores de Imagetwin.
Bik ha estado usando Imagetwin regularmente para complementar sus propias habilidades y la llama su “herramienta estándar“, aunque enfatiza que la IA tiene debilidades y fortalezas; por ejemplo, puede pasar por alto duplicaciones en imágenes con bajo contraste.
Tanto ella como David obtienen acceso gratuito al software de ImageTwin AI, la empresa con sede en Viena que desarrolló Imagetwin, y brindan comentarios a los desarrolladores.
Algunos editores han recurrido a otras herramientas de inteligencia artificial.
Las revistas publicadas por la Asociación Estadounidense para la Investigación del Cáncer en Filadelfia, Pensilvania, analizan artículos con la herramienta de inteligencia artificial Proofig.
Frontiers en Lausana, Suiza, ha desarrollado su propio software para verificar artículos para su familia de revistas.
Un portavoz de Springer Nature, que publica Nature, afirma que la empresa “continúa explorando y desarrollando herramientas para la comprobación de imágenes“.
Parte del atractivo de Imagetwin, dicen los especialistas, es que busca duplicaciones de dos maneras.
El software crea “algo así como una huella digital” para cada imagen en un documento, dice Patrick Starke, uno de sus desarrolladores.
Luego escanea todo el artículo en busca de repeticiones de esa huella digital.
También escanea su gran base de datos para ver si esa huella digital aparece en documentos anteriores, un proceso que toma sólo de cinco a diez segundos.
Para su estudio, David examinó más de 700 artículos con imágenes relevantes publicados entre 2014 y 2023 en Toxicology Reports, una revista que eligió en parte porque contiene muchas imágenes y en parte porque en 2021, el editor de la revista, Elsevier en Ámsterdam, añadió una expresión de preocupación a todo un número especial de la revista.
Después de revisar los documentos visualmente, David probó la IA y descubrió que funcionaba “mucho más rápido que yo mirando las imágenes con mucho cuidado durante mucho tiempo”, aunque omitió cuatro documentos que había marcado.
En total, hubo duplicaciones en alrededor del 16% de los artículos analizados con imágenes relevantes.
Eso es considerablemente más alto que el 4% calculado por Bik, pero ella dice que la cifra de David no es sorprendente.
En su análisis, las revistas individuales tenían duplicaciones entre el 0,3% y el 12% de sus artículos, y las revistas de mayor impacto tendían a tener menos duplicaciones.
Es “totalmente plausible” que el 16% de las imágenes de una revista puedan incluir duplicaciones, coincide Jana Christopher, analista de integridad de imagen en FEBS Press en Heidelberg, Alemania, que tiene acceso gratuito a Imagetwin y lo utiliza junto con otro software.
En su trabajo de revisión de artículos antes de su publicación, Christopher señala alrededor de un tercio para una mayor investigación.
Bik considera que Imagetwin es especialmente útil para “figuras complejas con muchos paneles“.
Puede realizar escaneos casi instantáneos de imágenes que le pueden llevar más de media hora diseccionar por sí misma.
“Es realmente agradable tener un software como segundo par de ojos“, coincide Christopher.
Pero al igual que Bik, ella dice que Imagetwin tiene sus defectos.
“A menudo encuentro [problemas] adicionales que no son duplicaciones e incluso duplicaciones que el software no marcó“, dice Christopher.
El objetivo final, dice Christopher, es incorporar herramientas de inteligencia artificial como Imagetwin en el proceso de revisión del artículo, del mismo modo que muchos editores utilizan habitualmente software para escanear texto en busca de plagio.
Pero la IA por sí sola no es suficiente.
“Tienes que utilizar tu propia experiencia y cuestionar estas cosas. Ninguna de las banderas que recibes [de Imagetwin] son un claro ‘Esto es un fraude’”, dice.
Starke dice que las universidades están utilizando Imagetwin para revisar los artículos que sus profesores envían a las revistas.
Se negó a proporcionar números detallados ni a nombrar a ninguno de los usuarios del software.
Christopher espera que el lanzamiento de más herramientas de inteligencia artificial pueda democratizar la capacidad de las revistas para seleccionar artículos.
“Creo que debemos deshacernos de la idea de que es un lujo; en realidad, agrega valor a la revista”.
Fuente: Nature