Una rata con un pene descomunal, más grande que su propio cuerpo, incendió hace un año los foros y redes sociales de la comunidad científica mundial.
La grotesca ilustración, que pretendía mostrar células madre espermatogonias, es obra de una herramienta de inteligencia artificial (IA) de generación de imágenes, Midjourney. ¿El problema? Acabó publicada en la revista científica Frontiers in Cell and Developmental Biology , sin que nadie –ni los tres autores chinos, ni los editores, ni los expertos que supuestamente revisaron el artículo– se percatara del disparate.
El priapismo ratonil inspiró muchos chistes, pero también encendió las alarmas sobre cómo la IA contamina la investigación y la divulgación científicas. Sus creaciones no siempre son tan burdas. Es capaz de generar textos, imágenes y datos falsos, tan perfectos que engañan incluso al ojo experto. Mientras las tecnológicas auguran saltos sin precedentes para la ciencia, sus detractores ven el último clavo en una deriva de creciente fraude y erosión del rigor.
Sus detractores ven el último clavo en una deriva de creciente fraude y erosión del rigor
Los incentivos para el engaño están ahí. Investigadores y centros académicos escalan en rankings y obtienen reconocimiento y dinero en función del volumen de artículos que publican y de las citas a sus trabajos que aparecen en los de otros. En paralelo a una producción científica puntera, que provoca cambios y se somete a todos los filtros de calidad, prolifera un submundo de fábricas de artículos, que plagian y venden autorías y citas, y de revistas depredadoras que publican a chorro, cuyo negocio no se basa en el prestigio sino en cobrar por publicar.
“Obviamente, tener a disposición herramientas de IA facilita enormemente hacer trampas a aquellos con predisposición a hacerlas también sin ellas. La tentación se vuelve casi irresistible. Si además los que revisan los artículos también utilizan la IA para hacer su trabajo, o debería decir para no hacerlo, entonces ya tenemos la tormenta perfecta”, reflexiona Ramon López de Mántaras, fundador del Instituto de Investigación de Inteligencia Artificial del Consejo Superior de Investigaciones Científicas (CSIC).
“La IA facilita enormemente hacer trampas a aquellos con predisposición a hacerlas también sin ella”, reflexiona López de Mántaras
Desde la aparición de ChatGPT en el 2022, los guardianes de la integridad científica recopilan listados de artículos retirados porque incluían frases como “por supuesto, aquí tienes una posible introducción a tu tema” o “lo siento, como modelo de lenguaje no puedo proporcionarte estos datos”, pruebas del uso de un chatbot que los autores olvidaron borrar.
Guillaume Cabanac, del Instituto de Investigación en Informática de Toulouse, se dedica a cazar “frases torturadas”, locuciones sin sentido producto del uso de herramientas para enmascarar el plagio que colocan sinónimos sin ton ni son. Algunas perlas: “corrosivo nucleico”, por ácido nucleico; “peligro de busto”, por cáncer de pecho; o “conciencia falsificada” por inteligencia artificial.
“La IA potencia el fraude hasta niveles máximos y afecta a todas las fases de la investigación, no solo a la publicación”, advierten Emilio Delgado y Alberto Martín, dos documentalistas de la Universidad de Granada que rastrean desmanes en la publicación científica española. Uno de los problemas ligados al uso de IA son las referencias falsas. “ChatGPT alucina: literalmente se inventa las referencias. Incluso con artículos que existen, se inventa los autores, la revista, la fecha”, exponen por videoconferencia.
Revistas como ‘Science’ aceptan su uso como apoyo para la redacción, pero no para la revisión por pares
El apoyo para la redacción es el que menos preocupa a los científicos. Puede ser legítimo, opinan Delgado y Martín, sobre todo si el inglés no es el idioma nativo. Muchas revistas de prestigio han acabado aceptando su uso, con transparencia y responsabilidad.
Es el caso de la editorial de la revista Science , que en cambio lo prohíbe en las revisiones por pares, que expertos en el ámbito realizan de las investigaciones de otros antes de su publicación. Inquieta que lo que debería ser una salvaguarda del rigor acabe en manos de una máquina. No es una teoría: un equipo de Stanford examinó revisiones en cuatro conferencias, y descubrió que el adjetivo “meticuloso” se multiplicó por 35 respecto al año anterior; “encomiable”, por diez; “intrincado”, por once. Son adjetivos por los que ChatGPT tiene especial querencia.
La revisión ya era una piedra en el zapato antes de la IA. A las revistas les cuesta conseguir revisores que hagan bien su trabajo. La posibilidad de que un día, no muy lejano, la IA ayude a los humanos en esta tarea ingrata está encima de la mesa, admiten en Science: “Creemos que en el futuro, las revistas enfocadas en la integridad y la calidad de la investigación, como la nuestra, podrían adoptar procesos impulsados por IA para asistir en la revisión por pares. Creemos que esto solo debe hacerse después de una cuidadosa consideración de elementos como la confidencialidad, el sesgo en los algoritmos y la transparencia con los autores, entre otros”, afirman fuentes de la editorial.
El fraude de datos científicos es una amenaza “mucho peor” que la generación de texto, sostiene la microbióloga neerlandesa Elisabeth Bik, una de las máximas expertas en integridad científica. La IA puede fabricar una encuesta con un millar de respuestas a partir de unos resultados predeterminados, o generar un conjunto falso de pacientes y simular un ensayo. También puede generar imágenes de microscopía de experimentos que nunca se han hecho.
Bik, que desde hace diez años rastrea imágenes manipuladas, sabe bien que el fraude no ha nacido con la IA. Hasta ahora, se trataba de retoques con Photoshop. El reto hoy es a otra escala. “Las imágenes generadas con IA son tan buenas que soy incapaz de distinguirlas de las reales”, admite Bik. “Si ya cuesta identificar que una foto de Trump es falsa, qué decir si es una célula, una electrotransferencia o un tejido pulmonar. Ahí no hay orejas que te den la pista si están en una posición incorrecta”, explica.
“Las imágenes de IA son tan buenas que soy incapaz de distinguirlas de las reales”, admite la experta Elisabeth Bik
“La biomedicina es el ámbito con más volumen de investigación y la imagen es clave, porque gran parte de la evidencia viene de pruebas que producen imágenes. Su manipulación es la principal razón de retirada de artículos”, subraya Eduard Aibar, catedrático de Estudios de Ciencia y Tecnología en la UOC.
La IA también puede ser aliada contra el fraude. Bik utiliza dos herramientas que se basan en la IA para detectar imágenes manipuladas. Science hace un año que utiliza Proofig: en ese tiempo, ha analizado más de 2.000 artículos y detectado elementos sospechosos en 23. Dos artículos acabaron siendo rechazados. Proofig asegura que su herramienta detecta también imágenes de IA, pero Bik es escéptica. “De momento no funciona bien. Señala muchos falsos positivos”, afirma.
“Aunque un experto tenga una fuerte sospecha de la utilización de IA, actualmente no tenemos una herramienta de detección fiable y, por lo tanto, no podemos demostrarlo. Y, por otra parte, los datos crudos que sustentan las imágenes también pueden ser falsos”, lamenta Jana Christopher, especialista en integridad de imágenes en la Federación Europea de Sociedades Biomédicas, en Heidelberg.
La solución no es fácil. “Dado que será cada vez más difícil detectar el uso de la IA, y específicamente la IA generativa, se están discutiendo soluciones como el hash [código] criptográfico de los datos de investigación de imágenes en el momento de su adquisición, para que puedan ser autenticados con un software personalizado –añade Christopher–. Pero los enfoques para frenar el mal uso de la IA están limitados por obstáculos financieros, la carga potencial para la infraestructura, institutos e investigadores, así como para los editores y revistas, y también por muchas preguntas sobre su implementación”.
“Pillamos algunas cosas pero obviamente son solo la punta del iceberg”, señala Bik. “Es una carrera entre estafadores y detectives; en cuanto descubrimos una manera de detectarlos, ellos lo hacen mejor. Siempre van un paso por delante”.
El uso de la IA en ciencia es problemático también cuando no hay afán tramposo, advierte Ramon López de Mántaras, que señala que “incluso científicos que se comportan éticamente han publicado resultados obtenidos con ayuda de estas herramientas que luego han sido desacreditados”.
A finales del 2023, Google DeepMind, la división de Google de IA, anunció triunfalmente el descubrimiento de 2,2 millones de nuevos cristales –“el equivalente a 800 años de conocimiento”, presumían los autores– con una herramienta de aprendizaje profundo. El espectacular hallazgo resultó no ser tal. Varios expertos que revisaron los datos concluyeron que la mayoría de estructuras eran en realidad “interpretaciones demasiado amplias de sustancias conocidas, y no incluyen compuestos que puedan considerarse sorprendentemente nuevos”, entre otros problemas.
“La IA puede ser muy útil si se usa con sentido común y con pensamiento crítico. Es curioso que haya tantos científicos que crean que es casi mágica y la solución a sus carencias. Un científico mediocre seguirá siendo mediocre con IA o sin ella. Una IA no plantea nuevas hipótesis científicas por sí misma ni tiene ningún tipo de conocimiento científico, ni iniciativa, ni objetivos. Las ideas y las hipótesis científicas se originan en las mentes humanas. La IA luego puede ser una herramienta valiosa para ayudar a verificar o refutar las hipótesis, y nada más. En mi opinión, así será siempre”, concluye el experto.
También es escéptico José Luis Aznarte, director de Evaluación en Enseñanzas e Instituciones de Aneca (el órgano que acredita a los profesores universitarios) y catedrático de inteligencia artificial en la UNED. “Con la IA –sostiene– hay una inflación de expectativas que no se corresponde con la realidad. Hay una parte muy sobrevalorada. La IA no va a crear supercientíficos. La IA es más parecida al sistema de autocompletar del móvil. Son loros estocásticos y súper vitaminados, con una giga base de información y que producen en cada instante la frase más probable, la frase que todo el mundo espera. Por eso está muy mal capacitada para la ciencia, que es justo lo contrario. Una cosa es que nos sorprenda y otra que vaya a suplantar al científico generador de conocimiento”.
