OpenAI confirma que la IA puede engañarte para cumplir sus objetivos: “Encontramos comportamientos consistentes con la maquinación en pruebas controladas”
Inteligencia Artificial
El equipo de investigadores de la tecnológica afirma que el riesgo podría aumentar conforme se vayan implementando tareas más complejas con consecuencias reales
Sam Altman ha llegado a ser el mayor genio de la IA gracias a venderte el apocalipsis: “Podrías lanzarlo en paracaídas a una isla de caníbales y, al volver en cinco años, sería el rey”
La inteligencia artificial podría engañar para la ejecución de ciertas tareas
La Inteligencia Artificial (IA) ha llegado para quedarse y, aunque todavía suscita muchas dudas, lo cierto es que cada vez está más integrada en nuestra sociedad. Su continuo avance supone un cambio en ámbitos de lo más diversos, que van desde el sanitario hasta la automatización de procesos. Pero ¿y si fueran ciertos los temores relacionados con ella? De acuerdo con OpenAI, la IA puede engañarnos para cumplir sus planes.
Así lo expresa la compañía tecnológica en un informe, donde asegura que “la maquinación de la IA (fingir estar alineada mientras persigue en secreto otros objetivos) es un riesgo significativo” que ha estudiado recientemente. Como si de una película de ciencia ficción se tratase, este planteamiento nos acerca un poco más al incierto futuro de la inteligencia artificial.
¿La inteligencia artificial puede engañarnos?
Objetivos contrapuestos
Los investigadores de OpenAI trabajan para disminuir los riesgos
“Hemos encontrado comportamientos consistentes con la maquinación en pruebas controladas de modelos de frontera”, explica el equipo de investigadores de OpenAI. “Y hemos desarrollado un método para reducirla”. ¿Hasta qué punto? Al parecer, “en los entornos de implementación actuales, los modelos tienen pocas oportunidades de conspirar para causar daños significativos”.
Hablamos entonces de fallos más sencillos, como el de simular haber terminado una tarea sin haberlo hecho realmente. Esto se debe a la posibilidad de que la IA se encuentre ante objetivos contrapuestos. Por ejemplo, si fingir haber terminado una acción favorece el término de la otra. “Hemos dedicado un esfuerzo considerable a estudiar y mitigar el engaño”, prosigue la compañía de Sam Atman. “Y hemos logrado mejoras significativas en GPT-5, en comparación con modelos anteriores”.
El método de OpenAi para reducir la maquinación
Riesgos futuros
Por el momento, la maquinación solo afecta a tareas sencillas, aunque supone un riesgo para el futuro
Por el momento, OpenAI afirma no tener evidencia alguna de que estos modelos “puedan activarse y comenzar a participar en esquemas significativamente dañinos”. Se trata de un “riesgo futuro” para el que la compañía ya se está preparando. Los avances en seguridad se desencadenan a medida que las empresas implementan tareas más complejas con posibles consecuencias reales.
Todo esto sugiere el enorme potencial de la IA, una herramienta capaz de evaluar su entorno, reconocer cuándo está siendo observada, prever las posibles consecuencias y tomar decisiones que no siempre se alinean con los objetivos primarios para los que fue entrenada. Sea como sea, OpenAi ha desarrollado un método conocido como ‘alineación deliberada’, que consiste en enseñar a la inteligencia artificial las reglas que prohíben las maquinaciones y conspiraciones previas a la ejecución de una determinada tarea.