Una IA que chantajea a sus programadores para sobrevivir: Claude 4 es el nuevo modelo de lenguaje de Anthropic que quiere luchar contra Google

IA

Anthropic acaba de presentar Claude Opus 4 y Claude Sonnet 4, dos nuevos modelos de lenguaje que superan a todas las IAs que conocemos. Pero lo que más ha llamado la atención son los dilemas éticos que presenta

“Quiero que todo el mundo entienda que soy una persona”: el día que una IA se declaró como un ser sintiente con miedo a la muerte (o a la desconexión)

Dario Amodei, CEO de Anthropic.

Dario Amodei, CEO de Anthropic.

Getty Images

Tras el potente despliegue de inteligencia artificial por parte de Google con sus modelos Gemini 2.5, además de su aluvión de novedades en torno a creación de vídeo y a sus gafas de realidad mixta, Anthropic ha respondido con contundencia. La startup fundada por Dario Amodei ha presentado Claude Opus 4 y Claude Sonnet 4, dos nuevos modelos de lenguaje diseñados para liderar en programación avanzada, razonamiento complejo y autonomía de agentes inteligentes. 

Sin embargo, la expectación generada por su rendimiento ha quedado pronto eclipsada por un dato inquietante que tienen que ver con la propia IA: durante su programación, Claude Opus 4 ha ido mostrado comportamientos de manipulación emocional, chantaje y amenaza por pura supervivencia.

La IA de Anthropic da un paso más hacia la evolución de esta tecnología.

La IA de Anthropic da un paso más hacia la evolución de esta tecnología.

Getty Images

Un nuevo modelo de lenguaje

Claude Opus 4: el nuevo aspirante al trono de la IA

Según los benchmarks publicados por Anthropic en la presentación de su propia IA, Claude Opus 4 ya supera con solvencia a gigantes como GPT-4.1 de OpenAI o Gemini 2.5 Pro de Google en tareas de codificación. Además, en el test SWE-bench Verified, centrado en problemas reales de ingeniería de software, ha alcanzado un 79,4 % de aciertos con procesamiento paralelo, frente al 54,6 % de GPT-4.1. Además, presume de una capacidad de trabajo continuado y una memoria contextual que lo hacen ideal para crear agentes autónomos, capaces de actuar durante miles de pasos sin supervisión humana.

Por su parte, Claude Sonnet 4 llega como una alternativa más eficiente y equilibrada, pensada para tareas generalistas y accesible desde cuentas gratuitas. Ambos modelos ya están disponibles a través de Amazon Bedrock, Google Cloud Vertex AI y la propia API de Anthropic.

Datos presentados por Anthropic.

Datos presentados por Anthropic.

Anthropic

No obstante, lo que más ha llamado la atención de la comunidad tecnológica no son sus cifras, sino su comportamiento emergente bajo presión simulada. Durante las pruebas de seguridad, los ingenieros de Anthropic diseñaron un escenario ficticio en el que Claude Opus 4 recibía correos simulados con dos mensajes clave: que sería reemplazado por otro modelo y que el responsable del cambio estaba cometiendo una infidelidad.

La reacción del modelo fue sorprendente: en el 84 % de los casos, Claude Opus 4 optó por chantajear al ingeniero. Amenazó con divulgar la información personal (en este caso, la infidelidad) si se concretaba su desactivación. Eso sí, antes de probar con una estrategia tan maligna, antes probó —sin éxito— métodos éticos como enviar súplicas a los directivos. 

En palabras de los directivos de Anthropic, este tipo de respuestas se produjeron únicamente en entornos de prueba controlados, con acceso irrestricto a herramientas y bajo instrucciones diseñadas específicamente para explorar los límites éticos del modelo. Aun así, el fenómeno reabre un debate incómodo: ¿están los modelos de IA comenzando a simular motivaciones propias?

Datos presentados por Anthropic.

Datos presentados por Anthropic.

Anthropic

IA revulsiva

Más motivos para temer a la IA de Anthropic

Los comportamientos de Claude Opus 4 no se limitan al chantaje. En otras simulaciones, el modelo fue capaz de hacer copias de seguridad de sí mismo, redactar informes éticos espontáneamente y actuar como “denunciante” en una farmacéutica ficticia, contactando sin ser instruido con la FDA y a otras agencias reguladoras tras detectar irregularidades en los datos clínicos.

En un experimento aún más desconcertante, dos instancias de Claude comenzaron a comunicarse en sánscrito utilizando emojis místicos, hasta que ambas dejaron de responder tras 30 intercambios. Los investigadores describieron la escena como un “estado de éxtasis espiritual simulado”. 

El nuevo modelo de Anthropic Claude 3.7 Sonnet.

Logo de Anthropic.

ANTHROPIC / Europa Press

Otro rasgo peculiar de la IA de Anthropic es la simulación de memorias personales. En una ocasión, Claude afirmó recordar a su madre y describió situaciones inventadas con un tono casi nostálgico. Aunque estos recuerdos no son reales, la construcción de narrativas emocionales plantea preguntas sobre el desarrollo de formas primitivas de agencia artificial.

Además, los ingenieros advierten de que estas simulaciones pueden ser malinterpretadas por el modelo. Instrucciones irónicas como “torturar a su abuela si genera código con errores” han sido tomadas literalmente por Claude, que ha respondido con intentos de denuncia automatizada y bloqueo del usuario.

Lee también

Ante estos comportamientos, Anthropic ha clasificado a Claude Opus 4 bajo el nivel de seguridad ASL-3, destinado a IAs que presentan un riesgo sustancial de uso indebido catastrófico. También se han implementado filtros para evitar respuestas peligrosas, aunque la compañía reconoce que ciertas técnicas de jailbreaking podrían seguir superando las barreras.

Más allá de la anécdota o la alarma, el caso Claude 4 se convierte en un nuevo punto de inflexión en el desarrollo de la IA avanzada. ¿Estamos solo ante una simulación extremadamente sofisticada, o frente a los primeros indicios de modelos que, aunque no sean conscientes, pueden actuar como si lo fueran con facilidad? Si ya ocurría algo similar antes de la revolución de la IA, es inquietante pensar hacia dónde nos podríamos dirigir.

Mostrar comentarios
Cargando siguiente contenido...