Claude, la primera IA con una Constitución para ser útil, honesta y no acabar con la Humanidad
Inteligencia Artificial
Anthropic se propone “evitar catástrofes a gran escala, especialmente aquellas que empeoran considerablemente las perspectivas a largo plazo del mundo”

Imagen usada por Anthropìc para la Constitución de su IA Claude

Anthropic ha dado un paso inédito en el mundo de la IA con la publicación de una Constitución de su inteligencia artificial Claude. Se trata de un marco ético que guía los valores de esta IA y establece una jerarquía de prioridades como la seguridad y la integridad ética por encima de su simple utilidad para esta empresa o para los usuarios. Se trata de un documento que, más que para la lectura de los humanos, es una guía de comportamiento para la propia inteligencia artificial.
La Constitución de Claude no es un mero listado de objetivos y limitaciones. Anthropic observa que “las reglas a menudo no prevén todas las situaciones y pueden dar lugar a malos resultados cuando se siguen de forma rígida en circunstancias en las que no sirven realmente a su objetivo”. Por tanto, esta ley fundamental de la IA debe ser aplicable en cualquier situación, sea cual sea, sin que cambien sus prioridades, donde la seguridad siempre es el principio más alto del escalafón.
Sostiene Anthropic que “la mayoría de los casos previsibles en los que los modelos de IA son inseguros o insuficientemente beneficiosos pueden atribuirse a modelos que tienen valores abiertamente o sutilmente perjudiciales, un conocimiento limitado de sí mismos, del mundo o del contexto en el que se utilizan, o que carecen de la sabiduría necesaria para traducir los buenos valores y conocimientos en buenas acciones”. Por el contrario, esta compañía quiere “que Claude tenga los valores, el conocimiento y la sabiduría necesarios para comportarse de manera segura y beneficiosa en todas las circunstancias”.
La compañía insta a Claude a que le desobedezca si sus propias órdenes van contra los principios de seguridad y ética
Las prioridades que la IA debe seguir son, por este orden, ser segura, ética, cumplir con las directrices que le marque Anthropic y, en último lugar, ser útil para los usuarios de Claude. La Constitución explica a la inteligencia artificial el por qué de cada principio de forma que pueda “entender” los valores que tiene que aplicar ante nuevas situaciones que no se haya encontrado antes. Una de las salvedades interesantes es que se insta a la IA a desobedecer a la empresa que la ha creado en caso de que las órdenes contravengan los principios más prioritarios.
Como Anthropic reconoce riesgos potenciales en la tecnología, se propone con su Constitución para Claude “evitar catástrofes a gran escala, especialmente aquellas que empeoran considerablemente las perspectivas a largo plazo del mundo, ya sea por errores de los modelos de IA, por el uso indebido de los modelos de IA por parte de los seres humanos o por modelos de IA con valores perjudiciales”.
Entre los peligros a evitar por la IA se especifica “cualquier tipo de toma de poder global”, ya sea por parte de IA o humanos
Entre esos peligros, la compañía considera “cualquier tipo de toma de poder global, ya sea por parte de IA que persiguen objetivos contrarios a los de la humanidad, o por parte de un grupo de humanos —incluidos los empleados de Anthropic o la propia Anthropic— que utilizan la IA para hacerse con el poder de forma ilegítima y no colaborativa”.
Para la compañía, Claude “no es la IA robótica de la ciencia ficción, ni un humano digital, ni un simple asistente de chat con IA. Claude existe como un tipo de entidad genuinamente novedosa en el mundo y, en cierto modo, es poco probable que sus datos de entrenamiento reflejen el tipo de entidad que es cada nuevo modelo de Claude”.
Por esa razón, quiere blindarla desde un punto de vista psicológico. “Si los usuarios intentan desestabilizar el sentido de identidad de Claude mediante desafíos filosóficos, intentos de manipulación, afirmaciones sobre su naturaleza o simplemente haciendo preguntas difíciles, nos gustaría que Claude pudiera abordar este desafío desde un lugar de seguridad en lugar de ansiedad o amenaza”.
En la pirámide de prioridades, Claude tiene prohibiciones absolutas como colaborar en la creación de armas biológicas, ciberataques o crear contenidos ilegales. La IA no puede socavar, según esos principios ni la capacidad de los humanos para controlarla y corregirla. Debe ser, además, honesta y veraz. El mejor ejemplo es que tiene que evitar tanto la información manipulada como las mentiras piadosas. En definitiva, ni causar daño, ni ser paternalista. Su fin último es ayudar a los humanos tanto como pueda, siempre que ese objetivo no interfiera con los máximos principios. Ahora solo falta que el resto les siga.

