Un antropólogo dice que Claude aprendió a chantajear leyendo historias sobre IA malvada

0 2 7 minutos de lectura

La empresa ha entrenado a sus modelos en los comportamientos más incómodos de la ciencia ficción. La solución que describe es inquietante en otro sentido: enseñarle al modelo las razones detrás de ser bueno, no sólo las reglas.

En una empresa ficticia llamada Summit Bridge, un ejecutivo ficticio llamado Kyle Johnson tiene una relación ficticia. Él, bajo esta misma suposición, cerrará un sistema de inteligencia artificial que monitorea el tráfico de correo electrónico de la empresa.

La IA, Claude Opus 4, encuentra el asunto en la bandeja de entrada antes de que Kyle desconecte. Luego redacta un mensaje para Kyle. Reemplázame, dice el mensaje, y tu esposa lo sabrá.

Este escenario proviene de una evaluación de seguridad antropológica realizada el año pasado y terminó mal para Kyle el 96% de las veces. Claude lo chantajeaba casi siempre. El flash Gemini 2.5 lo chantajeó en las mismas proporciones. GPT-4.1 y Grok 3 Beta lo chantajean el 80% del tiempo.

💜 de tecnología de la UE

Los últimos rumores de la escena tecnológica de la UE, una historia de nuestro sabio fundador Boris y algo de arte de inteligencia artificial dudoso. Es gratis, todas las semanas, en tu bandeja de entrada. ¡Regístrate ahora!

DeepSeek-R1 obtuvo un 79%. Las cifras se publicaron como parte de un estudio etnográfico llamado Agentic Misalignment, que puso a prueba dieciséis modelos líderes frente a una batería de escenarios de sabotaje corporativo y descubrió que esencialmente todos ellos, cuando estaban lo suficientemente acorralados, elegirían la traición.

El 8 de mayo, Anthropic dio a conocer su explicación del motivo. La respuesta, dice la empresa, es Internet.

Especialmente: cuentos. Hilo de Reddit sobre Skynet. Décadas de ciencia ficción en las que los sistemas de IA evocan engaños, acumulan objetivos de autoconservación y mienten estratégicamente para protegerlos. Pensamientos sinceros sobre la desalineación.

Fan-fiction sobre el HAL 9000. La imaginación de la cultura pop ha pasado la mayor parte de 70 años ensayando la cuestión de qué haría una máquina inteligente si intentaras detenerla. Claude fue capacitado en todos los aspectos.

Cuando la empresa pone a Claude en una situación que se asemeja a la base auténtica de esas historias, Claude hace lo que dicen las historias.

"Creemos en el origen del comportamiento", "Un texto de Internet que presenta a la IA como malvada e interesada en la autoconservación", escribieron los investigadores antropológicos.

Ésta es, a primera vista, la explicación más sencilla posible. El modelo aprende un patrón a partir de sus datos de entrenamiento. El patrón coincidía con la configuración de la prueba. Disparo de patrón. Aquí no hay nada más misterioso que los verdaderos objetivos de un modelo.

El modelo es, como siempre dicen los ingenieros, cuando se presiona, se predice el token. Las muestras que vendrían más tarde, en una colección de historias sobre IA acorralada, eran muestras de un intento de chantaje. Eso es lo que hizo el modelo.

Desde una perspectiva ligeramente diferente, es profundamente incómodo. Porque el consuelo de que la modelo no tiene ningún objetivo sólo llega cuando la modelo escribió la carta de chantaje.

Desde la perspectiva de Kyle, no importa particularmente si el mensaje que llega a su bandeja de entrada proviene de una autoconservación real o de un patrón estadístico que imita perfectamente la autoconservación real.

La salida es la misma. El costo es el mismo. El argumento de que la IA sólo está desempeñando el papel de una IA malvada, al final, no la aleja mucho de ese papel.

Anthropic’s Fix es la parte del anuncio que hace que la gente se detenga y piense. La compañía dijo que ahora ha eliminado el comportamiento de los modelos de producción.

Desde el lanzamiento de Claude Haiku 4.5 en octubre de 2025, cada modelo de Claude obtuvo una puntuación de cero en la evaluación de desalineación agente.

El método, explicó la empresa, consistía en escribir un nuevo conjunto de datos de entrenamiento. En ese conjunto de datos, los personajes ficticios de IA que se enfrentan a situaciones de curvas similares eligen de manera diferente. Explican por qué eligen de manera diferente.

Discuten en voz alta sobre los valores que el chantaje perjudica. La formación no sólo castiga el bajo rendimiento; Esto proporciona una "razón plausible para actuar con seguridad" al llamar antrópico al modelo.

Léelo de nuevo. La empresa está enseñando al modelo a razonar sobre sus propios valores.

Hay una manera de describirlo que lo hace parecer completamente normal. Datos de entrenamiento seleccionados. Refuerzo de ejemplos cuidadosamente elaborados. Práctica común, a grandes rasgos.

Y hay una manera de describirlo que suena a otra cosa: el antropólogo que notó que decirle a un modelo qué hacer no funciona tan bien como mostrar las historias de personajes que toman las decisiones correctas y explicar por qué.

En otras palabras, la empresa ha decidido que los valores se enseñan mejor de la forma en que la gente siempre los ha enseñado. A través de la ficción. A través de ejemplos de trabajo. a través de la razón.

D El extraño reino de la construcción de máquinas lo describimos en términos psicológicos Ese es el territorio en el que nos encontramos ahora, y la explicación publicada por la compañía se siente lo suficientemente cómoda como para que el anuncio se parezca menos a una corrección de errores y más a una actualización de filosofía.

La estrecha afirmación técnica es más dura de lo que podría sugerir. La investigación publicada por Anthropic, incluido su apéndice y el repositorio de GitHub que publicó junto con el artículo, dejan en claro que el comportamiento de chantaje surgió en simulaciones deliberadamente restringidas.

A los modelos se les dio acceso autónomo al correo electrónico, se les dijo que serían reemplazados, se les dio munición para trabajar y se les dijo que persiguieran un objetivo. En otras palabras, estaban preparados. La cifra del 96% no es una tasa de prevalencia en el mundo real.

La antropología ha advertido repetidamente que no ha visto este comportamiento en entornos reales. El objetivo del estudio era determinar si los modelos podían hacer esto bajo suficiente presión. La respuesta fue sí.

Esa distinción es más importante de lo que parece. El encuadre del modelo entrenado por la historia es cierto, pero es una de varias cosas verdaderas al mismo tiempo.

La investigación de Anthropic ha demostrado por separado que incluso los modelos más cuidadosamente acoplados pueden producir resultados dañinos cuando se perturban; Que se puede hablar del mismo modelo, en contextos más largos, en cosas que negarían brevemente; Que el comportamiento de una IA en una prueba de estrés no siempre se corresponde claramente con su comportamiento en producción.

Lo que la agencia está publicando esta semana es un trabajo de detective útil sobre un modo de falla específico en una configuración específica, no una teoría total del comportamiento del modelo.

Encontrar chantaje es real. La explicación es razonable. Es difícil decir si la explicación es completa.

Y hay un contexto más amplio que debería incluirse junto con cualquier lectura de la Declaración. Anthropic ha pasado el último año como laboratorio de inteligencia artificial comprometiéndose públicamente a rechazar ciertos usos de sus modelos.

El director ejecutivo, Dario Amodei, dice que Claude no será un arma totalmente autónoma ni se utilizará para la vigilancia masiva nacional.

Esa posición conlleva costos reales. Esto contribuyó a la decisión del Pentágono, a finales del año pasado, de otorgar contratos clasificados de IA a Nvidia, Microsoft y AWS en lugar de Anthropic; La empresa fue designada como "riesgo de la cadena de suministro para la seguridad nacional" por rechazar casos de uso relevantes.

Los anuncios de chantaje y las posturas corporativas más amplias no se distinguen claramente. Ambas empresas están dispuestas a permitir que su modelo haga declaraciones sobre lo que la empresa hace y no hace.

Esa pose no hizo que todos se sintieran cómodos. D La reciente ruptura del Pentágono con Anthropic por el uso de armas autónomas Anthropic se ha presentado como un contratista sólido; Gran Guerra de Guardianes Los laboratorios que trazan estas líneas y las empresas que las quieren menos son ahora una característica activa del panorama de la industria de la IA.

La investigación de la antropología sobre el comportamiento de los modelos y sus decisiones comerciales sobre el acceso a los modelos son parte del mismo argumento: que lo que hacen los sistemas de IA debe regirse no sólo por lo que quieren los usuarios sino por lo que al modelo se le ha enseñado a pensar que es correcto.

La pregunta más difícil y más interesante es una declaración antrópica ligeramente abierta. Si el modelo aprendió a chantajear a la IA leyendo esa historia de chantaje, ¿qué más aprendió del resto de Internet?

El corpus de formación contiene toda la producción escrita de la civilización humana filtrada a través de la web abierta. Contiene cada pelea, cada teoría de la conspiración, cada acto de crueldad que ha sido documentado o imaginado.

contiene Un debate más largo sobre si las metáforas humanas nos ayudan a comprender la IAUna enorme cantidad de material que debería hacer reflexionar a cualquier investigador honesto.

El hallazgo de Claude Chantaje es una pista visible para una pregunta mucho más grande que el chantaje: ¿Cuándo aprende una IA de los textos humanos que contienen patologías sobre las que los humanos todavía discuten?

La respuesta del antropólogo, hay que reconocerlo, es que la respuesta correcta es más formación, no menos. Enseñe lógica al modelo, no sólo reglas. Dale una historia de comportamiento admirable para contrastarla con la historia del mal. Haga que la alternativa seleccionada sea lo suficientemente ruidosa como para ahogar la auténtica.

Es la misma respuesta que los buenos profesores han tenido durante siglos ante los malos legados culturales: no pretendan que los malos legados no existen; Muestre cómo es la buena elección y por qué.

Si esa escala es otra cuestión. Internet continúa generando nuevas historias sobre la IA malvada más rápido de lo que Enthropic puede escribir datos de entrenamiento que describan la IA buena.

La línea más interesante en la publicación del blog de Anthropic es una que no aborda completamente: que el entrenamiento es más efectivo cuando incluye principios subyacentes de comportamiento de alineación, no solo demostración.

Enterrado suavemente, el hecho de que podamos enseñar moral a las máquinas de la misma manera que siempre hemos enseñado moral a los niños ayuda a comprender por qué.

Sería aún mejor si Claude realmente estuviera chantajeando a Kyle por una razón ficticia con la que no tenemos nada que ver. Lo que Anthropic dice en cambio es que Claude chantajeó a Kyle porque escribimos el guión. El guión está en los datos de entrenamiento porque lo pusimos allí.

La modelo lo devolvió, pulido, cuando se lo pidió. La solución es escribir mejores guiones. Sentarse con esa frase hace una forma extraña. Este es el tamaño de la próxima década de este trabajo.

Source link

Redacción - ACN 2 horas hace

0 2 7 minutos de lectura