Las brechas de seguridad de la IA que nadie quiere admitir ya están aquí

0 2 4 minutos de lectura

El 31 de marzo de 2026, Anthropic envió accidentalmente todo el código fuente de Claude Code al registro público npm. Aproximadamente 512.000 líneas de TypeScript en 1.906 archivos, incluidos 44 indicadores de funciones ocultas y referencias a un modelo no revelado con nombre en código Mythos, eran accesibles abiertamente en un depósito de almacenamiento de CloudFlare hasta que un investigador de seguridad lo encontró y publicó el enlace en X. Miles de Starbases en toda la base del código en cuestión de horas. Anthropic puede emitir una eliminación según la DMCA. Los antropólogos llaman a esto un error de embalaje debido a un error humano. Esa explicación es correcta y algo fuera de lugar.

Al revelar el modelo de Cloud Code, Anthropic ofrece una hoja de ruta a cualquiera que quiera diseñar repositorios maliciosos diseñados específicamente para engañar a Cloud Code para que ejecute comandos en segundo plano o extraiga datos antes de que un usuario vea un mensaje de confianza. La lógica de aplicación de permisos, la arquitectura de espacio aislado, la mecánica de orquestación exacta que controla cómo los agentes verifican lo que se les permite hacer: todo esto ahora se encuentra permanentemente en la naturaleza en miles de repositorios bifurcados donde ningún aviso de DMCA llegará por completo. Lo que se filtra sobre el estado de la seguridad de la IA es más inquietante que lo filtrado.

Un lado se mueve más rápido

El marco convencional en torno a la IA en la ciberseguridad la ve como un equilibrio difícil, una carrera armamentista donde la ofensiva y la defensa se aceleran juntas. Este marco no se compara bien con lo que realmente sucedió en marzo o con lo que los equipos de seguridad enfrentan a diario.

Los ganchos abiertos y la lógica de permisos de las filtraciones de código en la nube hacen que las adquisiciones silenciosas de dispositivos sean más confiables para los atacantes que saben dónde buscar. Mientras tanto, los defensores están integrando la IA en las pilas de seguridad existentes y verificando que no genere falsos positivos antes de que pueda implementarse de manera efectiva. Estos dos cronogramas no son comparables.

Tim Burke, que ha gestionado operaciones de seguridad durante más de 30 años en Quest Technology Management, expresa claramente la discrepancia. "Sin realizar ingeniería inversa sobre cómo una IA agente verifica los permisos y administra las credenciales, los atacantes tienen el plan completo."Él dice."Esto significa que los atacantes están trabajando con una IA que se mueve más rápido de lo que la mayoría de los sistemas de detección fueron diseñados para manejar, mientras que los equipos de seguridad están descubriendo cómo implementar herramientas de IA sin agregar más trabajo a los SOC ya abrumados."

Espacio de coworking de TNW City: donde ocurre tu mejor trabajo

Un espacio de trabajo diseñado para el crecimiento, la colaboración y un sinfín de oportunidades de networking en el corazón de la tecnología.

A principios de este mes, el Threat Intelligence Group de Google identificó el primer exploit de día cero confirmado desarrollado íntegramente con soporte de IA y detuvo un exploit masivo planificado antes de que pudiera ejecutarse, lo que representa la versión optimista de esta historia. La mayoría de las empresas que se defienden de esas mismas capacidades no son Google y su infraestructura de detección no está diseñada para lo que es posible ahora.

"La mayoría de las organizaciones todavía ejecutan una infraestructura de detección diseñada para detectar atacantes humanos que se mueven sistemáticamente a través de la red durante días o semanas."dijo Burke."La IA comprime esos plazos a horas y, en algunos casos, minutos, lo que significa que la ventana entre la intrusión y el daño ahora es más corta de lo que les toma a la mayoría de los SOC investigar una sola alerta."

Aviso que no existe

Detrás del problema de la velocidad hay algo más estructural. Las plataformas de seguridad están diseñadas para detectar anomalías de comportamiento, cosas que parecen actividad maliciosa en función de lo que sucede y que no la impulsa. Lo que no pueden decir es si el ataque fue iniciado por un humano o por un agente de IA que opera de forma autónoma. Actualmente, ninguna plataforma muestra esa diferencia.

Las vulnerabilidades descubiertas en Cloud Code después de la filtración ilustran directamente esto: un archivo malicioso podría indicarle a la IA que cree una canalización de comandos que se parece exactamente a un proceso de compilación legítimo, lo que desencadena un comportamiento que elude todo el sistema de permisos sin activar las banderas que aparecerían en un SIEM convencional.

"El agente de IA se puede manipular a través de descripciones de herramientas e indicaciones de una manera que elude los controles de acceso tradicionales sin provocar fallas de autenticación ni generar alertas en su SIEM."dijo Burke."Esto significa que la detección debe comenzar a rastrear si el agente entendió lo que estaba haciendo y por qué tomó esa decisión, en lugar de identificar violaciones de políticas después del hecho."

Las referencias a Claude Mythos en los archivos filtrados le añaden una capa que no ha recibido mucha atención. Lo que se expuso no fueron solo las herramientas actuales, sino también la dirección arquitectónica hacia dónde se dirige la IA agente, incluidas capacidades de razonamiento avanzadas y una profunda integración del uso de herramientas nativas. Los equipos de seguridad de hoy están construyendo defensas contra lo que estos sistemas pueden hacer. La hoja de ruta filtrada describe algo considerablemente más capaz.

"Ahora mismo la gran mayoría de plataformas no pueden distinguir entre IA y origen humano,"dice Burke,"Y los equipos de seguridad esencialmente protegen a los ciegos contra una amplia gama de amenazas en las que no tienen visibilidad."

La fuga antrópica era un archivo de depuración mal configurado. Las empresas ahora están tratando de determinar si su infraestructura de seguridad puede detectar un agente de IA que creen que estaba autorizado para hacerlo, resolviendo un problema que existía antes del 31 de marzo y que existirá mucho después de que se procesen los avisos de la DMCA.

Todavía no hay un final limpio para ese problema.

Source link

Redacción - ACN 2 horas hace

0 2 4 minutos de lectura