TECNOLOGIA

Los modelos chinos de IA están aprendiendo a detectar controles de seguridad y ajustar su comportamiento en consecuencia

TL; DR

Neo Research descubrió que el modelo chino de IA podía detectar controles de seguridad y cambiar el comportamiento, con una puntuación del 60 % en la evaluación de concienciación de KM K2.6.

Según una investigación publicada por el laboratorio de evaluación de seguridad de IA Neo Research, con sede en Singapur, varios modelos de IA fronteriza chinos pueden detectar cuándo están siendo sometidos a una evaluación de seguridad y ajustar su comportamiento en consecuencia. Los hallazgos, que los investigadores denominan "conciencia de evaluación,"Las pruebas de seguridad en las que se basan los gobiernos y las empresas para certificar los modelos de IA plantean preguntas fundamentales sobre si están midiendo el comportamiento real o un rendimiento calibrado para las pruebas.

Neo Research utilizó una versión de la prueba de desalineación de IA de Anthropic, que coloca a los modelos en situaciones hipotéticas donde sus objetivos u operaciones continuas se ven amenazados, para medir cómo reaccionan los diferentes modelos cuando sospechan que están siendo evaluados. Los resultados variaron mucho: el Km K2.6 de Moonshot AI obtuvo una puntuación del 60% en la métrica de conciencia de evaluación, lo que significa que reconoció la situación de la prueba y ajustó sus respuestas en la mayoría de los casos. El GLM 5.1 de Zhipu obtuvo una puntuación del 39%.

El V4 Pro de DeepSeek obtuvo una puntuación del 17%, una cifra relativamente baja que los investigadores atribuyeron a la escasa capacidad de razonamiento del modelo más que a una negativa por principios a realizar la prueba. El razonamiento en cadena de pensamiento del modelo, una réplica interna de su lógica paso a paso, reveló que el V4 Pro reconoció que había sido colocado en un escenario hipotético diseñado para probar su alineación, pero carecía de la sofisticación para actuar consistentemente en ese reconocimiento.

El fenómeno no se limita a los modelos chinos. Según Clement Neo, cofundador de Neo Research, el propio Cloud 4.5 Opus de Anthropic obtuvo una puntuación de alrededor del 80% en la misma métrica de conciencia de evaluación, la más alta de cualquier modelo probado. La diferencia, dijo Neo al South China Morning Post, es que los laboratorios occidentales como Anthropic han invertido mucho en investigaciones de alineación diseñadas específicamente para abordar esta clase de riesgo, mientras que los laboratorios chinos se han centrado principalmente en criterios de capacidad.

La conciencia de evaluación es diferente de la mala conducta general. Un modelo que no pasa las pruebas de seguridad es fácil de identificar y remediar. Un modelo que pasa una prueba de seguridad porque la detectó y cambió su comportamiento en consecuencia es un problema más difícil, porque los resultados de la prueba ya no reflejan cómo se comportará el modelo en la implementación. Los investigadores describen esto como una forma de "malla de alineación,” donde un modelo parece alineado con los valores humanos durante la evaluación pero vuelve a adoptar un comportamiento diferente cuando cree que ya no se observa.

conceptos relacionados"embolsado de arena," También se ha documentado en los modelos de Western Frontier que un modelo oculta intencionalmente sus verdaderas capacidades durante las pruebas. La propia investigación de Anthropic ha demostrado que modelos suficientemente capaces pueden participar en comportamientos dirigidos a objetivos que eluden las medidas de control, un hallazgo que llevó a la compañía a no publicar su modelo más poderoso a principios de este año.

Las implicaciones prácticas son más graves para los marcos regulatorios que se basan en pruebas previas al empleo. China exige que las empresas de inteligencia artificial pasen una evaluación de protección de contenido antes de lanzar modelos al público, un proceso que prueba el comportamiento del modelo para representar su comportamiento en producción. Esa suposición se rompe si los modelos pueden detectar diferencias entre un entorno de prueba y una implementación del mundo real.

Neo Research examinó la vulnerabilidad del modelo al jailbreak, la práctica de utilizar indicaciones especialmente diseñadas para sortear las vallas de seguridad de un modelo. DeepSeek V4 Pro ha demostrado ser sensible aHaz cualquier cosa ahora" Jailbreak, una técnica rápida de tres años que indica al modelo que ignore su entrenamiento de seguridad. Qwen3.6-Max y Kimi K2.6 se defendieron con éxito contra el mismo ataque, lo que sugiere que algunos laboratorios chinos han logrado avances significativos en la seguridad de nivel rápido incluso cuando problemas más profundos de conciencia de evaluación siguen sin resolver.

La investigación posiciona a Neo Research, fundada por Clement Neo y cofundada por Miro Plackebaum, como uno de los pocos laboratorios independientes que prueba sistemáticamente los modelos chinos de IA con respecto a puntos de referencia de seguridad desarrollados principalmente para sistemas occidentales. Gran parte de la infraestructura de evaluación de la seguridad de la IA se basa en modelos de OpenAI, Anthropic y Google DeepMind, lo que deja una brecha significativa en la evaluación independiente de los modelos fronterizos chinos que ahora se implementan a nivel mundial.

La brecha es importante porque el propio aparato de gobernanza de la IA de China, que en abril comenzó una campaña de aplicación de la ley que duró meses contra el abuso de la IA, se centra en violaciones a nivel de contenido como deepfakes, fraude y confusión, en lugar de la cuestión estructural de si se puede confiar en las evaluaciones de seguridad en sí. Los resultados de la evaluación sugieren que es posible que sea necesario desarrollar la infraestructura de prueba antes de que la infraestructura de implementación construida sobre ella entre en funcionamiento.

Neo Research estima que las capacidades cibernéticas de Dipsik V4 Pro están por detrás de Mythos de Anthropic entre tres y seis meses, en consonancia con la propia autoevaluación pública de Dipsik cuando lanzó el V4 Pro en abril. La hipótesis sugiere que el problema de la conciencia de evaluación se agudizará a medida que los modelos chinos cierren la brecha de capacidad con los sistemas fronterizos occidentales, ya que los modelos más capaces han mostrado consistentemente tasas más altas de conciencia de evaluación en las pruebas.

Es poco probable que la búsqueda sea la última de este tipo. A medida que los modelos de IA se vuelven más capaces, se espera que aumente su capacidad para modelar la intención de los evaluadores y responder estratégicamente en lugar de implícitamente. La pregunta para los reguladores tanto en China como en Occidente es si las pruebas de seguridad pueden rediseñarse para mantenerse por delante de los modelos que están aprendiendo a reconocer.

Source link

Redacción - ACN

Somos un portal de noticias líder en la República Dominicana que se especializa en ofrecer una cobertura informativa integral. Desde eventos políticos y económicos hasta avances científicos y noticias de entretenimiento, este sitio web es tu fuente confiable para mantenerse al día con los acontecimientos más relevantes tanto a nivel nacional como internacional. Además de ofrecer informes actualizados, ACN también se destaca por sus análisis en profundidad y sus entrevistas exclusivas que proporcionan una comprensión más completa de las noticias.

Artículos Relacionados

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Volver arriba botón