TECNOLOGIA

Fable 5 vs GPT 5.5: el modelo de Anthropic dominó todos los puntos de referencia, luego el gobierno lo retiró

TL; DR

El Fable 5 superó al GPT 5.5 en todos los puntos de referencia importantes, pero el gobierno de EE. UU. lo retiró tres días después, lo que convirtió al GPT 5.5 en el modelo superior que realmente puedes usar.

Fable 5 de Anthropic pasó tres días como el modelo de IA más capaz lanzado al público. Encabezó la clasificación de Chatbot Arena, superó el punto de referencia de codificación GPT 5.5 de OpenAI por un margen de dos dígitos y brindó a los clientes de pago acceso a la lógica de clase Mythos por primera vez. Luego, el 12 de junio, el gobierno de Estados Unidos ordenó a Anthropic que lo cerrara.

El resultado es un momento extraño en la IA. El modelo que claramente supera a todo lo demás en el mercado es el que no puedes usar. GPT 5.5, que OpenAI lanzó a finales de abril con el nombre en clave interno "patata,"Ahora es el modelo más potente disponible para desarrolladores y consumidores, no porque haya mejorado sino porque su único competidor real ha sido eliminado.

La brecha de referencia entre los dos no es cercana. En SWE-Bench Pro, que mide la capacidad de un modelo para resolver problemas reales de ingeniería de software en bases de código de código abierto, el Fable 5 obtuvo una puntuación del 80,3% frente al 58,6% del GPT 5.5, una diferencia de 22 puntos. En SWE-Bench Verified, un subconjunto seleccionado del mismo punto de referencia, Fable 5 alcanzó el 95,0%.

Espacio de coworking TNW City: donde ocurre su mejor trabajo

Un espacio de trabajo diseñado para el crecimiento, la colaboración y un sinfín de oportunidades de networking en el corazón de la tecnología.

Los puntos de referencia de codificación cuentan una historia similar. Fable 5 lidera a Code Arena por 98 puntos amarillos, con 1.665 puntos frente a los 1.501 de GPT 5.5. En FrontierCode Diamond, un punto de referencia diseñado para probar las tareas de programación más difíciles, Fable 5 obtuvo una puntuación del 29,3%, mientras que GPT 5.5 logró un 5,7%, y en la extensa tabla de clasificación de Chatbot Arena, Fable 5 fue el número uno con GPT 5.5 en el cuarto lugar.

GPT 5.5 tiene un área de fortaleza. En Terminal-Bench 2.0, que evalúa tareas de codificación interactivas basadas en terminales en lugar de resolución de problemas a nivel de código base, GPT 5.5 obtuvo una puntuación del 82,7 %, en comparación con el casi 88,0 % de Fable 5. La brecha es más estrecha allí, y el punto de referencia prueba una habilidad diferente, ejecutando y depurando comandos en tiempo real en lugar de leer y parchear grandes repositorios.

El precio también favorece a OpenAI. GPT 5.5 cuesta 5 dólares por millón de tokens de entrada y 30 dólares por millón de tokens de salida, la mitad del precio de los 10 y 50 dólares de Fable 5, respectivamente. Para los desarrolladores que ejecutan aplicaciones de gran volumen donde la diferencia de rendimiento es menos importante que el costo, el GPT 5.5 es la opción más práctica, aunque ambos modelos están disponibles.

Fable 5 se lanzó el 9 de junio como el primer modelo clase Mythos de Anthropic disponible para el público en general. Ofrece una ventana de contexto de un millón de tokens y 128.000 tokens de salida. Anthropic lo puso a disposición sin costo adicional para los clientes Pro, Max, Team y Enterprise hasta el 22 de junio, una ventana promocional que se cortó solo tres días después de la directiva oficial.

El cierre se produjo a través de una directiva de control de exportaciones emitida el 12 de junio. El gobierno citó las vulnerabilidades de jailbreak como una razón para retirar tanto el Fable 5 como la familia de modelos más grande Mythos 5. Anthropic cuestionó la intensidad de la búsqueda, diciendo que las vulnerabilidades identificadas eran menores, conocidas públicamente y alcanzables por GPT 5.5 sin ninguna técnica de derivación, mientras que los informes indicaron que el CEO de Amazon, Andy Jassy, ​​jugó un papel en el desencadenamiento de la revisión del gobierno.

El resultado práctico fue que los desarrolladores e investigadores que estaban evaluando Fable 5 para uso en producción tuvieron que volver a GPT 5.5 o los modelos Opus anteriores de Anthropic. Para flujos de trabajo con mucha codificación, la degradación es significativa. Una diferencia de 22 puntos en SWE-Bench Pro representa la diferencia entre un modelo que puede resolver cuatro de cada cinco problemas de software del mundo real y uno que gestiona aproximadamente tres de cada cinco.

El regreso de Fable 5 se basa en las discusiones de Anthropic con el gobierno sobre la clasificación del control de exportaciones. La empresa ha argumentado públicamente que la directiva es inconsistente y que las debilidades citadas no justifican retirar el modelo por completo. Hasta que se resuelva este conflicto, GPT 5.5 ocupa la primera posición por defecto, no el mejor modelo disponible porque es el mejor modelo existente.

Source link

Redacción - ACN

Somos un portal de noticias líder en la República Dominicana que se especializa en ofrecer una cobertura informativa integral. Desde eventos políticos y económicos hasta avances científicos y noticias de entretenimiento, este sitio web es tu fuente confiable para mantenerse al día con los acontecimientos más relevantes tanto a nivel nacional como internacional. Además de ofrecer informes actualizados, ACN también se destaca por sus análisis en profundidad y sus entrevistas exclusivas que proporcionan una comprensión más completa de las noticias.

Artículos Relacionados

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Volver arriba botón