Fable 5 vs GPT 5.5: el modelo de Anthropic dominó todos los puntos de referencia, luego el gobierno lo retiró

0 6 3 minutos de lectura

TL; DR

El Fable 5 superó al GPT 5.5 en todos los puntos de referencia importantes, pero el gobierno de EE. UU. lo retiró tres días después, lo que convirtió al GPT 5.5 en el modelo superior que realmente puedes usar.

Fable 5 de Anthropic pasó tres días como el modelo de IA más capaz lanzado al público. Encabezó la clasificación de Chatbot Arena, superó el punto de referencia de codificación GPT 5.5 de OpenAI por un margen de dos dígitos y brindó a los clientes de pago acceso a la lógica de clase Mythos por primera vez. Luego, el 12 de junio, el gobierno de Estados Unidos ordenó a Anthropic que lo cerrara.

El resultado es un momento extraño en la IA. El modelo que claramente supera a todo lo demás en el mercado es el que no puedes usar. GPT 5.5, que OpenAI lanzó a finales de abril con el nombre en clave interno "patata,"Ahora es el modelo más potente disponible para desarrolladores y consumidores, no porque haya mejorado sino porque su único competidor real ha sido eliminado.

La brecha de referencia entre los dos no es cercana. En SWE-Bench Pro, que mide la capacidad de un modelo para resolver problemas reales de ingeniería de software en bases de código de código abierto, el Fable 5 obtuvo una puntuación del 80,3% frente al 58,6% del GPT 5.5, una diferencia de 22 puntos. En SWE-Bench Verified, un subconjunto seleccionado del mismo punto de referencia, Fable 5 alcanzó el 95,0%.

Espacio de coworking TNW City: donde ocurre su mejor trabajo

Un espacio de trabajo diseñado para el crecimiento, la colaboración y un sinfín de oportunidades de networking en el corazón de la tecnología.

Los puntos de referencia de codificación cuentan una historia similar. Fable 5 lidera a Code Arena por 98 puntos amarillos, con 1.665 puntos frente a los 1.501 de GPT 5.5. En FrontierCode Diamond, un punto de referencia diseñado para probar las tareas de programación más difíciles, Fable 5 obtuvo una puntuación del 29,3%, mientras que GPT 5.5 logró un 5,7%, y en la extensa tabla de clasificación de Chatbot Arena, Fable 5 fue el número uno con GPT 5.5 en el cuarto lugar.

GPT 5.5 tiene un área de fortaleza. En Terminal-Bench 2.0, que evalúa tareas de codificación interactivas basadas en terminales en lugar de resolución de problemas a nivel de código base, GPT 5.5 obtuvo una puntuación del 82,7 %, en comparación con el casi 88,0 % de Fable 5. La brecha es más estrecha allí, y el punto de referencia prueba una habilidad diferente, ejecutando y depurando comandos en tiempo real en lugar de leer y parchear grandes repositorios.

El precio también favorece a OpenAI. GPT 5.5 cuesta 5 dólares por millón de tokens de entrada y 30 dólares por millón de tokens de salida, la mitad del precio de los 10 y 50 dólares de Fable 5, respectivamente. Para los desarrolladores que ejecutan aplicaciones de gran volumen donde la diferencia de rendimiento es menos importante que el costo, el GPT 5.5 es la opción más práctica, aunque ambos modelos están disponibles.

Fable 5 se lanzó el 9 de junio como el primer modelo clase Mythos de Anthropic disponible para el público en general. Ofrece una ventana de contexto de un millón de tokens y 128.000 tokens de salida. Anthropic lo puso a disposición sin costo adicional para los clientes Pro, Max, Team y Enterprise hasta el 22 de junio, una ventana promocional que se cortó solo tres días después de la directiva oficial.

El cierre se produjo a través de una directiva de control de exportaciones emitida el 12 de junio. El gobierno citó las vulnerabilidades de jailbreak como una razón para retirar tanto el Fable 5 como la familia de modelos más grande Mythos 5. Anthropic cuestionó la intensidad de la búsqueda, diciendo que las vulnerabilidades identificadas eran menores, conocidas públicamente y alcanzables por GPT 5.5 sin ninguna técnica de derivación, mientras que los informes indicaron que el CEO de Amazon, Andy Jassy, jugó un papel en el desencadenamiento de la revisión del gobierno.

El resultado práctico fue que los desarrolladores e investigadores que estaban evaluando Fable 5 para uso en producción tuvieron que volver a GPT 5.5 o los modelos Opus anteriores de Anthropic. Para flujos de trabajo con mucha codificación, la degradación es significativa. Una diferencia de 22 puntos en SWE-Bench Pro representa la diferencia entre un modelo que puede resolver cuatro de cada cinco problemas de software del mundo real y uno que gestiona aproximadamente tres de cada cinco.

El regreso de Fable 5 se basa en las discusiones de Anthropic con el gobierno sobre la clasificación del control de exportaciones. La empresa ha argumentado públicamente que la directiva es inconsistente y que las debilidades citadas no justifican retirar el modelo por completo. Hasta que se resuelva este conflicto, GPT 5.5 ocupa la primera posición por defecto, no el mejor modelo disponible porque es el mejor modelo existente.

Source link

Redacción - ACN 2 días hace

0 6 3 minutos de lectura

Fable 5 vs GPT 5.5: el modelo de Anthropic dominó todos los puntos de referencia, luego el gobierno lo retiró

TL; DR

Redacción - ACN

Leer Siguiente

Dipsic cierra ronda de más de 7.000 millones de dólares con estructura inusual

La plataforma de IA del Pentágono pasó de 80.000 usuarios a 1,5 millones en seis meses

Las acciones tecnológicas asiáticas subieron después del acuerdo entre Irán y Estados Unidos, siendo los fabricantes de chips de IA los mayores ganadores

Una función integrada de Google Workspace se ha convertido en la herramienta de extorsión favorita de un grupo de espías chino

Xbox está discutiendo Compulsion Games, Double Fine y Ninja Theory en lugar de cerrarlos

IMEC ha desarrollado una plataforma de chip que opera hasta 325 GHz y podría hacer que el hardware 6G sea lo suficientemente barato como para implementarlo.

Xiaomi ha desarrollado un brazo robótico que se conecta a su vehículo eléctrico en casa, una promesa que Tesla hizo en 2014 y nunca cumplió.

Canadá ha propuesto una reforma de la privacidad que regularía los precios de la vigilancia y daría a los consumidores el derecho a que se eliminen sus datos.

El CEO de Rivian dice que la conducción autónoma punto a punto supervisada llegará este año y la está comparando directamente con el FSD de Tesla

La aplicación de taxis más grande de Japón recaudó 553 millones de dólares este año en la OPI más grande del país.

Dipsic cierra ronda de más de 7.000 millones de dólares con estructura inusual

La plataforma de IA del Pentágono pasó de 80.000 usuarios a 1,5 millones en seis meses

Las acciones tecnológicas asiáticas subieron después del acuerdo entre Irán y Estados Unidos, siendo los fabricantes de chips de IA los mayores ganadores

Una función integrada de Google Workspace se ha convertido en la herramienta de extorsión favorita de un grupo de espías chino

Xbox está discutiendo Compulsion Games, Double Fine y Ninja Theory en lugar de cerrarlos

IMEC ha desarrollado una plataforma de chip que opera hasta 325 GHz y podría hacer que el hardware 6G sea lo suficientemente barato como para implementarlo.

Xiaomi ha desarrollado un brazo robótico que se conecta a su vehículo eléctrico en casa, una promesa que Tesla hizo en 2014 y nunca cumplió.

Canadá ha propuesto una reforma de la privacidad que regularía los precios de la vigilancia y daría a los consumidores el derecho a que se eliminen sus datos.

El CEO de Rivian dice que la conducción autónoma punto a punto supervisada llegará este año y la está comparando directamente con el FSD de Tesla

La aplicación de taxis más grande de Japón recaudó 553 millones de dólares este año en la OPI más grande del país.

Deja una respuesta Cancelar la respuesta

El mayor cambio de lenguaje de Java en una década finalmente está llegando. Se necesitaron 197.000 líneas de código.

Ubotica e IBM llevan la implementación de IA con un solo clic a Board Satellite

Ecuador aumenta los cortes de energía hasta 14 horas diarias

Hombres armados atacan otro poblado en Haití

Enviado especial de Trump se reúne este viernes con Maduro

Cómo una periodista en Chile logró que un psicópata le confesara crímenes que habían permanecido ocultos durante casi 30 años

TL; DR

Leer Siguiente

Dipsic cierra ronda de más de 7.000 millones de dólares con estructura inusual

La plataforma de IA del Pentágono pasó de 80.000 usuarios a 1,5 millones en seis meses

Las acciones tecnológicas asiáticas subieron después del acuerdo entre Irán y Estados Unidos, siendo los fabricantes de chips de IA los mayores ganadores

Una función integrada de Google Workspace se ha convertido en la herramienta de extorsión favorita de un grupo de espías chino

Xbox está discutiendo Compulsion Games, Double Fine y Ninja Theory en lugar de cerrarlos

IMEC ha desarrollado una plataforma de chip que opera hasta 325 GHz y podría hacer que el hardware 6G sea lo suficientemente barato como para implementarlo.

Xiaomi ha desarrollado un brazo robótico que se conecta a su vehículo eléctrico en casa, una promesa que Tesla hizo en 2014 y nunca cumplió.

Canadá ha propuesto una reforma de la privacidad que regularía los precios de la vigilancia y daría a los consumidores el derecho a que se eliminen sus datos.

El CEO de Rivian dice que la conducción autónoma punto a punto supervisada llegará este año y la está comparando directamente con el FSD de Tesla

La aplicación de taxis más grande de Japón recaudó 553 millones de dólares este año en la OPI más grande del país.

Artículos Relacionados

Deja una respuesta Cancelar la respuesta