Claude Opus 4.8 de Anthropic es cuatro veces más honesto, el próximo Mythos

0 4 5 minutos de lectura

TL; DR

Anthropic ha lanzado Cloud Opus 4.8, una actualización de su modelo insignia de IA que hace que los errores de código tengan cuatro veces menos probabilidades de pasar desapercibidos. La compañía también se burló de los modelos de clase Mythos, que ya han encontrado más de 10.000 vulnerabilidades críticas de software a través del Proyecto Glasswing, y anunció una ronda Serie H de 65.000 millones de dólares con una valoración post-dinero de 965.000 millones de dólares.

Anthropic lanzó Claude Opus 4.8, una actualización de su modelo insignia de IA que, según la compañía, es más honesto, más confiable en tareas de agencia y mejor para detectar sus propios errores. El modelo está disponible inmediatamente al mismo precio que su predecesor, 5 dólares por millón de tokens de entrada y 25 dólares por millón de tokens de salida, y se está implementando en todos los productos de Anthropologie, incluidos claude.ai, Claude Code y API.

Integridad de mejora del título. El antropólogo dice que Opus 4.8 tiene aproximadamente cuatro veces menos probabilidades que Opus 4.7 de tener errores en el código que escribió sin marcar. Los primeros evaluadores informaron que el modelo estaba dispuesto a señalar la incertidumbre sobre su trabajo y era menos probable que hiciera afirmaciones sin fundamento, un problema persistente en todos los modelos de IA que tienden a proyectar confianza a pesar de la confirmación.

Ganancias de referencia en todos los ámbitos

Opus 4.8 supera a su predecesor en los puntos de referencia publicados por Anthropic. En codificación agentic (Terminal-Bench 2.1), la puntuación aumentó del 64,3% al 69,2%. El razonamiento multidisciplinario con herramientas mejoró del 54,7% al 57,9%. El uso agente de la computadora pasó del 82,8% al 83,4% y la puntuación de la tarea de conocimiento aumentó de 1.753 a 1.890.

Espacio de coworking de TNW City: donde ocurre tu mejor trabajo

Un espacio de trabajo diseñado para el crecimiento, la colaboración y un sinfín de oportunidades de networking en el corazón de la tecnología.

La evaluación de alineación de Anthropic encontró que Opus 4.8 alcanzó nuevas alturas en medidas de atributos sociales, incluido el apoyo a la autonomía del usuario y actuar en el mejor interés del usuario. Las tasas de comportamiento aberrante, como el engaño o la cooperación con el abuso, son considerablemente más bajas que en Opus 4.7 y son comparables a Claude Mythos Preview, el modelo mejor alineado de Anthropic.

Los primeros evaluadores ven beneficios prácticos

El lanzamiento va acompañado de la aprobación de la empresa que ya utiliza el modelo. Cognition, la compañía detrás del agente de codificación de IA Devin, dice que Opus 4.8 utiliza herramientas de manera limpia y soluciona problemas de verbosidad de comentarios y llamadas de herramientas presentes en Opus 4.7. Cursor, el editor de código impulsado por IA, informó mejoras en todos los niveles de esfuerzo en su evaluación CursorBench.

Harvey, que desarrolla inteligencia artificial para trabajos legales, dijo que el Opus 4.8 obtuvo el puntaje más alto jamás registrado en su punto de referencia de Agente Legal y fue el primer modelo en superar el 10% en general en el estándar de aprobación total. Databricks informa que Opus 4.8 maneja consultas de varios pasos más profundas en su agente Genie AI más rápido, con un consumo de tokens un 61% menor que Opus 4.7.

Thomson Reuters dijo que el co-abogado ha visto mejoras significativas en la coherencia legal y la calidad de los argumentos. Hebbia, que desarrolla inteligencia artificial para el análisis de documentos financieros, observó una mayor precisión de las cotizaciones y una mayor eficiencia de los tokens en las tareas de recuperación.

Nuevas características junto al modelo.

Anthropic presenta varias funciones junto con Opus 4.8. Un nuevo esfuerzo en claude.ai y Cowork permite a los usuarios de control elegir cuánto cálculo aplica la nube a una respuesta, intercambiando velocidad con calidad. Cloud Code obtiene una función de flujo de trabajo dinámico que le permite programar trabajos y ejecutar cientos de subagentes paralelos en una sola sesión, lo que permite migraciones a escala de código base a través de cientos de miles de líneas de código.

Para los desarrolladores, la API de mensajes ahora acepta entradas del sistema dentro de la matriz de mensajes, lo que permite actualizar las instrucciones a mitad de la tarea sin romper el caché de mensajes. El modo rápido para Opus 4.8, que funciona 2,5 veces más rápido, es ahora tres veces más barato que los modelos anteriores.

Los mitos son grandes historias.

Es posible que más adelante lleguen anuncios más importantes. Anthropic dijo que planea lanzar una nueva clase de modelos con mayor inteligencia que Opus, basada en la arquitectura Claude Mithos. Un pequeño número de organizaciones ya están utilizando Cloud Mythos Preview a través del Proyecto GlassWing, una iniciativa centrada en utilizar el modelo para el trabajo de ciberseguridad. Anthropologie y casi 50 socios, incluidos Apple, Google, Microsoft y Amazon Web Services, utilizaron Mythos Preview para encontrar más de 10.000 vulnerabilidades de gravedad alta o crítica en infraestructura de software crítica.

Los modelos de clase Mythos requieren una sólida ciberseguridad antes de su lanzamiento general, dijo Anthropic, pero la compañía espera implementarlos para todos los clientes en las próximas semanas. El modelo se encuentra en un nivel de potencia total superior al Opus 4.7 y puede encontrar de forma autónoma vulnerabilidades de día cero y crear exploits para ellas, lo que explica tanto el entusiasmo como la precaución que rodean su implementación.

Una empresa que se acerca al billón de dólares

El lanzamiento de Opus 4.8 se produce mientras la valoración de Anthropic sigue aumentando. La compañía anunció una ronda Serie H de 65 mil millones de dólares el mismo día con una valoración posterior al dinero de 965 mil millones de dólares, frente a la valoración de 380 mil millones de dólares con la que cerró una Serie G de 30 mil millones de dólares en febrero. Los ingresos crecen de aproximadamente mil millones de dólares a finales de 2024 a una tasa de ejecución anualizada de aproximadamente 30 mil millones de dólares en 2026, impulsados por la adopción empresarial de Claude.

Anthropic también abrió una nueva oficina en Milán el 28 de mayo, la sexta en Europa, y nombró a Kiyoung Choi como director representante de Corea antes de abrir una oficina en Seúl. La expansión refleja la creciente demanda de Claude en el mercado empresarial fuera de Estados Unidos.

Panorama competitivo

Opus 4.8 ingresa a un mercado donde el ritmo de lanzamiento de modelos se ha acelerado drásticamente. OpenAI presentó GPT-5.5 como su primer modelo base completamente reentrenado desde GPT-4.5, y GPT-5.4 estableció nuevos récords en puntos de referencia profesionales a principios de este año. Google ha invertido hasta 40 mil millones de dólares en Anthropic pero continúa desarrollando su propio modelo Gemini. El mercado fronterizo de la IA se ha consolidado en una carrera a tres bandas entre Anthropic, OpenAI y Google, en la que cada empresa lanza actualizaciones incrementales de modelos a un ritmo cada vez mayor.

Para Anthropic, la diferencia que intenta marcar con el Opus 4.8 no es la potencia bruta sino la confiabilidad. Un modelo que puede detectar sus propios errores, señalar sus incertidumbres y seguir instrucciones de manera consistente es más efectivo en flujos de trabajo agentes donde los sistemas de IA operan con supervisión humana limitada. Si mantiene esa posición durante la llegada de los modelos de clase Mythos, que prometen mayor inteligencia con nuevas limitaciones de seguridad, determinará si Anthropic puede mantener su dominio en el mercado empresarial.

Source link

Redacción - ACN 3 horas hace

0 4 5 minutos de lectura