OpenAI ha lanzado GPT-5.5, su primer modelo base completamente reentrenado desde GPT-4.5

0 5 4 minutos de lectura

El modelo, cuyo nombre en código es "Spud", está diseñado para completar tareas complejas de varios pasos con una mínima instrucción humana. Establece nuevos puntos de referencia en codificación agente, uso de computadoras y trabajo de conocimiento, al mismo tiempo que iguala la latencia por token de GPT-5.4. El acceso a la API se retrasa por motivos de seguridad adicionales.

Durante meses, el secreto a voces de la industria de la IA ha sido que la nube de Anthropic está conquistando el mercado empresarial. OpenAI se encuentra en lo que fuentes internas describen como un estado de "código rojo" hasta al menos diciembre de 2025, viendo el ARR de Anthropic pasar de $ 9 mil millones a $ 30 mil millones a medida que su propio posicionamiento B2B se erosiona.

El jueves, OpenAI respondió. GPT-5.5ChatGPT y Codex Plus, el primer modelo base completamente renovado de la compañía desde GPT-4.5, se están implementando para usuarios Pro, Business y Enterprise. tEl modelo está diseñado para completar tareas con guía humana limitada a través de correo electrónico, hojas de cálculo, calendarios y otras aplicaciones.

La claridad es la tesis principal de GPT-5.5. Mientras que los modelos anteriores requerían indicaciones cuidadosamente estructuradas y supervisión de varios pasos, OpenAI dice que 5.5 puede tomar un "tarea desordenada y de varias partes" Y planifique, utilice herramientas, pruebe su trabajo de forma independiente, navegue por la ambigüedad y continúe hasta terminar el trabajo.

Los avances se concentran en cuatro áreas: codificación agente, uso de computadoras, trabajo del conocimiento e investigación científica básica. OpenAI los describe como dominios "Donde el progreso depende del razonamiento en diferentes contextos y de la adopción de medidas a lo largo del tiempo".

💜 de tecnología de la UE

Los últimos rumores de la escena tecnológica de la UE, una historia de nuestro sabio fundador Boris y algo de arte de inteligencia artificial dudoso. Es gratis, todas las semanas, en tu bandeja de entrada. Regístrate ahora!

Las cifras de referencia son sólidas. GPT-5.5 alcanzó el 82,7 % en Terminal-Bench 2.0, que prueba flujos de trabajo de línea de comandos complejos que requieren planificación, iteración y coordinación de herramientas.

SWE-Bench Pro, que evalúa la resolución de problemas de GitHub en el mundo real en cuatro lenguajes de programación, obtuvo una puntuación del 58,6 %, resolviendo más tareas en una sola pasada que los modelos anteriores.

En GDPval, que evalúa a agentes en 44 ocupaciones de trabajo relacionado con el conocimiento, obtiene una puntuación del 84,9%. En OSWorld-Verified, que mide qué tan bien un modelo puede operar de forma autónoma en un entorno informático real, alcanzó el 78,7%.

En el sector de telecomunicaciones Tau2-bench, alcanza el 98,0% sin un ajuste rápido. Con todo, OpenAI dice que GPT-5.5 mejora la puntuación de GPT-5.4 y utiliza menos tokens.

Las afirmaciones de eficiencia son comercialmente significativas. Los modelos más grandes y con mayor capacidad suelen ser más lentos en su servicio, lo que genera una compensación entre costo y calidad para los clientes empresariales. OpenAI dice que GPT-5.5 coincide con la latencia por token de GPT-5.4 en el servicio del mundo real, lo que significa que proporciona un aumento gradual en la inteligencia sin el correspondiente aumento en el tiempo de respuesta.

Utiliza una cantidad significativamente menor de tokens para completar tareas equivalentes al Codex, lo que reduce directamente el costo por tarea para las implementaciones empresariales. GPT-5.5 cuesta más por token que GPT-5.4, pero OpenAI dice que el efecto neto son mejores resultados con costos totales más bajos en la mayoría de los flujos de trabajo.

El marco de seguridad es significativamente más cauteloso que los lanzamientos anteriores. OpenAI dijo que evaluó GPT-5.5 en su "conjunto completo de marcos de seguridad y preparación", trabajó con equipos internos y externos, agregó pruebas específicas para mejorar las capacidades de ciberseguridad y biología, y recopiló comentarios de casi 200 socios confiables de acceso temprano antes del lanzamiento.

La ciberseguridad es el ámbito donde la precaución es más visible: OpenAI describe la implementación "Clasificadores rígidos para posibles riesgos cibernéticos que algunos usuarios pueden encontrar inicialmente perturbadores."

La compañía reconoce que GPT-5.5 representa un avance significativo en las capacidades cibernéticas y proporciona seguridad avanzada como una inversión necesaria en implementaciones responsables.

Llamativamente ausente en el lanzamiento de la API. GPT-5.5 ahora está disponible para clientes pagos en ChatGPT y Codex, pero la implementación de API, dice OpenAI, "Diferentes necesidades de seguridad y estamos trabajando estrechamente con socios y clientes en los requisitos de seguridad para atenderlos a escala".

tPrometió acceso a la API de la empresa "muy pronto", pero no dio una fecha. Para los clientes empresariales que crean API en lugar de interfaces ChatGPT, este es un retraso significativo. GPT-5.5 Pro, una variante con lógica extendida, solo está disponible para clientes Pro, Business y Enterprise.

El contexto competitivo es evidente en cada decisión de diseño. GPT-5.5 es el modelo en el que OpenAI está construyendo su "superaplicación" de escritorio unificada, combinando ChatGPT, Codex y el agente del navegador Atlas en una sola sesión.

El modelo está diseñado para impulsar una lógica consciente de la intención dentro de ese espacio de trabajo unificado, una categoría de producto que no existía hace seis meses. GPT-5.2 Thinking estará disponible durante tres meses como opción heredada antes de retirarse el 5 de junio de 2026.

La aceleración de la cadencia de lanzamiento de modelos, GPT-5, 5.1, 5.2, 5.3-Codex, 5.4 y ahora 5.5 en menos de un año, refleja tanto el ritmo de desarrollo de la IA como la intensidad de la competencia de Anthropic, Google y el ecosistema de código abierto.

OpenAI no es pretencioso respecto a con quién compite. El encuadre de Bloomberg, un modelo de propósito "Mantente al día con rivales como Anthropic"El correcto.

GPT-5.5 es la señal más clara hasta ahora de que OpenAI ha internalizado la amenaza a la participación de mercado empresarial de Claude y está tratando de recuperar el segmento B2B con un modelo que realmente puede funcionar, no solo responder preguntas.

Que tenga éxito depende de si las mejoras en el rendimiento se mantienen en los flujos de trabajo de producción, si la API llega antes de que los clientes empresariales tomen su próxima decisión de adquisición y si los puntos de referencia de "Spud" pueden hacer lo que prometen si las indicaciones son confusas y las tareas son reales.

Source link

Redacción - ACN 5 horas hace

0 5 4 minutos de lectura