El motivo del nuevo modelo de imagen de OpenAI es antes del dibujo.

0 3 5 minutos de lectura

El nuevo modelo razona sobre la composición, busca contexto en la web, crea hasta ocho imágenes coherentes a partir de un mensaje y representa texto en escrituras no latinas con una precisión casi perfecta. Ocupó el puesto número uno en la clasificación de Image Arena dentro de las 12 horas posteriores al lanzamiento, por el margen más grande jamás registrado.

Hace dos años, pedirle a ChatGP que creara una imagen era como pedirle a un pasante con falta de sueño que creara un cartel con una barra de pegamento y golpes en la cabeza. Pides un diseño limpio y "creatividad residual" en la imagen, junto con tres palabras nuevas que parecen inventadas durante un problema menor de software.

Las imágenes parecían generadas por IA de una manera que se convirtió en una abreviatura cultural de lo sobrenatural: casi correctas, obviamente incorrectas y reconocibles al instante como sintéticas.

El salto es importante. La persistente y vergonzosa vulnerabilidad del generador de imágenes con IA de renderizado de texto DALL-E llamó la atención por primera vez en enero de 2021, cuando modelamos cubierto en el tiempo Como curiosidad interesante.

Image 2.0 afirma tener alrededor del 99% de precisión en la representación de texto en cualquier idioma y escritura, incluidos japonés, coreano, chino, hindi y bengalí. Si esta imagen resiste las pruebas independientes, cerrará la brecha entre una "impresionante demostración de IA" y una "herramienta que un diseñador gráfico realmente usaría para el trabajo de producción".

Los cambios arquitectónicos que hacen que el modelo sea diferente, aunque no sólo mejor, son lo que OpenAI llama "poder de pensamiento". Image 2.0 es el primer modelo de imagen de la empresa que integra su arquitectura de razonamiento O-Series.

Antes de crear un píxel, el modelo investiga indicaciones, planifica composiciones, factores en las relaciones espaciales entre elementos y puede buscar en la web contexto en tiempo real.

En el marco de OpenAI no es una herramienta de renderizado sino una "Socios de pensamiento visual".

ChatGPT Imagen 2

Este es mi gato convertido en tira cómica con ChatGPT.

En la práctica, esto se manifiesta en dos modos de acceso. El modo instantáneo se envía a todos los usuarios de ChatGPT con cuentas de nivel gratuito y ofrece mejoras de calidad clave: mejor texto, edición más nítida y diseños más completos.

Thinking Mode, que permite la búsqueda web, el procesamiento por lotes de múltiples imágenes y la verificación de salida, está limitado a clientes Plus ($20/mes), Pro ($200/mes), Business y Enterprise.

La diferencia es comercialmente significativa. La capacidad de razonar, donde residen la mayoría de las primas de calidad, se encuentra detrás de un muro de pago. Los usuarios gratuitos obtienen mejores fotografías; Los usuarios pagos obtienen imágenes de lo que piensa el modelo.

La capacidad de múltiples imágenes es la característica que con mayor probabilidad cambiará los flujos de trabajo profesionales. Un solo mensaje ahora puede crear hasta ocho imágenes que mantienen la coherencia de personajes y objetos en todos los conjuntos.

Esto significa que un diseñador puede crear una familia de recursos de redes sociales, una secuencia de libros para niños o una serie de fotogramas de guiones gráficos a partir de una instrucción, con una identidad visual consistente en todo momento.

Anteriormente, cada imagen tenía que mostrarse individualmente y unirse manualmente. Para los equipos de marketing y creadores de contenido, esto supone una reducción significativa de la fricción en la producción.

Integración entre CódiceEntorno de codificación de OpenAI, pasos estratégicamente cargados. Los desarrolladores y diseñadores ahora pueden crear maquetas de UI, prototipos y recursos visuales dentro del mismo espacio de trabajo agente para código, diapositivas y automatización del navegador mediante una única suscripción a ChatGPT.

Los modelos de imágenes ya no son un producto independiente; Es una capacidad integrada en la plataforma más grande de OpenAI, que no solo compite con Midjourney y Google. nanoarte 2 en calidad pero con Canva y Figma en integración de flujo de trabajo.

El rendimiento de referencia es impresionante. A las 12 horas de su lanzamiento, Image 2.0 ocupó el puesto número uno Tabla de clasificación de la arena de imágenes En cada categoría, tiene una ventaja de +242 puntos sobre el modelo que ocupa el segundo lugar, el Nano Banana 2 de Google, con una puntuación de 1.512. Esta es la mayor ventaja jamás registrada en la clasificación.

Durante la mayor parte de 2026, OpenAI y Google han estado negociando la primera posición por un estrecho margen; La imagen 2.0 se desprende decisivamente.

DALL-E 2 y DALL-E 3 se depreciarán y retirarán el 12 de mayo de 2026. GPT-Image-1.5, lanzado como una actualización provisional en diciembre de 2025, seguirá siendo accesible a través de API para integraciones heredadas, pero ya no es el modelo predeterminado.

OpenAI no ha revelado la arquitectura de Image 2.0, describiéndola únicamente como un "modelo generalista" o "GPT para imágenes" y negándose a especificar si utiliza un enfoque de difusión, autorregresivo o híbrido. El identificador del modelo API es gpt-image-2; Se espera que la API esté abierta a los desarrolladores a principios de mayo de 2026.

El precio basado en tokens es de $8 por millón de tokens para entrada de imágenes, $2 para entrada de caché y $30 para salida de imágenes, con costos por imagen que generalmente oscilan entre $0,04 y $0,35 dependiendo de la complejidad y resolución del mensaje. La resolución de salida alcanza hasta 2K.

El límite de conocimiento es diciembre de 2025, lo que introduce un límite práctico: el modelo no puede representar con precisión eventos, personas o productos que aparecen después de esa fecha sin complementar su conocimiento interno con búsquedas web en vivo.

La arquitectura de seguridad del modelo incluye filtrado de contenido, metadatos C2PA para la originación y lo que la conferencia de prensa de OpenAI describió como monitoreo continuo, enfatizó específicamente la compañía, del creciente escrutinio regulatorio de los medios sintéticos y el uso de generadores de imágenes de IA en deepfakes, estafas e imágenes no contextuales.

La pregunta más fructífera que plantea la Figura 2.0 no es la calidad. La brecha tecnológica entre las imágenes generadas por IA y las generadas por humanos se ha ido reduciendo a lo largo de los años; Este modelo lo reduce aún más.

La pregunta es cuándo la herramienta ya no es innovación sino infraestructura, cuándo la creación de imágenes es una capacidad predeterminada de cada entorno de codificación, cada interfaz de chat y cada suite de productividad empresarial, y cuándo la distinción entre "diseñado por una persona" y "generado por un mensaje" se convierte en algo que sólo los metadatos pueden verificar.

OpenAI, por su parte, parece apostar a que la respuesta es la escala: más imágenes, más rápido, mejor, más barato, en todas partes. Cuando cubrimos la primera DALL-E cubierto Hace cinco años, el resultado del modelo era una rareza interesante. Ahora son activos productivos.

La era en la que las imágenes generadas por IA eran claramente generadas por IA ha terminado. Lo que viene a continuación depende de si las barreras de seguridad pueden mantener el ritmo de su capacidad.

Source link

Redacción - ACN 2 horas hace

0 3 5 minutos de lectura