ByteDance presenta Seedance 2.5, un modelo de video AI 4K nativo de 30 segundos que acepta 50 entradas de referencia

TL; DR
ByteDance anunció Seidance 2.5 en su conferencia de Beijing, que genera video 4K nativo de 30 segundos a partir de 50 entradas de referencia multimodal.
ByteDance presentó la Session 2.5 en su conferencia Vulcano Engine Force en Beijing el martes, un modelo de generación de video que genera clips de 30 segundos con una resolución nativa de 4K a partir de un solo mensaje. La compañía se ha saltado por completo cuatro versiones intermedias, saltando directamente de su predecesor en lo que describe como un salto generacional.
Ya está disponible una versión beta empresarial, cuyo lanzamiento público está previsto para principios de julio. El director ejecutivo, Liang Rubo, dijo en la conferencia que llegar a la cumbre de la IA es la principal prioridad de la compañía, y que su negocio de modelo como servicio se ha convertido en una operación fundamental respaldada por inversiones a largo plazo.
La actualización principal son las capacidades de referencia: el modelo acepta 50 entradas multimodales, incluidas imágenes, clips de audio, modelos en blanco 3D y referencias de estilo, frente a las 12 de su predecesor. Estas entradas le dan a Sessions 2.5 un control mucho más granular sobre el estilo, la velocidad y la composición que las indicaciones de texto solas.
Espacio de coworking de TNW City: donde ocurre tu mejor trabajo
Un espacio de trabajo diseñado para el crecimiento, la colaboración y un sinfín de oportunidades de networking en el corazón de la tecnología.
El modelo genera de forma nativa en 4K en lugar de escalar desde resoluciones más bajas, una diferencia que es importante para los procesos de producción profesional. Admite una profundidad de color de 10 bits para lograr degradados suaves y más espacio para la gradación de color en posproducción. ByteDance también afirma tener una adherencia rápida un 20 por ciento mejor, lo que significa menos generación antes de obtener resultados utilizables.
El audio ahora se coprocesa con la misma latencia que las señales visuales, creando una sincronización nativa entre las acciones en pantalla y sus correspondientes efectos de sonido. Una nueva función de vista previa de caja blanca 3D permite a los creadores crear animaciones de baja fidelidad antes de comprometerse con una renderización de calidad total. Juntas, las características posicionan al modelo como una herramienta de producción más que como un generador de innovación.
El anuncio se produce tres meses después de que ByteDance se viera obligado a agregar marcas de agua y una barrera de propiedad intelectual a Sessions 2.0 luego de cartas de cese y desistimiento de Disney, Warner Bros. Discovery, Paramount y Netflix. Un deepfake viral de Tom Cruise peleando con Brad Pitt en una azotea generó una queja formal de la Motion Picture Association y una reprimenda de SAG-AFTRA.
ByteDance detuvo el lanzamiento global a mediados de marzo y no lo reanudó hasta finales de marzo con capcuts que incluyen filtros de bloqueo de rostros, marcas de agua C2PA y detección de caracteres con derechos de autor. No se dio un cronograma para que el nuevo modelo esté disponible en los EE. UU.
El panorama competitivo ha cambiado drásticamente desde febrero. OpenAI cerró Sora en marzo después de que la herramienta de vídeo alcanzara un máximo de casi un millón de usuarios y, según se informa, su funcionamiento costara alrededor de 1 millón de dólares al día, generando poco más de 2 millones de dólares en ingresos totales.
Veo 3.1 de Google prácticamente llena el vacío, ofreciendo salida 4K nativa, generación de audio y tres imágenes de referencia para control de estilo. Pero el nuevo modelo ByteDance supera significativamente las capacidades de entrada de referencia del Veo, aceptando 50 entradas frente a las tres del Veo, una brecha crítica para los flujos de trabajo profesionales.
El mercado de generación de videos con IA se ha fragmentado rápidamente, y los modelos chinos se mueven más rápido en herramientas de producción que los competidores occidentales. Las plataformas de terceros, como AI Studio de Reallusion, ya crearon canales profesionales en torno al modelo predecesor, y la herramienta de cuarta generación de Runway abandonó el top 10 de análisis artificial.
La pregunta central es si el nuevo modelo puede llegar a los mercados globales sin revivir las guerras de derechos de autor que paralizaron a su predecesor. ByteDance tiene el modelo, la distribución a través de los 400 millones de usuarios activos mensuales de Capcut y la integración vertical desde la generación hasta la edición y el intercambio. Lo que todavía le falta es un acuerdo con Hollywood, y cada característica que hace que el modelo sea más capaz aumenta el riesgo de que ese conflicto no se resuelva.




