Google lanza Gemini Omni Flash, un modelo de generación de vídeo conversacional con modo avatar en la espalda

0 7 4 minutos de lectura

El primer modelo de la nueva familia Omni de DeepMind creará y editará vídeo a partir de cualquier combinación de entradas de imagen, audio, vídeo y texto. Se está desactivando la edición de voz; La marca de agua SynthID está activada de forma predeterminada.

Google Gemini lanzó Omni el martes En la conferencia de desarrolladores I/O 2026, Google DeepMind presentó una nueva familia de modelos multimodales diseñada para crear y editar videos a partir de cualquier combinación de entrada de imagen, audio, video y texto.

El primer modelo de la familia, Gemini Omni Flash, comenzó a implementarse el mismo día que la aplicación Gemini y Google Flow para los clientes de Google AI Plus, Pro y Ultra, y YouTube Shorts y la aplicación YouTube Create sin costo alguno. El acceso a la API para desarrolladores y clientes empresariales seguirá en las próximas semanas.

Koray Kavukcuoglu, CTO de Google DeepMind y arquitecto jefe de IA en Google, enmarca el producto de la siguiente manera: Omni "combina imágenes, audio, vídeo y texto como entrada y crea vídeos de alta calidad basados en el conocimiento del mundo real de Gemini". La entrada se puede mezclar en un solo mensaje.

Espacio de coworking de TNW City: donde ocurre tu mejor trabajo

Un espacio de trabajo diseñado para el crecimiento, la colaboración y un sinfín de oportunidades de networking en el corazón de la tecnología.

Las ediciones se realizan de forma interactiva y cada instrucción se basa en la anterior, de modo que los personajes, la física y el contexto de la escena se turnan. Los métodos de producción más allá del vídeo, incluida la generación de imágenes y audio, "están llegando con el tiempo", escribió Kavukuoglu en el blog de la empresa.

La posición de Omni, sobre los materiales publicados, se basa en tres afirmaciones. En primer lugar, el modelo tiene una comprensión intuitiva mejorada de las fuerzas físicas, incluida la gravedad, la energía cinética y la dinámica de fluidos, lo que le permite generar escenarios con una física más precisa.

En segundo lugar, se basa en el conocimiento mundial existente de Gemini para conectar el lenguaje, las imágenes y el significado más allá de la coincidencia de patrones, y la compañía muestra indicaciones que van desde explicaciones del plegamiento de proteínas con plastilina hasta pistas de física de reacción en cadena. En tercer lugar, la capa de edición de diálogos preserva la coherencia en la edición multifacética, mientras que los modelos de vídeo anteriores se basan en la identidad del personaje o la continuidad de la escena.

El lanzamiento amplía la familia Omni a la generación de avatares digitales. avatar Permita que los usuarios graben su propia voz y semejanza para crear videos que se vean y suenen como ellos; la incorporación requiere grabarse y pronunciar varios números en voz alta.

]Fuera de Avatar, Google claramente está posponiendo la edición de audio y voz de uso general dentro de Omni por ahora. "Todavía estamos trabajando para probar esto y comprender mejor cómo podemos llevar esta capacidad de manera responsable a los usuarios", escribió Kavukuoglu en un párrafo. Cobertura de terceros Se lee como un paso deliberado lejos del territorio adyacente a los deepfake de la edición de voz sin consentimiento.

Todos los vídeos creados con Omni serán transportados por Google sintetizador Las marcas de agua digitales son invisibles de forma predeterminada. Los usuarios pueden verificar si Omni creó un clip a través de la aplicación Gemini, Gemini en Chrome y la Búsqueda de Google, dijo la compañía.

La capa SynthID es la misma infraestructura de marca de agua. OpenAI se adoptó a principios de este año C2PA está bajo el estándar abierto y ahora se posiciona como el valor predeterminado en toda la industria para la procedencia visual generada por IA.

Según el límite inicial publicado, los clips de neumáticos flash están limitados a 10 segundos en el momento del lanzamiento, una decisión de implementación más que una limitación del modelo. El límite es más corto que el máximo de Sora de OpenAI de 60 segundos, donde Arquitectura de tokenización de parche espaciotemporal de Sora La comparación de modelos de frontera publicada más cercana.

Google no reveló la estructura de costos por clip, la huella informática por generación o el conjunto de pruebas comparativas que utilizó para evaluar Omni frente a modelos de terceros como Veo 3 o Seedance de ByteDance.

El Omni es el modelo principal de un anuncio más amplio de I/O 2026 que incluye Géminis 3.5 Y lo que Sundar Pichai llama la 'Era del Agente Géminis' Su publicación original. La pregunta estratégica para el modelo es si el flujo de edición conversacional de entrada múltiple es en realidad una nueva categoría de producto o una integración estricta de las capacidades ya demostradas en el campo más amplio del video fronterizo, con anuncios y lecturas inmediatas de los analistas.

El próximo punto de prueba visible será el lanzamiento de API para desarrolladores y clientes empresariales la próxima semana, donde la estructura de costos y el límite superior de duración del clip bajo un nivel determinado se harán públicos.

Lo que Google aún no ha revelado: la arquitectura del modelo Omni subyacente asociada con VO3, huella informática por generación, precios para clips más allá de la capa Flash, puntuaciones de referencia. Modelos de vídeo anteriores propios de DeepMind y ofertas de vanguardia de la competencia, y cronogramas para la edición de voz y audio de uso general dentro de la familia Omni.

El proceso de incorporación de avatar y la aplicación de SynthID son, en el anuncio, la respuesta oficial de la compañía a las preguntas sobre consentimiento y procedencia que plantea el lanzamiento.

Source link

Redacción - ACN 3 horas hace

0 7 4 minutos de lectura