Por qué la IA es el próximo salto en la enseñanza de videos a los avatares para ver y oír
TL; DR
El vídeo con IA está pasando de una carrera de fidelidad a una carrera de interactividad. Una nueva clase de modelos de avatar interactivos se puede clasificar en tres niveles: Nivel 1 (hablar), Nivel 2 (hablar y escuchar) y Nivel 3 (hablar, escuchar y ver). El salto del Nivel 1 al Nivel 2, donde un avatar aprende a escuchar y responder en tiempo real, es el avance que convierte una cara parlante en un conversador creíble.
En los últimos años, los avances en video generativo y avatares de IA se han medido con una fidelidad casi total, y cada nuevo modelo ha logrado avances significativos al proporcionar detalles más nítidos, mejor física y movimientos más suaves empaquetados en clips más largos. Esa racha no ha terminado, pero está empezando a perderse el lado más interesante. El vídeo, como formato de medios en línea, está evolucionando de una experiencia estática similar a una transmisión a una experiencia más interactiva.
El software está cada vez más mediado por agentes en lugar de botones y menús, y para cualquier tarea que pueda nombrar, alguien está creando un agente para manejarla. Paralelamente, las arquitecturas híbridas que combinan métodos autorregresivos y de difusión se han convertido en una de las áreas más animadas de la investigación en vídeo. Y un conjunto cada vez mayor de equipos está considerando el vídeo interactivo como base para una clase de aplicación completamente nueva, desde simulaciones de mundo abierto hasta diálogos en vivo. Si los juntamos, la conclusión es bastante clara: la interactividad, no la resolución, se está convirtiendo en la frontera.
Como resultado, está surgiendo una nueva categoría de modelos de vídeo cuya tarea es crear un agente parlante que reaccione ante un ser humano en tiempo real, con un retraso lo suficientemente bajo como para mantener una conversación normal, normalmente en un segundo. De manera similar a cómo los automóviles autónomos se definen mediante seis niveles de automatización, estos modelos de avatar interactivos vienen en tres niveles de interactividad definidos por sus capacidades tecnológicas.
Un sistema de Nivel 1 puede hablar. Funciona completamente con su propio audio y no tiene conciencia de la persona que tiene delante. Casi todos los sistemas de avatar parlante disponibles hoy en día alcanzan este nivel de rendimiento. Es un problema generacional unidireccional: al dar discurso se crea una boca que habla racionalmente.
Un sistema de capa 2 puede hablar y escuchar. Toma el audio del usuario además del suyo propio y reacciona cuando la otra persona habla. Estas respuestas incluyen pequeñas señales visuales que hacen los oyentes reales, como acuerdo o cambios en la expresión, y una vocalización breve.MmmPara mostrar reconocimiento. Este es un problema fundamentalmente más difícil que el Nivel 1, porque el modelo ya no se desarrolla de forma aislada. Tiene que interpretar una señal entrante y responder a ella continuamente en el tiempo.
Un sistema de capa 3 puede hablar, oír y ver. Además del audio, toma la señal de la cámara del usuario, por lo que puede responder a la postura, los gestos y las expresiones faciales a medida que las personas se adaptan entre sí en las videollamadas.
La razón por la que queremos evolucionar más allá del modelo de nivel 1 es hacer que un avatar que habla sin darse cuenta de la persona con la que está hablando parezca vivo en lugar de reactivo. Se mueve cuando hablas, a menudo de maneras que no tienen nada que ver con lo que estás diciendo, y el efecto es sorprendente o incómodo. En comparación con un sistema de conversación de solo audio, que al menos permanece silencioso y concentrado cuando estás hablando, un avatar que no es audiencia a veces puede sentirse peor que ningún avatar.
Por eso es tan importante el salto del nivel 1 al nivel 2. Convierte una cara parlante en algo que parece una réplica para que un avatar suene sólido. Esto es más difícil de lograr de lo que parece, porque la audición no es del todo visible. La voz, el momento de una interrupción, un amago de reconocimiento, una pausa de medio segundo antes de una respuesta transmiten una sensación de compromiso tanto como un empujón. El enfoque ingenuo consiste en atornillar un sistema de voz conversacional a un modelo de vídeo dentro de una pila. Un camino más prometedor es modelar conjuntamente el audio y el movimiento, aprendiendo cómo la voz y el movimiento se moldean mutuamente en tiempo real. La lección de los recientes modelos de vídeo multimodal es que predecir ambos métodos juntos es a menudo donde el realismo cruza un umbral en lugar de avanzar.
Los modelos de avatar de nivel 3 pueden usar la transmisión de video de la cámara de una persona para crear la mejor experiencia de conversación que replica perfectamente una videollamada. Por ejemplo, imagina que estás hablando con alguien; Si se levanta y se aleja, naturalmente dejarás de hablar porque es una señal clara de que la conversación ha terminado. Por lo tanto, los avatares interactivos de Nivel 3 no sólo reaccionan a las emociones o la voz de una persona, sino también a lo que el usuario está haciendo. Como resultado, pueden modelar completamente las interacciones entre humanos.
Llegar al Nivel 3 es uno de los problemas más ambiciosos en la investigación de video aplicada, y llegar allí requiere un trabajo complejo y sostenido en datos, modelos e ingeniería de sistemas, algo en lo que Synthesia tiene un excelente historial.





