Por qué la IA es el próximo salto en la enseñanza de videos a los avatares para ver y oír

0 4 4 minutos de lectura

TL; DR

El vídeo con IA está pasando de una carrera de fidelidad a una carrera de interactividad. Una nueva clase de modelos de avatar interactivos se puede clasificar en tres niveles: Nivel 1 (hablar), Nivel 2 (hablar y escuchar) y Nivel 3 (hablar, escuchar y ver). El salto del Nivel 1 al Nivel 2, donde un avatar aprende a escuchar y responder en tiempo real, es el avance que convierte una cara parlante en un conversador creíble.

En los últimos años, los avances en video generativo y avatares de IA se han medido con una fidelidad casi total, y cada nuevo modelo ha logrado avances significativos al proporcionar detalles más nítidos, mejor física y movimientos más suaves empaquetados en clips más largos. Esa racha no ha terminado, pero está empezando a perderse el lado más interesante. El vídeo, como formato de medios en línea, está evolucionando de una experiencia estática similar a una transmisión a una experiencia más interactiva.

El software está cada vez más mediado por agentes en lugar de botones y menús, y para cualquier tarea que pueda nombrar, alguien está creando un agente para manejarla. Paralelamente, las arquitecturas híbridas que combinan métodos autorregresivos y de difusión se han convertido en una de las áreas más animadas de la investigación en vídeo. Y un conjunto cada vez mayor de equipos está considerando el vídeo interactivo como base para una clase de aplicación completamente nueva, desde simulaciones de mundo abierto hasta diálogos en vivo. Si los juntamos, la conclusión es bastante clara: la interactividad, no la resolución, se está convirtiendo en la frontera.

Como resultado, está surgiendo una nueva categoría de modelos de vídeo cuya tarea es crear un agente parlante que reaccione ante un ser humano en tiempo real, con un retraso lo suficientemente bajo como para mantener una conversación normal, normalmente en un segundo. De manera similar a cómo los automóviles autónomos se definen mediante seis niveles de automatización, estos modelos de avatar interactivos vienen en tres niveles de interactividad definidos por sus capacidades tecnológicas.

💜 de tecnología de la UE

Los últimos rumores de la escena tecnológica de la UE, una historia de nuestro sabio fundador Boris y algo de arte de inteligencia artificial dudoso. Es gratis, todas las semanas, en tu bandeja de entrada. ¡Regístrate ahora!

Un sistema de Nivel 1 puede hablar. Funciona completamente con su propio audio y no tiene conciencia de la persona que tiene delante. Casi todos los sistemas de avatar parlante disponibles hoy en día alcanzan este nivel de rendimiento. Es un problema generacional unidireccional: al dar discurso se crea una boca que habla racionalmente.

Un sistema de capa 2 puede hablar y escuchar. Toma el audio del usuario además del suyo propio y reacciona cuando la otra persona habla. Estas respuestas incluyen pequeñas señales visuales que hacen los oyentes reales, como acuerdo o cambios en la expresión, y una vocalización breve.MmmPara mostrar reconocimiento. Este es un problema fundamentalmente más difícil que el Nivel 1, porque el modelo ya no se desarrolla de forma aislada. Tiene que interpretar una señal entrante y responder a ella continuamente en el tiempo.

Un sistema de capa 3 puede hablar, oír y ver. Además del audio, toma la señal de la cámara del usuario, por lo que puede responder a la postura, los gestos y las expresiones faciales a medida que las personas se adaptan entre sí en las videollamadas.

La razón por la que queremos evolucionar más allá del modelo de nivel 1 es hacer que un avatar que habla sin darse cuenta de la persona con la que está hablando parezca vivo en lugar de reactivo. Se mueve cuando hablas, a menudo de maneras que no tienen nada que ver con lo que estás diciendo, y el efecto es sorprendente o incómodo. En comparación con un sistema de conversación de solo audio, que al menos permanece silencioso y concentrado cuando estás hablando, un avatar que no es audiencia a veces puede sentirse peor que ningún avatar.

Por eso es tan importante el salto del nivel 1 al nivel 2. Convierte una cara parlante en algo que parece una réplica para que un avatar suene sólido. Esto es más difícil de lograr de lo que parece, porque la audición no es del todo visible. La voz, el momento de una interrupción, un amago de reconocimiento, una pausa de medio segundo antes de una respuesta transmiten una sensación de compromiso tanto como un empujón. El enfoque ingenuo consiste en atornillar un sistema de voz conversacional a un modelo de vídeo dentro de una pila. Un camino más prometedor es modelar conjuntamente el audio y el movimiento, aprendiendo cómo la voz y el movimiento se moldean mutuamente en tiempo real. La lección de los recientes modelos de vídeo multimodal es que predecir ambos métodos juntos es a menudo donde el realismo cruza un umbral en lugar de avanzar.

Los modelos de avatar de nivel 3 pueden usar la transmisión de video de la cámara de una persona para crear la mejor experiencia de conversación que replica perfectamente una videollamada. Por ejemplo, imagina que estás hablando con alguien; Si se levanta y se aleja, naturalmente dejarás de hablar porque es una señal clara de que la conversación ha terminado. Por lo tanto, los avatares interactivos de Nivel 3 no sólo reaccionan a las emociones o la voz de una persona, sino también a lo que el usuario está haciendo. Como resultado, pueden modelar completamente las interacciones entre humanos.

Llegar al Nivel 3 es uno de los problemas más ambiciosos en la investigación de video aplicada, y llegar allí requiere un trabajo complejo y sostenido en datos, modelos e ingeniería de sistemas, algo en lo que Synthesia tiene un excelente historial.

Source link

Redacción - ACN 2 horas hace

0 4 4 minutos de lectura

Por qué la IA es el próximo salto en la enseñanza de videos a los avatares para ver y oír

TL; DR

Redacción - ACN

Leer Siguiente

Getty cancela la fusión de Shutterstock por valor de 3.700 millones de dólares en términos del Reino Unido

Cloudflare AI da a los rastreadores una fecha límite de pago en septiembre

Anthropic está en conversaciones con Samsung para desarrollar un chip de IA personalizado

La filial de taxis aéreos autónomos de Boeing se enfrenta a una demanda de denunciante por las pruebas rápidas de software

Kling AI recaudó 2 mil millones de dólares después de que Quaysho escindiera su unidad de video AI

Lucid Motors reemplaza a su director financiero y renueva todo su equipo de liderazgo mientras un nuevo director ejecutivo remodela la empresa

Las ventas de Ford en EE. UU. en el segundo trimestre cayeron un 10,3%, las ventas de vehículos eléctricos cayeron un 40,7% y la escasez de aluminio afectó a las camionetas de la serie F.

Microsoft lanzó un negocio de implementación de IA de 2.500 millones de dólares con 6.000 ingenieros

Tesla entregó 480.126 vehículos en el segundo trimestre, superando los 406.000 que esperaba Wall Street.

Un modelo chino de IA barato se acerca a Anthropic y OpenAI

Getty cancela la fusión de Shutterstock por valor de 3.700 millones de dólares en términos del Reino Unido

Cloudflare AI da a los rastreadores una fecha límite de pago en septiembre

Anthropic está en conversaciones con Samsung para desarrollar un chip de IA personalizado

La filial de taxis aéreos autónomos de Boeing se enfrenta a una demanda de denunciante por las pruebas rápidas de software

Kling AI recaudó 2 mil millones de dólares después de que Quaysho escindiera su unidad de video AI

Lucid Motors reemplaza a su director financiero y renueva todo su equipo de liderazgo mientras un nuevo director ejecutivo remodela la empresa

Las ventas de Ford en EE. UU. en el segundo trimestre cayeron un 10,3%, las ventas de vehículos eléctricos cayeron un 40,7% y la escasez de aluminio afectó a las camionetas de la serie F.

Microsoft lanzó un negocio de implementación de IA de 2.500 millones de dólares con 6.000 ingenieros

Tesla entregó 480.126 vehículos en el segundo trimestre, superando los 406.000 que esperaba Wall Street.

Un modelo chino de IA barato se acerca a Anthropic y OpenAI

Deja una respuesta Cancelar la respuesta

SK Hynix gastará 51.000 millones de dólares en una nueva fábrica NAND para aprovechar la ola de memoria de IA

Ubotica e IBM llevan la implementación de IA con un solo clic a Board Satellite

Ecuador aumenta los cortes de energía hasta 14 horas diarias

Hombres armados atacan otro poblado en Haití

Enviado especial de Trump se reúne este viernes con Maduro

Cómo una periodista en Chile logró que un psicópata le confesara crímenes que habían permanecido ocultos durante casi 30 años

TL; DR

Leer Siguiente

Getty cancela la fusión de Shutterstock por valor de 3.700 millones de dólares en términos del Reino Unido

Cloudflare AI da a los rastreadores una fecha límite de pago en septiembre

Anthropic está en conversaciones con Samsung para desarrollar un chip de IA personalizado

La filial de taxis aéreos autónomos de Boeing se enfrenta a una demanda de denunciante por las pruebas rápidas de software

Kling AI recaudó 2 mil millones de dólares después de que Quaysho escindiera su unidad de video AI

Lucid Motors reemplaza a su director financiero y renueva todo su equipo de liderazgo mientras un nuevo director ejecutivo remodela la empresa

Las ventas de Ford en EE. UU. en el segundo trimestre cayeron un 10,3%, las ventas de vehículos eléctricos cayeron un 40,7% y la escasez de aluminio afectó a las camionetas de la serie F.

Microsoft lanzó un negocio de implementación de IA de 2.500 millones de dólares con 6.000 ingenieros

Tesla entregó 480.126 vehículos en el segundo trimestre, superando los 406.000 que esperaba Wall Street.

Un modelo chino de IA barato se acerca a Anthropic y OpenAI

Artículos Relacionados

Deja una respuesta Cancelar la respuesta