DeepL presenta la traducción de voz a voz en tiempo real en más de 40 idiomas


La empresa de traducción con sede en Colonia, más conocida por sus herramientas de texto, ha presentado un conjunto completo de productos de voz que cubre reuniones, conversaciones, configuraciones de grupo y una API para la integración empresarial. Una demostración en vivo en Seúl mostró retrasos de una a dos oraciones, y el CPO de DPL admite que las diferencias en el orden de las palabras entre idiomas siguen siendo un desafío fundamental.
Dipl, la empresa de inteligencia artificial lingüística con sede en Colonia que construyó su reputación gracias a la traducción de textos de alta calidad, lanzó Dipl Voice-to-Voice: una suite de traducción hablada en tiempo real diseñada para comunicaciones comerciales en vivo.
El producto cubre cuatro casos de uso distintos, reuniones virtuales, conversaciones móviles y web, configuraciones de grupo para trabajadores de primera línea a través de una API y aplicaciones empresariales, y admite los 24 idiomas oficiales de la UE y más de 40 idiomas, incluidos vietnamita, tailandés, árabe, noruego, hebreo, bengalí y tagalo.
Los cuatro componentes de la suite se encuentran en distintas etapas de disponibilidad. Voice for Conversation, que permite la traducción en tiempo real a través de dispositivos móviles y web sin necesidad de instalar la aplicación, ya está disponible de forma generalizada.
Espacio de coworking de TNW City: donde ocurre tu mejor trabajo
Un espacio de trabajo diseñado para el crecimiento, la colaboración y un sinfín de oportunidades de networking en el corazón de la tecnología.
Voice for Meetings, que se integra con Microsoft Teams y Zoom para que los participantes puedan hablar en su idioma nativo mientras otros los escuchan traducidos simultáneamente, lanzará un programa de acceso temprano en junio.
La API Voz a Voz, que permite a las empresas integrar el motor de traducción de DPL en sus propias aplicaciones orientadas al cliente, como centros de llamadas, se encuentra en acceso temprano. Está previsto que el 7 de mayo esté disponible de forma general una función de personalización, Términos hablados, que permite al sistema aprender vocabulario específico de la industria, nombres de empresas y nombres personales.
Jarek Kutilowski, fundador y director ejecutivo de DPL, describió el lanzamiento como un logro "Otra frontera en traducción".
"DeepL Voice-to-Voice permite que todos hablen de forma natural en su propio idioma sin la fricción ni el gasto de un intérprete". el dijo
DeepL ha posicionado el producto como una herramienta empresarial en lugar de una herramienta de consumo: la compañía dice que su tecnología de voz nunca utiliza datos de clientes para entrenar sus modelos y no almacena datos de transcripción o traducción permanentemente después de finalizar una llamada, un marco de seguridad que la distingue de los productos de voz de IA de consumo y está dirigido a la industria regulada.
El sistema actual funciona a través de un proceso de tres pasos: la voz se convierte en texto, el texto se traduce utilizando el motor de traducción establecido de DPL y la salida se convierte nuevamente en voz.
El argumento competitivo de DPL se basa en la calidad del paso intermedio: la compañía dice que sus modelos de traducción de textos superan a las alternativas y promueve esa ventaja a través de la salida de voz.
En evaluaciones ciegas encargadas por DeepL y realizadas de forma independiente por la firma de investigación de la industria lingüística Slater, el 96 % de los lingüistas profesionales prefirieron DeepL Voice a las soluciones de traducción nativas en Google Meet, Microsoft Teams y Zoom, citando una fluidez superior y precisión contextual. DPL obtuvo una puntuación de 96,4 sobre 100 para Voice Zoom y 96,3 para Microsoft Teams.
Sin embargo, una demostración en vivo realizada por el Director de Producto Gonzalo Gaiolas en el evento DPL Connect Seúl de la compañía el 15 de abril expuso la limitación actual del sistema: un retraso visible de una o dos oraciones entre el final del orador y la entrega de la traducción.
Gaols reconoció la brecha directamente. "Los diferentes idiomas tienen diferente orden de palabras y estructura de oraciones, lo que provoca retrasos en la interpretación en tiempo real". Dijo, según el Diario Económico de Seúl.
La empresa planea reducir la latencia mediante el desarrollo continuo de modelos. En términos de calidad de voz, el sistema actual traduce mediante voz sintética fija; DPL dice que planea lanzar una función de preservación de voz para fines de 2026, que preserva las características de voz originales del hablante en la salida traducida.
DPL está entrando en un mercado con múltiples competidores bien financiados. Sanus, que utiliza inteligencia artificial para cambiar la pronunciación de los hablantes en tiempo real para aplicaciones de centros de llamadas, ha recaudado 65 millones de dólares en una ronda liderada por Quadrill Capital.
Camb.AI, con sede en Dubai, se centra en la síntesis de voz y la traducción para doblaje de medios. Palabra, respaldada por Seven Seven Six del cofundador de Reddit, Alexis Ohanian, está desarrollando un motor de traducción de voz en tiempo real centrado en preservar las características de la voz del hablante.
Si bien Google, Microsoft y Zoom ofrecen sus propias funciones de traducción de reuniones, DPL es a la vez desafiante y unificador. La apuesta estratégica de DPL es que la calidad de la traducción, su diferenciador más antiguo, pueda superar las ventajas estructurales de los tradicionales en la distribución de plataformas.



