Meta ha presentado dos nuevas funciones para mejorar su modelo de traducción multimodal, SeamlessM4T, que ya soporta casi 100 idiomas para texto y 36 para voz. Estas funciones son SeamlessExpressive y SeamlessStreaming, que permiten conservar las expresiones y reducir la latencia de la traducción, respectivamente.
SeamlessExpressive
Esta función transfiere las expresiones del habla original al habla traducida, como el tono, el volumen, la emoción, el ritmo y las pausas. Así se consigue una traducción más natural y menos robótica, útil tanto para la comunicación cotidiana como para la producción de contenidos. Los idiomas soportados son inglés, español, alemán, francés, italiano y chino, aunque faltan el italiano y el chino en la página de demostración.
SeamlessStreaming
Esta función empieza a traducir el habla mientras el hablante aún está hablando, lo que permite escuchar la traducción más rápido. La latencia es de menos de dos segundos, lo que evita tener que esperar a que el hablante termine la frase. El reto es que los diferentes idiomas tienen diferentes estructuras de frase, por lo que Meta ha desarrollado un algoritmo que analiza el audio parcial para decidir cuándo empezar a generar la traducción.
Esta suite de “Comunicación Fluida” parece ser un avance impresionante, más que las herramientas de interpretación móvil de Google y Samsung. No se sabe cuándo el público podrá utilizar estas nuevas funciones, pero se puede imaginar que Meta las integrará en sus gafas inteligentes algún día, haciéndolas más prácticas que nunca.