Qwen 隆重推出 Qwen3-LiveTranslate-Flash — 实时多模态传译 — 所见、所闻、所言,即时传译!
核心亮点:
多语言和方言:支持中文、英文、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语、印尼语、泰语、越南语、阿拉伯语、印地语、希腊语、土耳其语等主要官方语言和普通话、粤语、北京话、吴话、四川话、天津话的方言翻译。
视觉增强理解:引入视觉上下文增强技术,通过识别和利用口型、动作、文字、实体等多模态信息,有效应对嘈杂音频环境以及一词多译词场景下的翻译不准问题。
3秒延迟:轻量的混合专家架构与动态采样策略实现最低3秒延迟的同传体验。
无损同传:采用语义单元预测技术缓解跨语言翻译的调序问题,实现与离线翻译几乎无损的翻译质量。
音色自然:海量语音数据训练,可以根据原始语音内容自适应调节语气和表现力的拟人音色。
模型性能:
在公开测试集上中英及多语言语音翻译:

在不同领域和复杂声学环境下:

在实时场景中:

博客:https://qwen.ai/blog?id=4266edf7f3718f2d3fda098b3f4c48f3573215d0&from=home.latest-research-list
Dashscope:https://www.alibabacloud.com/help/en/model-studio/qwen3-livetranslate-flash-realtime
演示:https://huggingface.co/spaces/Qwen/Qwen3-Livetranslate-Demo
转载来源:https://x.com/Alibaba_Qwen/status/1970565641594867973