Qwen3-Omni是新一代原生全模态大模型,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。我们引入了多种架构升级来提升模型表现和效率。
主要特点:
原生全模态:Qwen3-Omni是原生全模态大模型,预训练全模态不降智。
强大的性能:Qwen3-Omni在36项音频及音视频基准测试中斩获32项开源SOTA与22项总体SOTA,超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等闭源强模型,同时其图像和文本性能也在同尺寸模型中达到SOTA水平。
多语言:Qwen3-Omni支持119种文本语言 交互、19种语音理解语言与 10种语音生成语言。
更快响应:Qwen3-Omni纯模型端到端音频对话延迟低至211ms,视频对话延迟低至507ms。
长音频:Qwen3-Omni支持长达30分钟音频理解。
个性化:Qwen3-Omni支持system prompt随意定制,可以修改起回复风格,人设等。
工具调用:Qwen3-Omni支持Function Call,实现与外部工具/服务的高效集成。
开源通用音频Captioner:开源Qwen3-Omni-30B-A3B-Captioner, 低幻觉且非常详细的通用音频caption模型,填补开源社区空白。