Qwen发布Qwen3-Omni全模态大模型宣传视频

日常闲聊 · 4 小时前

Qwen3-Omni是新一代原生全模态大模型，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音合成输出。我们引入了多种架构升级来提升模型表现和效率。
主要特点：
原生全模态：Qwen3-Omni是原生全模态大模型，预训练全模态不降智。
强大的性能：Qwen3-Omni在36项音频及音视频基准测试中斩获32项开源SOTA与22项总体SOTA，超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等闭源强模型，同时其图像和文本性能也在同尺寸模型中达到SOTA水平。
多语言：Qwen3-Omni支持119种文本语言交互、19种语音理解语言与 10种语音生成语言。
更快响应：Qwen3-Omni纯模型端到端音频对话延迟低至211ms，视频对话延迟低至507ms。
长音频：Qwen3-Omni支持长达30分钟音频理解。
个性化：Qwen3-Omni支持system prompt随意定制，可以修改起回复风格，人设等。
工具调用：Qwen3-Omni支持Function Call，实现与外部工具/服务的高效集成。
开源通用音频Captioner：开源Qwen3-Omni-30B-A3B-Captioner, 低幻觉且非常详细的通用音频caption模型，填补开源社区空白。

东来西往 · 3 小时前

终于出来了有点厉害

fans2006 · 3 小时前

不得不说，阿里的模型可真不少。

黑水火 · 3 小时前

其实之前qwen就有qwen2.5omni7b ，它也是原生多模态的，用起来还挺不错，就是参数稍微小了点儿。

maojianmi · 2 小时前

阿里确实厉害啊

粉望 · 2 小时前

前排前排，让我瞅瞅

tzwd873 · 29 分钟前

看起来真不错啊

		自动登录	找回密码
密码			立即注册

交流Qwen发布Qwen3-Omni全模态大模型宣传视频

相关帖子