发帖
 找回密码
 立即注册
搜索
0 0 0
日常闲聊 205 0 昨天 09:52

Qwen3-Omni是新一代原生全模态大模型,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。我们引入了多种架构升级来提升模型表现和效率。
主要特点:
原生全模态:Qwen3-Omni是原生全模态大模型,预训练全模态不降智。
强大的性能:Qwen3-Omni在36项音频及音视频基准测试中斩获32项开源SOTA与22项总体SOTA,超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等闭源强模型,同时其图像和文本性能也在同尺寸模型中达到SOTA水平。
多语言:Qwen3-Omni支持119种文本语言 交互、19种语音理解语言与 10种语音生成语言。
更快响应:Qwen3-Omni纯模型端到端音频对话延迟低至211ms,视频对话延迟低至507ms。
长音频:Qwen3-Omni支持长达30分钟音频理解。
个性化:Qwen3-Omni支持system prompt随意定制,可以修改起回复风格,人设等。
工具调用:Qwen3-Omni支持Function Call,实现与外部工具/服务的高效集成。
开源通用音频Captioner:开源Qwen3-Omni-30B-A3B-Captioner, 低幻觉且非常详细的通用音频caption模型,填补开源社区空白。

──── 0人觉得很赞 ────

使用道具 举报

终于出来了 有点厉害
不得不说,阿里的模型可真不少。
其实之前qwen就有qwen2.5omni7b ,它也是原生多模态的,用起来还挺不错,就是参数稍微小了点儿。  
阿里确实厉害啊
前排前排,让我瞅瞅
看起来真不错啊
终于……终于……Qwen终于有原生多模态了!
你知道这一天我等了多久吗?一年啊!整整一年啊!
啥时候能上市啊?
价格怎么样?
我就关心这个。
您需要登录后才可以回帖 立即登录
高级模式