Qwen 正式推出全新升级的 Qwen3-VL 系列 —— 这是迄今为止 Qwen 系列中最强大的视觉语言模型。
旗舰模型 Qwen3-VL-235B-A22B 现已开源,提供 Instruct 和 Thinking 两个版本:
Instruct 版本在关键视觉基准测试上超越 Gemini 2.5 Pro
Thinking 版本在多模态推理任务上达到业界领先水平(SOTA)
主要突破:
视觉代理:在 PC / 手机上操作 GUI—— 理解按钮、调用工具并完成真实世界任务(在 OS World 上达到 SOTA)
视觉编码:将屏幕截图转换为代码(HTML/CSS/JS,Draw.io)—— 真正的 “所见即所得” 开发
256K+ 上下文(可扩展到 1M)→ 支持 2 小时视频和多页长 PDF
32 种语言的 OCR,增强了对模糊、倾斜或稀有字符的鲁棒性
高级空间推理:2D → 相对坐标、3D 接地、遮挡处理和透视理解
思维模式:在 STEM / 数学领域表现领先 —— 实现深度因果推理
文本能力可与顶级 LLMs 媲美 —— 坚实的语言基础为其多模态卓越表现提供动力
模型性能
非推理模型:

推理模型:

纯文本任务:


带图推理 —— 图像工具调用:

多语言文字识别能力:

API:User Guide (Models)-https://alibabacloud.com/help/en/model-studio/models#5540e6e52e1xx
博客(更多内容请查看博客文章):Qwen3-VL:明察、深思、广行-https://qwen.ai/blog?id=99f0335c4ad9ff6153e517418d48535ab6d8afef&from=research.latest-advancements-list
ModelScope:ModelScope - Qwen3-VL-https://modelscope.cn/collections/Qwen3-VL-5c7a94c8cb144b
HuggingFace:HuggingFace - Qwen3-VL-https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe
消息来源:https://x.com/Alibaba_Qwen/status/1970594923503391182