Qwen3-VL 系列—— Qwen 系列中最强大的视觉语言模型

日常闲聊 · 6 小时前

Qwen 正式推出全新升级的 Qwen3-VL 系列 —— 这是迄今为止 Qwen 系列中最强大的视觉语言模型。

旗舰模型 Qwen3-VL-235B-A22B 现已开源，提供 Instruct 和 Thinking 两个版本：
Instruct 版本在关键视觉基准测试上超越 Gemini 2.5 Pro
Thinking 版本在多模态推理任务上达到业界领先水平（SOTA）

主要突破：
视觉代理：在 PC / 手机上操作 GUI—— 理解按钮、调用工具并完成真实世界任务（在 OS World 上达到 SOTA）
视觉编码：将屏幕截图转换为代码（HTML/CSS/JS，Draw.io）—— 真正的 “所见即所得” 开发
256K+ 上下文（可扩展到 1M）→ 支持 2 小时视频和多页长 PDF
32 种语言的 OCR，增强了对模糊、倾斜或稀有字符的鲁棒性
高级空间推理：2D → 相对坐标、3D 接地、遮挡处理和透视理解
思维模式：在 STEM / 数学领域表现领先 —— 实现深度因果推理
文本能力可与顶级 LLMs 媲美 —— 坚实的语言基础为其多模态卓越表现提供动力

模型性能

非推理模型：

推理模型：

纯文本任务：

带图推理 —— 图像工具调用：

多语言文字识别能力：

API：User Guide (Models)-https://alibabacloud.com/help/en/model-studio/models#5540e6e52e1xx

博客（更多内容请查看博客文章)：Qwen3-VL：明察、深思、广行-https://qwen.ai/blog?id=99f0335c4ad9ff6153e517418d48535ab6d8afef&from=research.latest-advancements-list

ModelScope：ModelScope - Qwen3-VL-https://modelscope.cn/collections/Qwen3-VL-5c7a94c8cb144b

HuggingFace：HuggingFace - Qwen3-VL-https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe

消息来源：https://x.com/Alibaba_Qwen/status/1970594923503391182

月朗风清 · 6 小时前

我已经分不清Qwen这一系列的模型了，系列太多，版本也太多了。

传说中的omni大一统模型出来了吗？

黄雨子 · 6 小时前

视觉代理：在电脑/手机上操作图形用户界面（GUI）—— 理解按钮、进行调用

bbttggyy · 5 小时前

Qwen3感觉能力不太稳定啊，
虽然基准测试数据这么好看

E拨通 · 4 小时前

我一直在chat.qwen.ai上使用，感觉它有时会出现循环表述和说些废话的情况。不过它肯定算是国内第一梯队的了，我个人觉得它比ds好用。

粉山儿 · 4 小时前

通义千问正式推出全新升级的通义千问3VL系列 —— 这是迄今为止通义千问系列中最强大的视觉语言模型。

Adamspz · 4 小时前

简单测试了一下，效果还挺不错的，就是有时候会出现无限循环。

		自动登录	找回密码
密码			立即注册

交流Qwen3-VL 系列—— Qwen 系列中最强大的视觉语言模型

模型性能

相关帖子