发帖
 找回密码
 立即注册
搜索
0 0 0
日常闲聊 602 0 6 小时前

Qwen 正式推出全新升级的 Qwen3-VL 系列 —— 这是迄今为止 Qwen 系列中最强大的视觉语言模型。

旗舰模型 Qwen3-VL-235B-A22B 现已开源,提供 Instruct 和 Thinking 两个版本:
Instruct 版本在关键视觉基准测试上超越 Gemini 2.5 Pro
Thinking 版本在多模态推理任务上达到业界领先水平(SOTA)

主要突破:
视觉代理:在 PC / 手机上操作 GUI—— 理解按钮、调用工具并完成真实世界任务(在 OS World 上达到 SOTA)
视觉编码:将屏幕截图转换为代码(HTML/CSS/JS,Draw.io)—— 真正的 “所见即所得” 开发
256K+ 上下文(可扩展到 1M)→ 支持 2 小时视频和多页长 PDF
32 种语言的 OCR,增强了对模糊、倾斜或稀有字符的鲁棒性
高级空间推理:2D → 相对坐标、3D 接地、遮挡处理和透视理解
思维模式:在 STEM / 数学领域表现领先 —— 实现深度因果推理
文本能力可与顶级 LLMs 媲美 —— 坚实的语言基础为其多模态卓越表现提供动力

模型性能

非推理模型:

ed875197a33c3bb8e4e2a45dae078a283cf79afe.jpeg

推理模型:
c8bf0364d9ce82e39d3084d8f67926748cc50fad.jpeg
纯文本任务:
c9cfd32ad09599e195ce71aa24201a6c4cf644dd.jpeg

6d75b5c7b2e32cb2ddf547fe6daa42b96dfded56.jpeg
带图推理 —— 图像工具调用:
90ca040ddc661a63ea19a2763cc40dfbc2790c55.jpeg
多语言文字识别能力:
0c797e312646ede1734464591a2bde7eeb99f75a.png

API:User Guide (Models)-https://alibabacloud.com/help/en/model-studio/models#5540e6e52e1xx

博客(更多内容请查看博客文章):Qwen3-VL:明察、深思、广行-https://qwen.ai/blog?id=99f0335c4ad9ff6153e517418d48535ab6d8afef&from=research.latest-advancements-list

ModelScope:ModelScope - Qwen3-VL-https://modelscope.cn/collections/Qwen3-VL-5c7a94c8cb144b

HuggingFace:HuggingFace - Qwen3-VL-https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe

消息来源:https://x.com/Alibaba_Qwen/status/1970594923503391182

──── 0人觉得很赞 ────

使用道具 举报

我已经分不清Qwen这一系列的模型了,系列太多,版本也太多了。

传说中的omni大一统模型出来了吗?
视觉代理:在电脑/手机上操作图形用户界面(GUI)—— 理解按钮、进行调用
Qwen3感觉能力不太稳定啊,
虽然基准测试数据这么好看
我一直在chat.qwen.ai上使用,感觉它有时会出现循环表述和说些废话的情况。不过它肯定算是国内第一梯队的了,我个人觉得它比ds好用。
通义千问正式推出全新升级的通义千问3VL系列 —— 这是迄今为止通义千问系列中最强大的视觉语言模型。
简单测试了一下,效果还挺不错的,就是有时候会出现无限循环。
您需要登录后才可以回帖 立即登录
高级模式