Qwen3235BA22BThinking2507发布啦！

前沿技术 · 2025-8-5 08:04:52

🚀 我们非常激动地推出通义千问3235BA22B思考2507——这是我们迄今为止最先进的推理模型！在过去的三个月里，我们大幅扩展并提升了通义千问3的思考能力，取得了以下成果：✅ 在逻辑推理、数学、科学和编码方面性能有所提升✅ 通用技能得到增强：指令遵循、工具使用、校准✅ 具备256K原生上下文，以实现深度、长篇内容理解🧠 该模型专为思考模式打造，无需手动启用。现在，该模型原生支持扩展推理链，以实现最大深度和最高准确性。

冰河世纪 · 2025-8-5 08:39:10

刚刚在网页聊天中进行了测试，表现非常出色。一次性通过了编码测试，还能成功修改现有代码。很期待无懒量化（unsloth quants），希望它在IQ4_XS上能保持大部分性能，这是我的苹果电脑能运行的最高配置了。

甜悦狗 · 2025-8-5 13:24:41

这在英特尔 N100 处理器中的英特尔超核芯显卡（UHD Graphics）集成显卡上也能运行吗？N100 的规格参数：https://www.intel.com/content/www/us/en/products/sku/231803/intelprocessorn1006mcacheupto340ghz/specifications.html

decode7 · 2025-8-5 16:03:10

u/yoracale 我觉得说明里有个拼写错误，“topp == 20”不太说得通，我猜应该是0.95 。

Sswfive · 2025-8-6 10:19:21

“出于安全考虑”

橙土儿 · 2025-8-6 10:50:24

我很喜欢Qwen团队打造的成果，2.5系列在开源大语言模型的“荣誉室”里永远会有一席之地。但我不禁觉得，3系列存在一些根本性的缺陷，在这些修订中并未得到解决，而且在基准测试中也没有体现出来。大多数专注于微调的资深工程师使用2.5系列能获得更稳定的结果。那个大型代码模型测试得分比Kimmi高很多，但在实际应用中，我想我们大多数人感觉恰恰相反。我只希望他们不要夸大分数，或者能多关注一些现实世界中的目标。

轻舞任逍遥 · 2025-8-6 11:14:13

在网页上能用吗？

parasite · 2025-8-6 11:36:20

如何达到那样的速度，我有128GB内存和两块24GB的4090显卡。

anjes · 2025-8-6 11:39:29

不错！我没法运行其他东西了，因为我用的是配备128GB内存的M1 Ultra芯片的电脑，但这对我来说没关系，毕竟我买这台苹果电脑就是为了运行大语言模型的！

Sswfive · 2025-8-6 12:44:22

你应该创建一个账号，叫“onsloth”之类的。

zk839y · 2025-8-6 14:12:40

我有一台搭载3090显卡、配备256GB内存的Windows电脑。我可以加载这个（程序）并获得不错的每秒生成令牌数吗？我看到大多数评论都在说在一台128GB内存的苹果电脑上运行这个（程序），但我不确定是不是有什么原因使得苹果电脑在处理这个（程序）方面更有优势。

lqxxql · 2025-8-6 14:14:21

32B型号也是一款前沿型号，所以如果他们还没开始单独研究这款型号的话，就得着手去做了。

renkis2004 · 2025-8-6 15:35:25

你能说明一下这些结果是否来自量化模型吗？我猜它们是完整的32位浮点数（FP32）模型，由于内存限制无法在本地机器上运行。如果是这样的话，为什么要把它发布在这里呢？没有几台H200，没人能在本地运行它。如果你能将这些结果与量化模型的结果进行对比，那就很有用了，这样我们就能了解量化会导致多少性能损失。

cfang99 · 2025-8-6 15:39:37

说明文档在我们关于llama.cpp的指南中：https://docs.unsloth.ai/basics/qwen3howtorunandfinetune/qwen32507运行命令如下：
./llama.cpp/llamacli
model unsloth/Qwen3235BA22BThinking2507GGUF/UDQ2_K_XL/Qwen3235BA22BThinking2507UDQ2_K_XL00001of00002.gguf
threads 32
ctxsize 16384
ngpulayers 99
ot ".ffn_._exps.=CPU"
seed 3407
prio 3
temp 0.6
minp 0.0
topp 0.95
topk 20
repeatpenalty 1.05

125372883 · 2025-8-6 18:18:24

看起来这新一轮的通义千问3模型在现实应用中表现欠佳。新的235B 无思考能力版本完全没给我留下什么好印象，虽说通义千问3代码生成模型还算不错，但显然它比不上Claude Sonnet、 kimi K2，甚至都比不上GPT 4.1。我开始怀疑阿里巴巴在基准测试上弄虚作假了。

liwei1 · 2025-8-7 09:33:31

网飞（Netflix）过去真的卖过光盘（CD）吗？我原以为他们只是邮寄DVD，然后要求你再寄回去。

edison1007 · 2025-8-7 09:53:29

它现在就在那儿了。🤷🏻‍♀️

汽水猫 · 2025-8-7 10:01:36

也许在实践中是这样。仅从基准测试来看，它在减少令牌数量方面是成功的。然而，如果目标是尽可能获得好的结果，所有这些都无关紧要——毕竟，思考无论如何都是必要的。

jylrb · 2025-8-8 08:03:14

我真的很希望这些基准测试结果能和我们在实际用例中观察到的情况相符。🙏

Morvan · 2025-8-8 08:56:48

而且还很便宜🥹

xianwlg · 2025-8-8 13:23:56

冷电兔 · 2025-8-8 13:44:36

第一印象是，它想得很多。

黄热希儿 · 2025-8-8 15:15:36

作为一个澳大利亚人，所谓“更快”这一点，有一半的时候甚至都不属实。

gxl0412 · 2025-8-10 22:04:40

DeepSeek R1 0528大概是这样（注：原句“DeepSeek R1 0528 be like”在语法上不太准确，正常表达可以是“DeepSeek R1 0528 is like” ，这里是按照理解翻译。）

sifeng · 2025-8-16 02:49:04

启动的时候用哪个命令行啊？我的配置是80G内存、显存8G。

至冬 · 2025-8-18 10:00:24

对我来说，亚马逊 basically 就是一个更贵的速卖通，只不过发货更快一点。

xiaohai · 2025-8-18 12:10:25

Netflix以前是出租便宜的DVD，不是卖CD的。

		自动登录	找回密码
密码			立即注册

Qwen3235BA22BThinking2507发布啦！

相关帖子

26 回复

元老级人物

第一篇帖

渐入佳境

CV工程师