GPTOSS刚刚发布。OpenAI的开源权重模型太厉害了。1200亿参数规模相当于o4mini。200亿参数规模的模型能在苹果笔记本电脑上运行。

前沿技术 · 2025-8-6 15:01:27

OpenAI刚刚悄然投下了一颗重磅开源炸弹：两款完全开源权重的模型，gpt oss 20b和gpt oss 120b，而且它们可不只是学术成果发布。这些模型能运行、能推理，还在评估测试中表现出色。以下是详细情况：模型阵容：gpt oss 120b → 性能与GPT 4 mini（o4 mini）相当gpt oss 20b → 性能匹配或超过GPT 3.5 mini（o3 mini）开箱即用的工具使用、思维链（CoT）和智能体功能支持函数调用、网络搜索、Python工具使用以及结构化输出内置思维链推理和多步规划能力是本地智能体的绝佳选择，预训练中就融入了实际工具使用能力3. 训练数据gpt oss 120b 用H100显卡训练了210万小时gpt oss 20b 用H100显卡训练了约21万小时使用了Flash Attention、混合专家（Mixture of Experts）和经过专家优化的Triton内核进行训练尽管模型规模巨大，但得益于混合专家架构：每个token只有51亿（1200亿模型）和36亿（200亿模型）个活跃参数。4. 评估基准（来自OpenAI和伯曼）gpt oss 120b在以下方面匹配或超过o4 mini：Codeforces（编程竞赛平台）MMLU（大规模多任务语言理解）HealthBench（健康领域基准测试）TauBench（工具使用基准测试）AIME 2024/2025（美国数学邀请赛）gpt oss 20b在大多数评估中与o3 mini相当或更优，尤其在数学和健康领域。6. 最惊人的部分？Groq的定价简直太划算了1200亿参数模型：输入0.15美元 / 输出0.75美元 200亿参数模型：输入0.10美元 / 输出0.50美元这价格大约是Claude 3的百分之一。可能是暂时的，但现在在Groq上就是这个价。7. 可在苹果硅芯片上本地运行gpt oss 20b可在16GB统一内存上运行可直接与Ollama配合使用在M4 Pro上运行速度约为每秒33个token。你今天就可以下载这个模型，然后在MacBook或中低端GPU上进行尝试。8. 随时可部署量化版本已在Hugging Face上发布可与PyTorch、苹果Metal配合使用Rust和Python都有参考推理和工具示例告诉我，你们打算用这个模型做什么？有什么特别的实验计划吗？让我们看看能利用它做出些什么。

pennyhe · 2025-8-6 15:31:24

我没做任何特别的操作（让其他应用程序保持运行，好几周都没重启电脑等等），在我配备32GB内存的16英寸M1 Pro电脑上，速度达到了每秒21.7个标记。显然，它不如在线的GPT 4o快，但完全可以使用。思考了大约15秒后，我得到了一个非常长且详细的答案，总共耗时约1分钟。

热心电 · 2025-8-6 15:41:19

做些基本的事情大约需要10分钟。

wyc9867 · 2025-8-6 22:08:34

我不明白这一切是什么意思。

刚刚好 · 2025-8-7 02:38:27

是的，这很棒，但运行较大的模型你需要一台配置不错的设备。大多数系统可以用较小的模型，然后要有耐心，它仍需要进行训练。

badfishbell · 2025-8-7 09:32:34

我猜它得再小一点（比如0.6b版本？）才能在iPhone 7上运行吧？以我自己的经验来说，在一部比较新的iPhone上使用llm.swift加载Qwen 0.6b大约需要300MB的运行内存。

dqm5384 · 2025-8-8 10:03:27

下载大小是多少？

泰晤士小镇 · 2025-8-9 15:49:07

你觉得一个无法联网的大语言模型（LLM）会做出什么可能给你带来问题的事情呢？

某人 · 2025-8-9 15:53:41

你能详细说说有哪些风险吗？我真的很担心自己在这方面存在认知盲区。

Eric_H · 2025-8-10 20:14:37

如果断开网络还能正常使用吗？它怎么知道该收我多少钱呢？

xiongdamao · 2025-8-12 16:13:00

我不知道你生活在哪个国家，但在美国，大约在过去15年左右的时间里，我们才实现了保险公司不能根据《平价医疗法案》（ACA）歧视已有疾病患者这一点。鉴于当前的政治形势，以及特朗普对奥巴马的极度厌恶，我完全能想象这些保护措施会消失，人工智能用户数据会被搜集，以寻找健康问题的证据，作为拒绝给予保险福利的理由。目前，当然，这只是猜测和担忧。但当下这个世界似乎有点疯狂，而且一旦牙膏挤出来，就没法再塞回管子里了。在我看来，还是谨慎为妙。

wyg0921 · 2025-8-12 18:07:35

你就是个传奇，我的朋友！谢谢你🫶🤝

bbttggyy · 2025-8-12 21:17:53

嘿，u/OkLiterature9189！如果你的帖子是ChatGPT对话的截图，请用对话链接或提示词回复此消息。如果你的帖子是DALLE 3生成的图片，请回复生成该图片所用的提示词。考虑加入我们的公共Discord服务器！我们有免费的支持GPT4（带视觉功能）的机器人、图像生成器等等！🤖注意：如有任何与ChatGPT相关的问题，请发送电子邮件至support@openai.com。我是一个机器人，此操作是自动执行的。如果你有任何问题或疑虑，请联系本版块的版主。

紫依女孩 · 2025-8-13 07:47:54

既然这对你来说没问题，你能在这里公布一下你的病史吗？

版史本数 · 2025-8-13 17:48:54

你理解错了。7 的阶乘（7!）等于 5040 。

inamoto4869 · 2025-8-14 08:39:58

我真的一直都不明白，为什么人们对自己的病史遮遮掩掩。哈哈，一群教条的书呆子为此事大动肝火。

美日情 · 2025-8-14 09:55:59

我试着运行gptoss:20b，它似乎无法在我的Macbook Air M4上运行，它只是占用了所有的内存和CPU，导致系统无响应。

旅顺的海 · 2025-8-15 15:16:02

LM Studio 是基于苹果的 MLX 框架开发的。相比 Ollama，它的速度要快很多。我现在用的是 gptossmlx 的 4bit 版本，在 M3 Max、36GB 内存的设备上，跑出了接近每秒 50 个 token 的速度。

leyong · 2025-8-15 16:03:10

我也不太清楚，抱歉。我自己用的是带GPU的服务器，没有MBP。我可以去LM Studio看看，试着跑一些模型，那边试起来挺方便的。如果你能跑得动qwen3:30b或者qwen3:32b的话，我建议你也试试这些。其中30b是moe结构的，32b是dense结构的。我个人可能会先试试32b。至于“锁定”这个词是什么意思？不太清楚具体语境。不过大多数本地运行的模型本身没什么安全限制，不像在线的大模型那样有很多内容过滤。很多本地模型的特殊版本甚至永远不会拒绝回答。但通常情况下，本地模型的能力还是没法跟在线的大模型比，可能没那么聪明或者功能没那么全。

mge192003 · 2025-8-16 04:48:07

在M4 Pro上跑的话，大概能达到33个token每秒的样子
这也能行？我这边M1 Pro才跑出来1个token每秒，内存带宽两者差不多（200对273），照理说不应该差这么多啊？更新一下：我换用LM Studio之后跑到了差不多20t/s，现在反而有点懵，为啥Ollama在我这这么慢呢？

klklklkl · 2025-8-16 07:44:14

你这话说得有点尴尬啊，是在说性病吗？还是过敏？你是不是把什么东西塞到屁屁里了还卡那儿了？关心别人、聊聊病史，其实挺重要的。补充一句：你之前的评论被删了，但你回了个“不关你的事”，这其实也算一种回应吧。我也知道你可能不太想让别人知道这些事。不过我觉得刻意回避也没什么必要。我不是非要知道你的病史，但我也不认同那种把医疗隐私捧得太高、连和法学硕士（LLM）都不愿意分享的态度，这有点自说自话了。我猜你可能对肛门脱垂这事挺难为情的，是不是因为用了啥大号玩具塞进去啦？其实对大多数人来说，这真不算啥大问题。真在乎这些的，基本都是少数特殊情况。说真的，互联网上那些关于你的数据，比一个AI知道你有疹子这件事要侵犯隐私得多。

aylue · 2025-8-17 14:30:03

关注后续实际应用

小暗云子 · 2025-8-18 19:43:27

我不能提供任何关于非法入侵或破解设备的建议。所有操作都应遵守法律法规，确保合法授权和使用。如果您有其他关于技术、AI的合规问题，欢迎交流！

wlzt · 2025-8-19 23:02:30

从M1 Pro开始，M系列芯片里的神经引擎在速度上可是进步了不少。

lifesinger · 2025-9-14 19:30:02

关注模型后续应用

		自动登录	找回密码
密码			立即注册

GPTOSS刚刚发布。OpenAI的开源权重模型太厉害了。1200亿参数规模相当于o4mini。200亿参数规模的模型能在苹果笔记本电脑上运行。

相关帖子

24 回复

第一篇帖

GPTOSS刚刚发布。OpenAI的开源权重模型太厉害了。1200亿参数规模 相当于o4mini。200亿参数规模的模型能在苹果笔记本电脑上运行。

相关帖子

24 回复

第一篇帖

GPTOSS刚刚发布。OpenAI的开源权重模型太厉害了。1200亿参数规模相当于o4mini。200亿参数规模的模型能在苹果笔记本电脑上运行。