发帖
 找回密码
 立即注册
搜索
24 0 0
前沿技术 703 24 2025-8-6 15:01:27
OpenAI刚刚悄然投下了一颗重磅开源炸弹:两款完全开源权重的模型,gpt  oss  20b和gpt  oss  120b,而且它们可不只是学术成果发布。这些模型能运行、能推理,还在评估测试中表现出色。以下是详细情况:模型阵容:gpt  oss  120b → 性能与GPT  4 mini(o4  mini)相当gpt  oss  20b → 性能匹配或超过GPT  3.5 mini(o3  mini)开箱即用的工具使用、思维链(CoT)和智能体功能 支持函数调用、网络搜索、Python工具使用以及结构化输出 内置思维链推理和多步规划能力 是本地智能体的绝佳选择,预训练中就融入了实际工具使用能力3. 训练数据gpt  oss  120b 用H100显卡训练了210万小时gpt  oss  20b 用H100显卡训练了约21万小时使用了Flash Attention、混合专家(Mixture  of  Experts)和经过专家优化的Triton内核进行训练尽管模型规模巨大,但得益于混合专家架构:每个token只有51亿(1200亿模型)和36亿(200亿模型)个活跃参数。4. 评估基准(来自OpenAI和伯曼)gpt  oss  120b在以下方面匹配或超过o4  mini:Codeforces(编程竞赛平台)MMLU(大规模多任务语言理解)HealthBench(健康领域基准测试)TauBench(工具使用基准测试)AIME 2024/2025(美国数学邀请赛)gpt  oss  20b在大多数评估中与o3  mini相当或更优,尤其在数学和健康领域。6. 最惊人的部分?Groq的定价简直太划算了1200亿参数模型:输入0.15美元 / 输出0.75美元  200亿参数模型:输入0.10美元 / 输出0.50美元这价格大约是Claude 3的百分之一。可能是暂时的,但现在在Groq上就是这个价。7. 可在苹果硅芯片上本地运行gpt  oss  20b可在16GB统一内存上运行可直接与Ollama配合使用在M4 Pro上运行速度约为每秒33个token。你今天就可以下载这个模型,然后在MacBook或中低端GPU上进行尝试。8. 随时可部署量化版本已在Hugging Face上发布可与PyTorch、苹果Metal配合使用Rust和Python都有参考推理和工具示例告诉我,你们打算用这个模型做什么?有什么特别的实验计划吗?让我们看看能利用它做出些什么。
──── 0人觉得很赞 ────

使用道具 举报

2025-8-6 15:31:24
我没做任何特别的操作(让其他应用程序保持运行,好几周都没重启电脑等等),在我配备32GB内存的16英寸M1 Pro电脑上,速度达到了每秒21.7个标记。显然,它不如在线的GPT 4o快,但完全可以使用。思考了大约15秒后,我得到了一个非常长且详细的答案,总共耗时约1分钟。  
2025-8-6 15:41:19
做些基本的事情大约需要10分钟。
2025-8-6 22:08:34
我不明白这一切是什么意思。
2025-8-7 02:38:27
是的,这很棒,但运行较大的模型你需要一台配置不错的设备。大多数系统可以用较小的模型,然后要有耐心,它仍需要进行训练。  
我猜它得再小一点(比如0.6b版本?)才能在iPhone 7上运行吧?以我自己的经验来说,在一部比较新的iPhone上使用llm.swift加载Qwen 0.6b大约需要300MB的运行内存 。  
2025-8-8 10:03:27
下载大小是多少?
你觉得一个无法联网的大语言模型(LLM)会做出什么可能给你带来问题的事情呢?
2025-8-9 15:53:41
你能详细说说有哪些风险吗?我真的很担心自己在这方面存在认知盲区。  
2025-8-10 20:14:37
如果断开网络还能正常使用吗?它怎么知道该收我多少钱呢?
2025-8-12 16:13:00
我不知道你生活在哪个国家,但在美国,大约在过去15年左右的时间里,我们才实现了保险公司不能根据《平价医疗法案》(ACA)歧视已有疾病患者这一点。鉴于当前的政治形势,以及特朗普对奥巴马的极度厌恶,我完全能想象这些保护措施会消失,人工智能用户数据会被搜集,以寻找健康问题的证据,作为拒绝给予保险福利的理由。目前,当然,这只是猜测和担忧。但当下这个世界似乎有点疯狂,而且一旦牙膏挤出来,就没法再塞回管子里了。在我看来,还是谨慎为妙。
2025-8-12 18:07:35
你就是个传奇,我的朋友!谢谢你🫶🤝
2025-8-12 21:17:53
嘿,u/OkLiterature9189!如果你的帖子是ChatGPT对话的截图,请用对话链接或提示词回复此消息。如果你的帖子是DALLE 3生成的图片,请回复生成该图片所用的提示词。考虑加入我们的公共Discord服务器!我们有免费的支持GPT4(带视觉功能)的机器人、图像生成器等等!🤖注意:如有任何与ChatGPT相关的问题,请发送电子邮件至support@openai.com。我是一个机器人,此操作是自动执行的。如果你有任何问题或疑虑,请联系本版块的版主。
2025-8-13 07:47:54
既然这对你来说没问题,你能在这里公布一下你的病史吗?
2025-8-13 17:48:54
你理解错了。7 的阶乘(7!)等于 5040 。  
2025-8-14 08:39:58
我真的一直都不明白,为什么人们对自己的病史遮遮掩掩。哈哈,一群教条的书呆子为此事大动肝火。
2025-8-14 09:55:59
我试着运行gptoss:20b,它似乎无法在我的Macbook Air M4上运行,它只是占用了所有的内存和CPU,导致系统无响应。  
2025-8-15 15:16:02
LM Studio 是基于苹果的 MLX 框架开发的。相比 Ollama,它的速度要快很多。我现在用的是 gptossmlx 的 4bit 版本,在 M3 Max、36GB 内存的设备上,跑出了接近每秒 50 个 token 的速度。
2025-8-15 16:03:10
我也不太清楚,抱歉。我自己用的是带GPU的服务器,没有MBP。我可以去LM Studio看看,试着跑一些模型,那边试起来挺方便的。如果你能跑得动qwen3:30b或者qwen3:32b的话,我建议你也试试这些。其中30b是moe结构的,32b是dense结构的。我个人可能会先试试32b。至于“锁定”这个词是什么意思?不太清楚具体语境。不过大多数本地运行的模型本身没什么安全限制,不像在线的大模型那样有很多内容过滤。很多本地模型的特殊版本甚至永远不会拒绝回答。但通常情况下,本地模型的能力还是没法跟在线的大模型比,可能没那么聪明或者功能没那么全。
2025-8-16 04:48:07
在M4 Pro上跑的话,大概能达到33个token每秒的样子
这也能行?我这边M1 Pro才跑出来1个token每秒,内存带宽两者差不多(200对273),照理说不应该差这么多啊?更新一下:我换用LM Studio之后跑到了差不多20t/s,现在反而有点懵,为啥Ollama在我这这么慢呢?
2025-8-16 07:44:14
你这话说得有点尴尬啊,是在说性病吗?还是过敏?你是不是把什么东西塞到屁屁里了还卡那儿了?关心别人、聊聊病史,其实挺重要的。补充一句:你之前的评论被删了,但你回了个“不关你的事”,这其实也算一种回应吧。我也知道你可能不太想让别人知道这些事。不过我觉得刻意回避也没什么必要。我不是非要知道你的病史,但我也不认同那种把医疗隐私捧得太高、连和法学硕士(LLM)都不愿意分享的态度,这有点自说自话了。我猜你可能对肛门脱垂这事挺难为情的,是不是因为用了啥大号玩具塞进去啦?其实对大多数人来说,这真不算啥大问题。真在乎这些的,基本都是少数特殊情况。说真的,互联网上那些关于你的数据,比一个AI知道你有疹子这件事要侵犯隐私得多。
2025-8-17 14:30:03
关注后续实际应用
2025-8-18 19:43:27
我不能提供任何关于非法入侵或破解设备的建议。所有操作都应遵守法律法规,确保合法授权和使用。如果您有其他关于技术、AI的合规问题,欢迎交流!
2025-8-19 23:02:30
从M1 Pro开始,M系列芯片里的神经引擎在速度上可是进步了不少。
2025-9-14 19:30:02
关注模型后续应用
您需要登录后才可以回帖 立即登录
高级模式