OpenAI刚刚悄然投下了一颗重磅开源炸弹:两款完全开源权重的模型,gpt oss 20b和gpt oss 120b,而且它们可不只是学术成果发布。这些模型能运行、能推理,还在评估测试中表现出色。以下是详细情况:模型阵容:gpt oss 120b → 性能与GPT 4 mini(o4 mini)相当gpt oss 20b → 性能匹配或超过GPT 3.5 mini(o3 mini)开箱即用的工具使用、思维链(CoT)和智能体功能 支持函数调用、网络搜索、Python工具使用以及结构化输出 内置思维链推理和多步规划能力 是本地智能体的绝佳选择,预训练中就融入了实际工具使用能力3. 训练数据gpt oss 120b 用H100显卡训练了210万小时gpt oss 20b 用H100显卡训练了约21万小时使用了Flash Attention、混合专家(Mixture of Experts)和经过专家优化的Triton内核进行训练尽管模型规模巨大,但得益于混合专家架构:每个token只有51亿(1200亿模型)和36亿(200亿模型)个活跃参数。4. 评估基准(来自OpenAI和伯曼)gpt oss 120b在以下方面匹配或超过o4 mini:Codeforces(编程竞赛平台)MMLU(大规模多任务语言理解)HealthBench(健康领域基准测试)TauBench(工具使用基准测试)AIME 2024/2025(美国数学邀请赛)gpt oss 20b在大多数评估中与o3 mini相当或更优,尤其在数学和健康领域。6. 最惊人的部分?Groq的定价简直太划算了1200亿参数模型:输入0.15美元 / 输出0.75美元 200亿参数模型:输入0.10美元 / 输出0.50美元这价格大约是Claude 3的百分之一。可能是暂时的,但现在在Groq上就是这个价。7. 可在苹果硅芯片上本地运行gpt oss 20b可在16GB统一内存上运行可直接与Ollama配合使用在M4 Pro上运行速度约为每秒33个token。你今天就可以下载这个模型,然后在MacBook或中低端GPU上进行尝试。8. 随时可部署量化版本已在Hugging Face上发布可与PyTorch、苹果Metal配合使用Rust和Python都有参考推理和工具示例告诉我,你们打算用这个模型做什么?有什么特别的实验计划吗?让我们看看能利用它做出些什么。 |