大家好!OpenAI 五年来首次发布了他们的开源模型,现在,你可以在家运行自己的类 GPT4o 级别和 o4mini 模型啦!
有两个模型,一个参数较少的 200 亿参数模型,还有一个 1200 亿参数的模型,性能可与 o4mini 相媲美。在各种任务中,包括推理、编码、数学、健康相关以及智能体任务,这两个模型的表现均优于 GPT4o。
为了能在本地(笔记本电脑、苹果电脑、台式机等设备)运行这些模型,我们 Unsloth 团队对这些模型进行了转换,还修复了一些漏洞,以提高模型输出质量。我们的 GitHub 仓库:https://github.com/unslothai/unsloth
最佳配置:
200 亿参数模型在全精度模式下,每秒能处理超过 10 个词元,运行需要 14GB 随机存取存储器(RAM)或统一内存。如果只有 8GB RAM,也可以使用 llama.cpp 的卸载功能来运行该模型,但速度会慢一些。
1200 亿参数模型在全精度模式下,每秒能处理超过 40 个词元,运行大约需要 64GB RAM 或统一内存。
运行这些模型并没有最低配置要求,即使你的电脑只有 6GB 的中央处理器(CPU)内存,模型也能运行,只不过推理速度会很慢。
因此,运行模型并不一定需要图形处理器(GPU),特别是 200 亿参数模型,但如果有 GPU,推理速度会大幅提升(大约每秒 80 个词元)。要是使用像 H100 这样的 GPU,每秒能处理 140 个词元,这可比 ChatGPT 应用程序快多了。
你可以通过 llama.cpp、LM Studio 或 Open WebUI 运行我们修复过漏洞的模型上传版本,以获得最佳性能。如果 1200 亿参数模型运行速度太慢,可以试试较小的 200 亿参数版本,它速度超快,性能与 o3mini 不相上下。
运行模型的 GGUF 文件链接:gptoss20BGGUF 和 gptoss120BGGUF
我们的详细指南(强烈推荐大家阅读,内容非常全面):https://docs.unsloth.ai/basics/gptoss
再次感谢大家阅读!顺便说一下,我会回复每个人的留言,所以有任何问题都尽管问! |