我的160GB本地大语言模型主机

前沿技术 · 2025-7-30 10:30:32

我用4块V100和4块3090打造了这台“怪兽”主机，搭配线程撕裂者处理器、256GB内存以及4个电源。
一个电源为整台机器供电，另外3个1000瓦的电源专门给显卡供电。我使用了分叉的PCIe转接卡，把x16的PCIe接口拆分成4个x4的PCIe接口。有什么问题尽管问，在这台“怪兽”主机上我能运行的最大模型是通义千问3 235B Q4，每秒大约能处理15个令牌。平时我会运行Devstral、通义千问3 32B、Gamma 3 27B、通义千问3 4B（三块）…… 全都是Q4精度的，并且使用异步方式，以便能同时用不同模型处理不同任务。

mossy · 2025-7-30 10:38:14

有可能是要逃跑。

lhczyc · 2025-7-30 11:32:16

非常不错！可我身无分文了，真惨:( 另外，如果你不介意我问的话，你的目标是什么？

IT货郎 · 2025-7-30 12:35:19

接着这个问题问：你用了什么驱动？我粗略搜索了一下，没看到有能同时支持V100和RTX3090的驱动。你用了类似nvcleanstall / tinynvidiaupdatechecker这样的工具吗？（补充一下背景，我正计划用一些备件组装一台电脑，希望能把一块RTX 3060、一块GTX1060和四块P100组合在一起）

acff00 · 2025-7-31 12:49:54

我不太用它来处理大语言模型（LLM）相关的事情。因为它有96GB内存，用来运行视频生成和训练模型简直太棒了。

licemiao · 2025-7-31 13:28:14

我刚用了LM Studio，它能处理在多个GPU上拆分大型模型的问题。

小川8433651 · 2025-7-31 13:30:03

这主机太豪横啦

新风子 · 2025-7-31 14:55:01

我想知道这个和苹果Studio电脑相比怎么样。

黑丝绒 · 2025-7-31 16:18:49

兄弟，说真的，这就是我想要这种东西的唯一原因。这样我就能毫无羞愧地直视ChatGPT的 “眼睛” 了。

矮酷悦儿 · 2025-8-1 14:37:55

在我居住的地方，电价大约是每千瓦时0.13美元。而且，当这些显卡不被积极使用时，系统的闲置功率约为300瓦。所以根据上述计算，靠节省电费来收回硬件成本可能要花上一辈子的时间……

是叫小小 · 2025-8-1 15:00:11

每秒15万亿次操作（tk/s）和我在配备DDR5内存的CPU上得到的差不多（几乎完全一样，甚至精确到具体数值）。我觉得这恰好表明，当你为了显存而牺牲先进性时，GPU满载性能下降得有多快，以及CPU满载变得多么有用，或者至少是与之相当。当然，我才会这么说。说实在的，我也只需要一个电源。总而言之，解决问题的办法不止一种。重要的是，你要像上帝希望的那样，在家运行Qwen3 235B 。

ewf8336 · 2025-8-4 14:56:03

因为你的配置和我的一样。能不能请你说说你使用它的应用场景是什么？你是在训练模型吗？用于哪些应用领域？

亿照 · 2025-8-5 07:59:03

谢谢。我会继续找找，因为那只是PCIe 3.0的，而我需要4.0的。

hant · 2025-8-6 10:10:11

说来也怪，我在Q3运行那个模型，在我的M4 Max上每秒能处理15个词元，尽管我使用的上下文长度较小。我有点惊讶，你们的5090显卡居然没有更快些。

生命不息！ · 2025-8-6 10:12:09

给我们看看你们的双6000 pro系统。你们有吗？

elber25977 · 2025-8-6 10:38:43

这台设备有一定可能性在运行一个人工智能女友程序……如果真是这样，至少她是本地化的。

g25125949m · 2025-8-6 11:22:21

你用的是什么CPU（以及搭配的内存速度是多少的系统）？我特别想知道，因为这对装机来说很关键。

Morvan · 2025-8-6 14:51:19

可能是在进行训练。你知道的，你可以调教这些厉害的模型，对吧？不过别太激动，原帖发布者（OP）可能没办法训练比900亿参数模型更大的模型。但话说回来，用基于你自己的数据训练出来的900亿参数模型，你能做很多事情。

CHARLES · 2025-8-7 09:41:29

你用它来挖矿还是搞人工智能？要这么大内存是用于什么场景？它是全天候运行吗？

雪泥鸿爪 · 2025-8-7 09:55:41

一般来说是扩散模型管线。例如，对于文本到图像（txt2img）任务，它确实包括稳定扩散模型（Stable Diffusion），但也有Flux模型；此外，视频模型大多也是扩散模型，比如Wan模型。

亮大叶子 · 2025-8-8 16:21:48

扩散，你指的是稳定扩散（Stable Diffusion）吗？图像生成？

杨振坤131226 · 2025-8-10 11:46:33

你如何在它们上面运行大型模型？模型是如何在多个GPU之间分配的？对于新手来说做这件事难吗？

rozikun · 2025-8-10 17:54:52

大多数情况下会同时进行大语言模型（LLMs）和扩散模型的训练。我试着进行了一些训练，使用打了补丁的对等互联（P2P）的tinygrad驱动时，两块5090显卡效果相当不错。同样的原因，两块5090加上两块4090的组合运行得也挺好。我不会用3090进行训练，因为它们速度相当慢。4090的P2P驱动在这个链接：https://github.com/tinygrad/opengpukernelmodules ，而这个链接：https://github.com/tinygrad/opengpukernelmodules/issues/29issuecomment2765260985 介绍了在5090上启用P2P的方法。

小望月 · 2025-8-11 09:41:43

主机配置不错啊，我目前也在基于线程撕裂者搭建类似的主机。我不明白的是，为什么你要用分路卡，然后通过PCIe 3 X4 来连接显卡（正如你在另一条评论里提到的那样）？我觉得直接把它们连接到主板上（或许可以用PCIe x16的延长线），就能提供足够的带宽来使用张量并行（使用vllm），这样能大幅提升速度。你用的是什么主板？

龙一品 · 2025-8-11 09:59:38

什么后端？

help · 2025-8-19 08:05:05

我不太清楚是哪一层被卸载了。LM Studio里的默认参数设置成啥样我也不是很确定，反正我也没去折腾过那些高级选项（这倒是提醒我了，回头可以研究一下）。但我相信，等模型优化过后，你的体验应该会更上一层楼。我挺好奇的，当你提到“Q_8 k/v缓存，闪光注意”时，那个“Q_8”具体是指啥？因为你之前说你一开始跑的是Q_4模型。这个Q_8是不是一个高级设置？它到底意味着什么？

		自动登录	找回密码
密码			立即注册

我的160GB本地大语言模型主机

相关帖子

25 回复