发帖
 找回密码
 立即注册
搜索
0 0 0
前沿技术 721 0 2025-7-30 10:30:32
我用4块V100和4块3090打造了这台“怪兽”主机,搭配线程撕裂者处理器、256GB内存以及4个电源。
一个电源为整台机器供电,另外3个1000瓦的电源专门给显卡供电。我使用了分叉的PCIe转接卡,把x16的PCIe接口拆分成4个x4的PCIe接口。有什么问题尽管问,在这台“怪兽”主机上我能运行的最大模型是通义千问3 235B Q4,每秒大约能处理15个令牌。平时我会运行Devstral、通义千问3 32B、Gamma 3  27B、通义千问3 4B(三块)…… 全都是Q4精度的,并且使用异步方式,以便能同时用不同模型处理不同任务。


──── 0人觉得很赞 ────

使用道具 举报

2025-7-30 10:38:14
有可能是要逃跑。
2025-7-30 11:32:16
非常不错!可我身无分文了,真惨:( 另外,如果你不介意我问的话,你的目标是什么?  
2025-7-30 12:35:19
接着这个问题问:你用了什么驱动?我粗略搜索了一下,没看到有能同时支持V100和RTX3090的驱动。你用了类似nvcleanstall / tinynvidiaupdatechecker这样的工具吗?(补充一下背景,我正计划用一些备件组装一台电脑,希望能把一块RTX 3060、一块GTX1060和四块P100组合在一起 )  
2025-7-31 12:49:54
我不太用它来处理大语言模型(LLM)相关的事情。因为它有96GB内存,用来运行视频生成和训练模型简直太棒了。  
2025-7-31 13:28:14
我刚用了LM Studio,它能处理在多个GPU上拆分大型模型的问题。  
这主机太豪横啦
2025-7-31 14:55:01
我想知道这个和苹果Studio电脑相比怎么样。  
2025-7-31 16:18:49
兄弟,说真的,这就是我想要这种东西的唯一原因。这样我就能毫无羞愧地直视ChatGPT的 “眼睛” 了。  
在我居住的地方,电价大约是每千瓦时0.13美元。而且,当这些显卡不被积极使用时,系统的闲置功率约为300瓦。所以根据上述计算,靠节省电费来收回硬件成本可能要花上一辈子的时间……  
每秒15万亿次操作(tk/s)和我在配备DDR5内存的CPU上得到的差不多(几乎完全一样,甚至精确到具体数值)。我觉得这恰好表明,当你为了显存而牺牲先进性时,GPU满载性能下降得有多快,以及CPU满载变得多么有用,或者至少是与之相当。当然,我才会这么说。说实在的,我也只需要一个电源。总而言之,解决问题的办法不止一种。重要的是,你要像上帝希望的那样,在家运行Qwen3 235B  。  
2025-8-4 14:56:03
因为你的配置和我的一样。能不能请你说说你使用它的应用场景是什么?你是在训练模型吗?用于哪些应用领域?  
2025-8-5 07:59:03
谢谢。我会继续找找,因为那只是PCIe 3.0的,而我需要4.0的。  
2025-8-6 10:10:11
说来也怪,我在Q3运行那个模型,在我的M4 Max上每秒能处理15个词元,尽管我使用的上下文长度较小。我有点惊讶,你们的5090显卡居然没有更快些。  
给我们看看你们的双6000 pro系统。你们有吗?
2025-8-6 10:38:43
这台设备有一定可能性在运行一个人工智能女友程序……如果真是这样,至少她是本地化的 。  
2025-8-6 11:22:21
你用的是什么CPU(以及搭配的内存速度是多少的系统)?我特别想知道,因为这对装机来说很关键。  
2025-8-6 14:51:19
可能是在进行训练。你知道的,你可以调教这些厉害的模型,对吧?不过别太激动,原帖发布者(OP)可能没办法训练比900亿参数模型更大的模型。但话说回来,用基于你自己的数据训练出来的900亿参数模型,你能做很多事情。  
2025-8-7 09:41:29
你用它来挖矿还是搞人工智能?要这么大内存是用于什么场景?它是全天候运行吗?
一般来说是扩散模型管线。例如,对于文本到图像(txt2img)任务,它确实包括稳定扩散模型(Stable Diffusion),但也有Flux模型;此外,视频模型大多也是扩散模型,比如Wan模型。  
扩散,你指的是稳定扩散(Stable Diffusion)吗?图像生成?  
你如何在它们上面运行大型模型?模型是如何在多个GPU之间分配的?对于新手来说做这件事难吗?
2025-8-10 17:54:52
大多数情况下会同时进行大语言模型(LLMs)和扩散模型的训练。我试着进行了一些训练,使用打了补丁的对等互联(P2P)的tinygrad驱动时,两块5090显卡效果相当不错。同样的原因,两块5090加上两块4090的组合运行得也挺好。我不会用3090进行训练,因为它们速度相当慢。4090的P2P驱动在这个链接:https://github.com/tinygrad/opengpukernelmodules ,而这个链接:https://github.com/tinygrad/opengpukernelmodules/issues/29issuecomment2765260985 介绍了在5090上启用P2P的方法。  
2025-8-11 09:41:43
主机配置不错啊,我目前也在基于线程撕裂者搭建类似的主机。我不明白的是,为什么你要用分路卡,然后通过PCIe 3 X4 来连接显卡(正如你在另一条评论里提到的那样)?我觉得直接把它们连接到主板上(或许可以用PCIe x16的延长线),就能提供足够的带宽来使用张量并行(使用vllm),这样能大幅提升速度。你用的是什么主板?  
2025-8-11 09:59:38
什么后端?
2025-8-19 08:05:05
我不太清楚是哪一层被卸载了。LM Studio里的默认参数设置成啥样我也不是很确定,反正我也没去折腾过那些高级选项(这倒是提醒我了,回头可以研究一下)。但我相信,等模型优化过后,你的体验应该会更上一层楼。我挺好奇的,当你提到“Q_8 k/v缓存,闪光注意”时,那个“Q_8”具体是指啥?因为你之前说你一开始跑的是Q_4模型。这个Q_8是不是一个高级设置?它到底意味着什么?
您需要登录后才可以回帖 立即登录
高级模式