我在一台机器里装了两块3090显卡,在另一台机器里装了一块RTX 8000显卡。要运行基于 Llama 3 的700亿参数(70b)、量化为Q4格式的模型,这两种配置都可行,但在3090显卡上的处理效果明显更好。要是你能接受多等几秒,而且这不会打乱你的工作流程,那一旦运行起来,速度也足够快了。不过,要是追求速度,再加一块5090显卡的性能会远超现在。所以这取决于你怎么使用它。就我个人而言,我通常用32位精度(32b)运行我的模型,使用任何大语言模型(LLM)时,我会用它与一系列小型教科书进行“对话”。但用思考型模型进行问答聊天时,就得稍微等一会儿了 。 |