发帖
 找回密码
 立即注册
搜索
0 0 0
前沿技术 658 0 2025-7-30 10:26:26
很好奇大家现在都在用什么。你日常常用的是哪些模型?你用的是什么硬件?你是如何运行它的?(比如LM Studio、Ollama、llama.cpp 等)你用它来做什么?以下是我的情况:最近我主要在使用通义千问3(30B、32B 和 235B 版本)锐龙7 5800X处理器,128GB内存,RTX 3090显卡通过Ollama + 开放式网络用户界面运行主要用于日常通用需求以及一些我不想在云平台上进行的私密对话
──── 0人觉得很赞 ────

使用道具 举报

2025-7-30 11:45:15
它基本上与GPT  4.1相当,有时甚至更好。也许在某些任务上能胜过o3  mini 。  
2025-7-30 11:48:16
DDR5很不错,但我还没准备好进行这笔投资呢 :)
2025-7-30 12:27:18
目前,Qwen3 32b为我生成的输出效果最佳。我曾针对同一任务对QwQ和Qwen3 32b进行过简短的基准测试,结果Qwen3 32b胜出。我也试用过30b,它的每秒处理事务数(TPS)很不错,但输出效果还不够理想。我还试过Qwen3 14b,它也很好,但32b的表现更胜一筹。  
2025-7-30 13:11:39
在一次私人安装中,采用了V3 + r1与Gemini Pro 2.5的组合
2025-7-31 12:05:54
文心一言3(推测Qwen3可能是这个意思,原英文可能有误)整体表现最佳。当我在现场且只有CPU可用时,它的优势就凸显出来了。实际上,我能运行一个235B模型,并且每秒能处理3个词元。还有像指令A(Command A 推测含义,原表述可能有误)和羊驼(Llama)这样参数更密集的模型,但在低资源环境中,它们并不实用,而文心一言的专家混合模型在这种环境下却表现出色,并且其智能程度比7B模型更高 。  
你们有些人从来没用过拨号上网,这就暴露了(年龄差距)。唉,我真是老喽。  
2025-7-31 15:24:09
通文3  30B  A3B(Q6 GGUF):适用于几乎任何内存大于等于24GB的个人电脑就能运行的简单任务。通文3  32B  AWQ:适用于难度较高的编码和STEM任务,性能接近o3  mini,与通文2.5相比,在对话方面表现更出色。通文2.5  VL  7B:适用于光学字符识别(OCR)和基础多模态任务。杰玛3  27B:与通文3相比,具备更好的对话能力,知识略有增强,幻觉更少,但在编码和数学任务方面明显落后于通文系列。 Llama3.3  70B/通文2.5  72B/Command  A:适用于对知识和处理能力有要求的任务,不过在推理方面可能比不上一些较小的模型。你可以在内存大于等于256GB的系统上运行Llama4  Maverick,但总体而言该模型表现并不出色。米斯特拉尔小模型(Mistral Small)、Phi4、Minicpm4和GLM4  0414在特定任务中效果不错,但在大多数场景下并非首选。  
2025-7-31 15:32:15
我主要使用的模型,按使用频率从高到低排列:Phi425B,用于技术研发和EvolInstruct;Gemma327B,用于创意写作、检索增强生成(RAG),以及给我解释不熟悉的程序代码;MedGemma27B,用于帮我解读医学期刊论文;Tulu370B,用于那些对Phi425B来说难度过高的技术研发。通常,我的主要推理服务器是一台配备AMD MI60的双E52690v4服务器,但为了防止家庭实验室在夏季过热,我把它关了。正常情况下,我会通过llamaserver将Phi425B加载到MI60中,现在我很想念它,这让我在考虑升级服务器的散热系统,或者在我的托管系统中再添加一块GPU(因为托管服务不收取我的电费)。在没有它的情况下,我一直在一台P73 ThinkPad(i79750H处理器,双插槽32GB DDR42666内存)和一台戴尔T7910(双E52660v3处理器,八插槽256GB DDR42133内存)上使用llama.cpp的llamacli。没有MI60的话,我就没办法经常测试我的EvolInstruct解决方案了,所以我希望能借此机会处理一些我一直搁置的代码开放任务。有一段时间,我一直随意记录纯CPU推理性能统计数据,最近我把这些数据整理成了一个表格:http://ciar.org/h/performance.html显然,CPU推理速度很慢,但我已经养成了适应这种情况的工作习惯。我可以在等待一项任务的推理结果时,去做其他相关任务。
2025-7-31 16:54:25
昆仑万维的天工3(qwen3 )300亿参数版本(30b )、阿里云通义千问的300亿参数版本(a3b ) 以及字节跳动的豆包120亿参数版本(nemo 12b )可用于构建世界设定、创意写作和聊天。这些模型幻觉现象太严重,无法像离线互联网那样可靠使用,而离线互联网功能是我对它们的唯一其他需求 。 注:这里原文“nemo”根据推测是指豆包模型(字节跳动云雀模型在海外叫Nemo) ,但不确定原英文表述是否确切是指这几个模型 。以上对模型的翻译仅为便于理解,实际情况可能有偏差。  
2025-8-1 15:13:05
谢谢!
2025-8-1 15:19:06
双子座2.5涡轮增压深度研究(工具),用于在互联网上搜集冷邮件 。  
2025-8-4 14:40:23
谢谢!我的设置几乎一模一样。你会针对特定任务在不同模型之间切换吗?我主要想连接到集成开发环境(IDE)以避免产生积分费用,所以我想要一个能生成高质量代码的(模型 )。  
2025-8-5 08:48:10
DeepSeek V3 0324/DeepSeek R1 0528RTX 5090X2 + 4090x2 + 3090x2 + A6000,192GB内存。llamacpp和ikllamacpp编程与角色扮演
2025-8-6 10:58:54
你给它布置一个任务,然后过几分钟再回来。哈哈,你已经被高性能显卡(GPU)惯坏啦!
2025-8-6 12:06:28
好奇地问一下,你得到的速度、每秒处理数据包数(pp)和每克吞吐量(tg)是多少?我也在考虑类似的事情。那是Q3 XL无延迟(unsloth 推测词意,可能不准确)的完整情况吗?与235b相比,速度和代码质量如何?  
杰玛3 1B
能够进行还算不错对话的最小规模多语言模型  
2025-8-6 15:41:23
QwQ32B、Qwen330BA3B、DeepSeekR1、Gemini 2.5 Pro
2025-8-6 15:42:25
Deepseek R1 0528 iq4_xs 用于日常事务和编程
Qwen 3 235b q8_0 用于工具使用Epyc 9734处理器,384GB DDR5内存,RTX 4090显卡通过网页界面使用llama.cpp、sillytavern、goose日常使用,少量编程,工具使用
2025-8-8 13:34:29
我在我的旧服务器电脑上使用通义千问3 30B A3B,效果非常好。主要用它来处理一些小代码和进行修复工作 。  
2025-8-9 20:13:44
仅用中央处理器(CPU),你是如何让235B达到每秒3次(3 t/s)的?你的现场设备中有多少内存,是什么类型的内存?
2025-8-10 13:30:02
这配置玩得挺嗨呀
2025-8-14 09:44:04
我通用的得力工具是米斯特拉尔3.1小型模型。这模型超棒的,还具备视觉处理能力。在我看来,它基本上比杰玛3还要出色。清问3 30B A3B部署在我位于iQ4XS、没有GPU的服务器上。在这上面我能达到每秒15个令牌的处理速度。对于仅靠CPU进行推理来说,这速度相当惊人。有需要时,米斯特拉尔会在3090显卡上运行。我可能会把我的P40显卡从柜子里翻出来,用它来运行30B模型。我感觉它和那块GPU简直是绝配,特别是我当时买得很便宜。  
2025-8-14 22:08:59
我也是同样的配置,不过只试了4位的MLX量化模型。你那边两个8位模型跑出来大概有多少token/s?
2025-8-17 22:00:02
配置好丰富呀~
您需要登录后才可以回帖 立即登录
高级模式