你问什么是quants?其实在我这边已经搞出了不少名堂:30B参数的模型指导下,跑了2507 unsloth q4_k_xl(简单任务,速度飞起)同样30B参数,思维链跑了2507 unsloth q6_k(中等难度,速度也还行)GLM4.5空气版,跑了unsloth q4_k_xl(难度高点的,也能搞定)性能方面,qwen3 30b我这边能跑到300400TPS的prompt处理,生成也能到2535TPS。
用GLM4.5空气版的话,大概能跑到80TPS处理,13TPS生成。说实话,我还没遇到空气跑不动的模型,不过我平时也拿这些东西干点简单的活,比如数据格式化、懒得写的Python小脚本、SQL查询,尤其是遇到奇怪的问题卡住了的时候。
有时候也会扔个cmake的构建日志,用来调试我正在编译和运行的各种开源项目。 |