我们之前还在笑话那个最大的(我觉得现在应该还是吧?)开源模型被压缩得太狠了。但其实,如果不是一味追求极限,稍微保守一点的压缩方法也能行得通。关键是把精力放在训练上,比如精简数据集、聪明地做量化(quanting)这些方面。这些方向其实潜力巨大,对于小团队来说,比跟OpenAI和DeepSeek这种拼“谁多烧几十亿参数”要现实得多。比如,把70B的模型压缩到只剩3.5位还能保持稳定,或者把32B的模型缩小到1112B,同时还能保持智能水平。说白了,就是把原本厉害的模型“降维打击”到能跑在一块GPU上。想想一年前我们在哪?那时候有人提出一个1.5B参数的模型就够很多人用了,哪怕只是干一件很专的事,听起来都像个笑话。但现在,这种模型已经存在了。虽然还不算多,但确实有了。我现在就挺开心的,生活在一个我可以用4B或9B参数的小模型来做网络搜索助手的世界。我还可以用0.5B的模型来检查JSON格式,或者用3B的模型来处理文档。我现在已经有十几GB的模型,分成六七个专才小模型,它们各自干好自己的活,就像一把把趁手的小工具:刀、叉、螺丝刀啥的。相比之下,那种32B的大模型虽然啥都能干,但又慢又笨重,就像是把一把勉强能当武器的破叉子当万能工具使。说白了,我可以用勺子去撬开UPS的包裹……但那得多费劲,最后还不一定弄得好,场面可能一团糟。 |