关于节省token的历史对话总结功能

日常闲聊 · 2025-8-25 14:23:51

我在使用lobechat的时候，发现历史对话总结看起来有助于压缩上下文以节省token。

例如我进行20轮对话（我10句，助手回复10句，假设每句话10K token）

如果我不开启历史对话总结，那么我说第21句话的请求将会消耗210K token。
如果我开启了限制4条的总结，那么我说第21句话的请求将会消耗40+10K=50k（总结假设消耗10k） token。

以上是历史对话总结功能的简述。

但是我怀疑这样的每次对话都是一个全新的上下文，因为每次对话的第一条信息变成了每次最新的总结信息。
导致完全无法使用到token缓存计费。
token缓存计费大约是正常价格的十分之一。

美熊悦 · 2025-8-25 15:45:35

没有进行实际测试，只是算出来的哈哈哈

陈玟佳 · 2025-8-25 17:29:41

是的，不过要是遇到没有缓存的平台，倒是能起到节省token的作用。同时也能避免因上下文不足而强行截断上下文的情况。

scrollll · 2025-8-25 18:30:38

是的，因为感觉好像都是前缀匹配的呢~

小念 · 2025-8-26 09:23:46

我玩酒馆的时候，会在五分钟内回复。gemini 2.5系列会命中缓存，超过五分钟就没有了。为了节省tokens，还是采用定期总结加上限制上下文的方式。

暖月鱼 · 2025-8-26 16:01:47

看上去好像还是用总结的方式会好一些呢。

kyc · 2025-8-28 11:36:10

花了些时间写了个脚本计算了一下，
下面是计算结果

胖鱼子 · 2025-8-29 11:10:27

乱七八糟的计费陷阱喵~
猫有点晕(
猫记得api应该会返回命中缓存的token吧(瘫
应该都是新的喵~ 因为好像都是前缀匹配的(
而且似乎和厂商有些关系喵~

胖望儿 · 6 天前

喵~ 楼主讨论的不是有缓存的情况喵~
猫补上了(瘫

想飞的菜鸟 · 6 天前

当然，上下文是新的啦~~www

lbeminy · 5 天前

是否命中缓存是由各个厂商自行制定的策略来决定的吧，和压缩上下文没太大关系。

另外，在不超过模型最大上下文长度的情况下，手动进行总结感觉意义不是很大吧。

		自动登录	找回密码
密码			立即注册

交流关于节省token的历史对话总结功能