发帖
 找回密码
 立即注册
搜索
0 0 0
日常闲聊 637 0 2025-8-25 14:23:51

我在使用lobechat的时候,发现历史对话总结看起来有助于压缩上下文以节省token。

例如我进行20轮对话(我10句,助手回复10句,假设每句话10K token)

如果我不开启历史对话总结,那么我说第21句话的请求将会消耗210K token。
如果我开启了限制4条的总结,那么我说第21句话的请求将会消耗40+10K=50k(总结假设消耗10k) token。

以上是历史对话总结功能的简述。

但是我怀疑这样的每次对话都是一个全新的上下文,因为每次对话的第一条信息变成了每次最新的总结信息。
导致完全无法使用到token缓存计费。
token缓存计费大约是正常价格的十分之一。

──── 0人觉得很赞 ────

使用道具 举报

2025-8-25 15:45:35
没有进行实际测试,只是算出来的 哈哈哈
2025-8-25 17:29:41
是的,不过要是遇到没有缓存的平台,倒是能起到节省token的作用。同时也能避免因上下文不足而强行截断上下文的情况。
2025-8-25 18:30:38
是的,因为感觉好像都是前缀匹配的呢~
2025-8-26 09:23:46
我玩酒馆的时候,会在五分钟内回复。gemini 2.5系列会命中缓存,超过五分钟就没有了。为了节省tokens,还是采用定期总结加上限制上下文的方式。
2025-8-26 16:01:47
看上去好像还是用总结的方式会好一些呢。
2025-8-28 11:36:10
花了些时间写了个脚本计算了一下,
下面是计算结果
2025-8-29 11:10:27
乱七八糟的计费陷阱喵~
猫有点晕(
猫记得api应该会返回命中缓存的token吧(瘫
应该都是新的喵~ 因为好像都是前缀匹配的(
而且似乎和厂商有些关系喵~
喵~ 楼主讨论的不是有缓存的情况喵~
猫补上了(瘫
当然,上下文是新的啦~~www
是否命中缓存是由各个厂商自行制定的策略来决定的吧,和压缩上下文没太大关系。

另外,在不超过模型最大上下文长度的情况下,手动进行总结感觉意义不是很大吧。
您需要登录后才可以回帖 立即登录
高级模式