关于节省token的历史对话总结功能

日常闲聊 · 3 天前

我在使用lobechat的时候，发现历史对话总结看起来有助于压缩上下文以节省token。

例如我进行20轮对话（我10句，助手回复10句，假设每句话10K token）

如果我不开启历史对话总结，那么我说第21句话的请求将会消耗210K token。
如果我开启了限制4条的总结，那么我说第21句话的请求将会消耗40+10K=50k（总结假设消耗10k） token。

以上是历史对话总结功能的简述。

但是我怀疑这样的每次对话都是一个全新的上下文，因为每次对话的第一条信息变成了每次最新的总结信息。
导致完全无法使用到token缓存计费。
token缓存计费大约是正常价格的十分之一。

美熊悦 · 3 天前

没有进行实际测试，只是算出来的哈哈哈

陈玟佳 · 3 天前

是的，不过要是遇到没有缓存的平台，倒是能起到节省token的作用。同时也能避免因上下文不足而强行截断上下文的情况。

scrollll · 3 天前

是的，因为感觉好像都是前缀匹配的呢~

小念 · 前天 09:23

我玩酒馆的时候，会在五分钟内回复。gemini 2.5系列会命中缓存，超过五分钟就没有了。为了节省tokens，还是采用定期总结加上限制上下文的方式。

暖月鱼 · 前天 16:01

看上去好像还是用总结的方式会好一些呢。

kyc · 5 小时前

花了些时间写了个脚本计算了一下，
下面是计算结果

		自动登录	找回密码
密码			立即注册

交流关于节省token的历史对话总结功能