发帖
 找回密码
 立即注册
搜索
0 0 0
日常闲聊 614 0 3 天前

我在使用lobechat的时候,发现历史对话总结看起来有助于压缩上下文以节省token。

例如我进行20轮对话(我10句,助手回复10句,假设每句话10K token)

如果我不开启历史对话总结,那么我说第21句话的请求将会消耗210K token。
如果我开启了限制4条的总结,那么我说第21句话的请求将会消耗40+10K=50k(总结假设消耗10k) token。

以上是历史对话总结功能的简述。

但是我怀疑这样的每次对话都是一个全新的上下文,因为每次对话的第一条信息变成了每次最新的总结信息。
导致完全无法使用到token缓存计费。
token缓存计费大约是正常价格的十分之一。

──── 0人觉得很赞 ────

使用道具 举报

没有进行实际测试,只是算出来的 哈哈哈
是的,不过要是遇到没有缓存的平台,倒是能起到节省token的作用。同时也能避免因上下文不足而强行截断上下文的情况。
是的,因为感觉好像都是前缀匹配的呢~
我玩酒馆的时候,会在五分钟内回复。gemini 2.5系列会命中缓存,超过五分钟就没有了。为了节省tokens,还是采用定期总结加上限制上下文的方式。
看上去好像还是用总结的方式会好一些呢。
5 小时前
花了些时间写了个脚本计算了一下,
下面是计算结果
您需要登录后才可以回帖 立即登录
高级模式