我在使用lobechat的时候,发现历史对话总结看起来有助于压缩上下文以节省token。
例如我进行20轮对话(我10句,助手回复10句,假设每句话10K token)
如果我不开启历史对话总结,那么我说第21句话的请求将会消耗210K token。
如果我开启了限制4条的总结,那么我说第21句话的请求将会消耗40+10K=50k(总结假设消耗10k) token。
以上是历史对话总结功能的简述。
但是我怀疑这样的每次对话都是一个全新的上下文,因为每次对话的第一条信息变成了每次最新的总结信息。
导致完全无法使用到token缓存计费。
token缓存计费大约是正常价格的十分之一。