我最近在用 pi-context-prune 这个插件,今天腾讯新出的 agent memory 也用了类似的思路。
就是动态去 offload agent 的 tool output,因为多数 tool output 没啥用。然后如果模型想拿到具体信息,就提供一个工具可以召回。
测试对 Agent 能力没啥大的影响,tokens 也能大幅压缩,但是 cache 命中率不可避免受到影响。
我原来是每轮 Agent 行动完后压缩,现在改成手动了,当我觉得上文够长但是又不想 compact 的话就手动触发一下,还蛮好用的。
显示更多