Jason Zhu (@GoSailGlobal) “现在的 OCR 处理几十页文档，是逐页跑的每翻一页，记忆清零一次百度今天悄悄在 GitH”

2026.06.22 08:36

现在的 OCR 处理几十页文档，是逐页跑的每翻一页，记忆清零一次百度今天悄悄在 GitHub 和 HuggingFace 开源了一个模型，叫 Unlimited OCR，它的灵感，来自人类抄书： - 你抄一本书，不会每写一个字就把前面几百页重读一遍 - 你只瞄一眼附近写到哪了，剩下的，做的是「软遗忘」 - 人就是靠这种低负荷的连续认知状态，扛住了长程任务百度把这个直觉，做成了一个注意力机制 R-SWA（参考滑动窗口注意力）：每个 token 看得到整张图，但输出端只回看最近 128 个 token KV Cache 全程恒定，不随页数膨胀结果是：在 32K 上下文下，一次前向推理，转录几十页文档，从逐页 for-loop，变成一口气抄完逐页 for-loop 是工程权宜连续的认知状态，才更像智能该有的样子百度最近的路子，确实不太一样了 🌟 🌟

显示更多