注册并分享邀请链接,可获得视频播放与邀请奖励。

Jason Zhu (@GoSailGlobal) “现在的 OCR 处理几十页文档,是逐页跑的 每翻一页,记忆清零一次 百度今天悄悄在 GitH” — TopicDigg

Jason Zhu 的个人资料封面
Jason Zhu 的头像
Jason Zhu
@GoSailGlobal
Cursor-certified 🌟|独立开发 · Build In Public Skills hub: 博客: 🤝 合作DM:GoSail_AI 📮:m17551076169@gmail.com MCN:collab@gosaillab.com
加入 May 2025
2.1K 正在关注    32.9K 粉丝
现在的 OCR 处理几十页文档,是逐页跑的 每翻一页,记忆清零一次 百度今天悄悄在 GitHub 和 HuggingFace 开源了一个模型,叫 Unlimited OCR,它的灵感,来自人类抄书: - 你抄一本书,不会每写一个字就把前面几百页重读一遍 - 你只瞄一眼附近写到哪了,剩下的,做的是「软遗忘」 - 人就是靠这种低负荷的连续认知状态,扛住了长程任务 百度把这个直觉,做成了一个注意力机制 R-SWA(参考滑动窗口注意力): 每个 token 看得到整张图,但输出端只回看最近 128 个 token KV Cache 全程恒定,不随页数膨胀 结果是:在 32K 上下文下,一次前向推理,转录几十页文档,从逐页 for-loop,变成一口气抄完 逐页 for-loop 是工程权宜 连续的认知状态,才更像智能该有的样子 百度最近的路子,确实不太一样了 🌟 🌟
显示更多
0
59
337
54
转发到社区