Fenng (@Fenng) “HuggingFace、GitHub 四榜登顶，仅 5 天 Star 破万，百度 Unlimited OCR 跻身增长最快”

10hours ago

HuggingFace、GitHub 四榜登顶，仅 5 天 Star 破万，百度 Unlimited OCR 跻身增长最快开源项目之一。前两天时间线里看到不少人在说百度发布的 Unlimited-OCR。其实 OCR 是百度的传统优势，有技术积累，PaddleOCR 的口碑一直很好。这次的 Unlimited-OCR 模型规模并不大：总参数 3B、570M 激活参数的 MoE，但在几十页文档连续识别能力上特别强……据说灵感来自像人类一样抄书，不仅提升了 OCR 在长文档场景下的可用性，也为大模型长期记忆管理提供了新的技术思路。这对很多有技术场景需求的团队是个好消息啊。基于 DeepSeek-OCR 的 DeepEncoder，把 DeepSeek-OCR 路线里长文档解析的工程瓶颈往前推了一步。论文作者名单里那个「YY」也引发了一些猜测，有人怀疑是 DeepSeek-OCR 核心作者魏浩然，未经证实。。

显示更多