国产开源#OCR技术再次迎来突破!近期,百度开源了全新的OCR大模型——Unlimited OCR。该模型主打连续、无间断地阅读几十页甚至上百页的长文档,并在权威基准测试 OmniDocBench 上刷新了SOTA纪录,整体性能超越了此前备受关注的 DeepSeek OCR。
与传统OCR在处理长文档时所采用的“逐页识别、再拼凑结果”的折中方案不同,Unlimited OCR 模拟了人类抄写员的认知模式:不需要强行死记硬背前面已经抄写过的所有文字,而是只保留当前工作所需的上下文和进度。基于这一设计,模型能够像人类一样实现连续的长程阅读。更重要的是,借助其创新的参考滑动窗口注意力(Reference Sliding Window Attention,简称 R-SWA)机制,即便输入的文档长度无限增加,模型的显存占用和计算开销也几乎能够保持恒定。
要理解 Unlimited OCR 的突破,需要先看传统OCR的局限。传统的OCR在解码阶段,每生成一个新 Token,都需要回看之前生成的所有 Token 以确定下一个字。随着文档增长,KV Cache 会呈指数级膨胀,导致显存溢出与推理变慢。因此,现有的OCR多采用循环(for-loop)式的“分段处理”方案。这种工程上的权宜之计打碎了上下文的连续性,也限制了模型在复杂、超长文本中的理解和关联表现。
Unlimited OCR 引入的 R-SWA 机制巧妙地解决了这一痛点。它受到人类“软遗忘”(Soft Forgetting)机制的启发:人类在抄书时,原书始终放在眼前(作为完整的参考),但大脑中只会保留最近写下的几行字以确认没有漏字跳行。R-SWA 同样如此,在生成文本时,模型始终保持对全部视觉Token和提示词的完整关注(即参考Token),而在输出端,则仅保留最近的固定历史 Token 参与计算。通过这种固定长度的队列管理,其 KV Cache 始终维持恒定大小,完美消除了显存爆炸问题。
在实验评估中,Unlimited OCR 在 OmniDocBench v1.6 上取得了 93.92% 的优异成绩,荣登榜首。在面对超过40页的超长文档测试时,其编辑距离(Edit Distance)依然维持在极低水平,表现极其稳定。此外,得益于恒定的 KV Cache 架构,当生成 6000 个 Token 时,其推理速度(TPS)相比 #DeepSeek OCR 提升了约 35%,延迟问题也得到了根本性的改善。
业内分析指出,从年初 DeepSeek 推出 OCR2 到智谱开源 GLM-OCR,再到如今百度的 Unlimited OCR,各大头部AI厂商正在重兵布局OCR赛道。其底层逻辑在于,互联网上的干净文本数据正被快速消耗,而企业真正有价值的数据大量沉睡在 PDF、合同、扫描件等“图像级数据”中。OCR 已不再是传统的工具,而是大模型时代最具战略价值的多模态数据入口之一。
OCR技术的范式转变,标志着 AI Agent 从“文本理解”向“多模态具身感知”演进的关键一步。传统的 OCR 只是孤立的文字提取工具,而百度 Unlimited OCR 通过创新的 R-SWA 机制实现了超长文档的连续流式解析,解决了大模型在处理复杂长程任务时的内存瓶颈。在 AI Agent 生态中,Agent 的感知能力直接决定了其规划和执行的上限。通过将超长 PDF、报告和图表转化为高保真度的连续 Token,Unlimited OCR 实际上为 Agent 装备了更强大的“视觉工作记忆”。这种恒定 KV Cache 的架构设计,不仅降低了 Agent 运行时的计算成本,更为未来构建能自主阅读整本说明书、独立审计财务报表、或是在海量本地文档中进行深度知识检索的“全知型 Agent”铺平了道路。这表明,未来的竞争不仅是模型参数的竞争,更是多模态物理世界向数字世界无缝映射通道的争夺。