百度开源Unlimited OCR：连续解析整本书，刷新SOTA超越DeepSeek

国产开源#OCR技术再次迎来突破！近期，百度开源了全新的OCR大模型——Unlimited OCR。该模型主打连续、无间断地阅读几十页甚至上百页的长文档，并在权威基准测试 OmniDocBench 上刷新了SOTA纪录，整体性能超越了此前备受关注的 DeepSeek OCR。

与传统OCR在处理长文档时所采用的“逐页识别、再拼凑结果”的折中方案不同，Unlimited OCR 模拟了人类抄写员的认知模式：不需要强行死记硬背前面已经抄写过的所有文字，而是只保留当前工作所需的上下文和进度。基于这一设计，模型能够像人类一样实现连续的长程阅读。更重要的是，借助其创新的参考滑动窗口注意力（Reference Sliding Window Attention，简称 R-SWA）机制，即便输入的文档长度无限增加，模型的显存占用和计算开销也几乎能够保持恒定。

要理解 Unlimited OCR 的突破，需要先看传统OCR的局限。传统的OCR在解码阶段，每生成一个新 Token，都需要回看之前生成的所有 Token 以确定下一个字。随着文档增长，KV Cache 会呈指数级膨胀，导致显存溢出与推理变慢。因此，现有的OCR多采用循环（for-loop）式的“分段处理”方案。这种工程上的权宜之计打碎了上下文的连续性，也限制了模型在复杂、超长文本中的理解和关联表现。

Unlimited OCR 引入的 R-SWA 机制巧妙地解决了这一痛点。它受到人类“软遗忘”（Soft Forgetting）机制的启发：人类在抄书时，原书始终放在眼前（作为完整的参考），但大脑中只会保留最近写下的几行字以确认没有漏字跳行。R-SWA 同样如此，在生成文本时，模型始终保持对全部视觉Token和提示词的完整关注（即参考Token），而在输出端，则仅保留最近的固定历史 Token 参与计算。通过这种固定长度的队列管理，其 KV Cache 始终维持恒定大小，完美消除了显存爆炸问题。

在实验评估中，Unlimited OCR 在 OmniDocBench v1.6 上取得了 93.92% 的优异成绩，荣登榜首。在面对超过40页的超长文档测试时，其编辑距离（Edit Distance）依然维持在极低水平，表现极其稳定。此外，得益于恒定的 KV Cache 架构，当生成 6000 个 Token 时，其推理速度（TPS）相比 #DeepSeek OCR 提升了约 35%，延迟问题也得到了根本性的改善。

业内分析指出，从年初 DeepSeek 推出 OCR2 到智谱开源 GLM-OCR，再到如今百度的 Unlimited OCR，各大头部AI厂商正在重兵布局OCR赛道。其底层逻辑在于，互联网上的干净文本数据正被快速消耗，而企业真正有价值的数据大量沉睡在 PDF、合同、扫描件等“图像级数据”中。OCR 已不再是传统的工具，而是大模型时代最具战略价值的多模态数据入口之一。

AgentUpdate 深度解析

OCR技术的范式转变，标志着 AI Agent 从“文本理解”向“多模态具身感知”演进的关键一步。传统的 OCR 只是孤立的文字提取工具，而百度 Unlimited OCR 通过创新的 R-SWA 机制实现了超长文档的连续流式解析，解决了大模型在处理复杂长程任务时的内存瓶颈。在 AI Agent 生态中，Agent 的感知能力直接决定了其规划和执行的上限。通过将超长 PDF、报告和图表转化为高保真度的连续 Token，Unlimited OCR 实际上为 Agent 装备了更强大的“视觉工作记忆”。这种恒定 KV Cache 的架构设计，不仅降低了 Agent 运行时的计算成本，更为未来构建能自主阅读整本说明书、独立审计财务报表、或是在海量本地文档中进行深度知识检索的“全知型 Agent”铺平了道路。这表明，未来的竞争不仅是模型参数的竞争，更是多模态物理世界向数字世界无缝映射通道的争夺。

百度开源Unlimited OCR：连续解析整本书，刷新SOTA超越DeepSeek

推荐阅读

DeepSeek发布DSpark加速框架，大模型生成速度暴涨85%

AI 遗忘症有解！OKF 格式为 Claude Code 打造持久记忆

算力告急！谷歌限制Meta使用Gemini，大厂AI算力争夺战白热化