DeepSeek开源OCR模型实现视觉文本压缩，革新AI识别技术

AI快讯 2025-10-20

## DeepSeek开源革命性OCR模型：实现10倍无损文本压缩 DeepSeek最新发布的开源OCR模型DeepSeek-OCR，正在重新定义人工智能在文本识别领域的能力边界。这款拥有30亿参数的模型，在短短上线时间内就获得了超过100次下载，展现了业界对这一创新技术的强烈关注。 ### 突破性的技术架构该项目由DeepSeek的三位研究员Haoran Wei、Yaofeng Sun和Yukun Li共同主导完成。值得注意的是，第一作者Haoran Wei此前曾在阶跃星辰工作，并主导开发了备受瞩目的GOT-OCR2.0系统，该项目在GitHub上已收获超过7800个星标，为其在DeepSeek继续推进OCR技术奠定了坚实基础。 **核心资源链接：** - 论文标题：DeepSeek-OCR: Contexts Optical Compression - 项目地址：GitHub平台可访问 - 论文全文：提供详细技术文档 - 模型部署：Hugging Face平台已上线 ### 革命性的压缩理念 DeepSeek-OCR的核心创新在于探索通过光学二维映射技术实现长文本上下文压缩的可行性。该模型采用双核心组件设计： **DeepEncoder引擎**：作为模型的核心处理单元，能够在保持高分辨率输入的同时维持低激活状态，实现高压缩比并生成适量的视觉token。 **DeepSeek3B-MoE-A570M解码器**：负责从压缩的视觉表示中重建原始文本内容。 ### 卓越的性能表现实验数据令人印象深刻：当文本token数量在视觉token的10倍范围内时，模型的OCR识别精度高达97%。即使在压缩率达到20倍的情况下，识别准确率仍能维持在60%左右。这一突破为长上下文压缩和大语言模型的记忆优化研究开辟了新的可能性。在实际应用层面，DeepSeek-OCR展现出惊人的效率优势： - 在OmniDocBench基准测试中，仅使用100个视觉token就超越了需要256个token的GOT-OCR2.0 - 使用不到800个视觉token即优于平均需要6000+token的MinerU2.0 - 单张A100-40G GPU每天可生成超过20万页训练数据 ### 技术深度解析 **DeepEncoder设计哲学** 研究团队发现，要实现有效的光学上下文压缩，需要满足五个关键条件的视觉编码器：高分辨率处理能力、低激活状态、少量视觉token、多分辨率支持以及适中的参数量。由于现有开源方案无法完全满足这些要求，团队自主研发了DeepEncoder。这一创新编码器结合了窗口注意力机制和全局注意力架构，分别采用SAM-base和CLIP-large作为基础组件，通过精心设计的卷积模块实现16倍下采样，确保在保持性能的同时优化计算效率。 **MoE解码器优势** 模型采用DeepSeekMoE架构，在推理过程中仅激活部分专家网络，实现了大模型表达能力与小模型推理效率的完美平衡。这种设计特别适合以OCR为中心的视觉语言模型研究。 ### 全面的训练体系团队为DeepSeek-OCR构建了多层次训练数据： - OCR 1.0数据：涵盖传统场景和文档识别任务 - OCR 2.0数据：包含复杂图表、化学公式和几何图形解析 - 通用视觉数据：增强模型的通用图像理解能力训练流程采用两阶段策略，首先独立训练DeepEncoder，随后进行端到端的完整模型训练，充分利用HAI-LLM平台的计算资源。 ### 实际应用验证在Fox基准数据集上的测试结果显示，DeepSeek-OCR在不同压缩比率下均表现出色。特别是在处理各类文档时展现出显著差异： - 幻灯片文档：仅需64个视觉token即可获得满意效果 - 书籍和报告：100个视觉token即可实现优质识别 ### 多模态能力展示模型展现出令人瞩目的多领域解析能力： - 复杂图表深度解析 - 几何图形精确识别 - 化学公式准确提取 - 自然图像理解 - 近100种语言的多语言支持这些能力仅需统一的提示词即可激活，展现了模型强大的泛化能力和应用潜力。 DeepSeek-OCR的开源不仅为OCR技术带来了革命性突破，更为整个AI社区的文本处理和理解能力树立了新的标杆。

想获取更多AI最新资讯与智能工具推荐，欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台 与 AI学习社区

本文来源：机器之心

原文链接：https://www.jiqizhixin.com/articles/bb6df4e3-8e7e-477e-bd8b-e1fa2eaafa07