两周复刻DeepSeek-OCR，两人小团队还原低token高压缩核心，换完解码器更实用 - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

两周复刻DeepSeek-OCR，两人小团队还原低token高压缩核心，换完解码器更实用

2025-11-07 / 阅读约5分钟

来源：36kr

两人小团队两周复刻DeepSeek-OCR，推出DeepOCR，还原低token高压缩优势，采用视觉压缩降低算力开销，解码器调整为Qwen2-7B-Instruct，训练低算力友好，实测表现接近原版。

两人小团队，仅用两周就复刻了之前被硅谷夸疯的DeepSeek-OCR？？

复刻版名叫DeepOCR，还原了原版低token高压缩的核心优势，还在关键任务上追上了原版的表现。

完全开源，而且无需依赖大规模的算力集群，在两张H200上就能完成训练。

DeepSeek-OCR的设计思想是“靠视觉压缩一切”，通过用少量的视觉token来表示原本需要大量文本token的内容，以此降低大模型的计算开销，解决了大模型处理长文本的算力爆炸难题。

两人小团队能在短时间里复刻出核心能力，怎么做到的？

更实用的复刻版

先来简单回顾一下DeepSeek-OCR为啥会大爆。

大模型处理长文本时，算力会跟着序列长度呈二次方增长，几百页的文档就能把显存撑爆。

而DeepSeek-OCR想出了个反常识的解法——把文字渲染成图片，用视觉模态当压缩媒介。

这样一来，原本要几千个文本tokens才能承载的内容，几百个视觉tokens就够了，压缩比能做到7-20倍，而且10倍压缩下准确率还能保持97%。

也难怪它一开源就火了，还被称为“AI的JPEG时刻”。

而两人小团队复刻的核心策略也很明确，先把原版的逻辑架构精准还原。

△

DeepSeek-OCR的灵魂就在于DeepEncoder编码器。在这部分上，团队严格遵循原版设计，采用「局部处理-压缩-全局理解」的三阶段串联结构。

第一步用SAM-base处理高分辨率图像，把1024×1024的图切成16×16的补丁，靠窗口注意力控制激活内存，就算生成4096个初始token也不会让显存过载；

然后用16×卷积压缩器、两层3×3卷积把4096个token砍到256个，还把特征维度从256扩到1024，为后续的全局注意力减负；

最后用CLIP-large接手，但它不读原图，只处理压缩后的256个tokens，靠密集全局注意力抓文档语义，避开了纯全局注意力的内存爆炸问题。

复刻版还像原版一样，把CLIP的补丁特征和展平后的SAM特征拼接，输出2048维的融合特征。

不过，在解码器上，复刻版做了个更务实的调整，把原版激活参数为570M的DeepSeek-3B-MoE换成了Qwen2-7B-Instruct。

做这个调整倒不是技术还原不了，而是Qwen2-7B-Instruct和VILA训练框架兼容性更好，而且是完全开源的。

从后面的结果上看，这个替换是合理的，核心能力没丢，还降低了落地门槛。

在训练上，DeepOCR的低算力友好特性体现得很明显。

采用两阶段训练流程，且全程冻结DeepEncoder（SAM+CLIP），这个设计就大幅降低了显存需求。

第一阶段仅训练多模态投影仪，冻结DeepEncoder与LLM，采用512的全局batch size、1e-3学习率，配合AdamW优化器与ZeRO-3卸载技术；

第二阶段是全模型预训练，训练多模态投影仪与LLM，仍冻结DeepEncoder，全局batch size降至32，学习率调整为5e-5，同时开启梯度检查点进一步减少激活内存占用。

这套训练方案可以在2×H200 GPU上跑通，还是挺适配中小团队资源条件的。

再看实测数据，压缩效率上，DeepOCR用约250个视觉tokens，效率虽然稍逊色于DeepSeek-OCR Base版，但Qwen2.5-VL-7B等基线VLMs需要3949个token才能达到类似效果。

这也印证了光学压缩逻辑的有效性。

基础任务中，英文文本识别和表格解析表现突出，尤其表格解析甚至优于原版，这也得益于对原版2D空间编码的精准还原。

在olmOCR基准里，简单文档的基础OCR能力也很扎实，与原版表现接近。

当然，DeepOCR和原版客观上的差距也有，但并不是架构没还原好，而是训练数据的限制。

团队表示接下来会补充公式、多语言、旧扫描件等数据，试试动态温度缩放、RLVR这些技术，把复杂任务的差距再缩小。

两人团队介绍

Ming Liu本科毕业于山东大学，专业是应用物理。后来在北京大学拿到了物理硕士学位，目前在爱荷华州立大学攻读计算机博士，研究聚焦于多模态领域。

曾在亚马逊担任应用科学家实习生，从事LLM相关工作。

刘世隆在清华大学拿到了工学学士和计算机博士学位，现为普林斯顿大学人工智能实验室博士后研究员。研究领域在LLM智能体、多模态、计算机视觉等方面。

在加入普林斯顿之前，他曾是字节Seed团队的科研人员。还曾在英伟达、微软等公司实习过。

项目主页：https://pkulium.github.io/DeepOCR_website/

代码地址：https://github.com/pkulium/DeepOCR

上一篇：强化学习教父重出江湖，生成式AI的时代要结束了？

下一篇：陶哲轩力推AlphaEvolve：解决67个不同数学问题，多个难题中超越人类最优解

返回列表

热文阅读

2 天前

Mobileye发布2026财年第一季度财报，上调全年业绩展望，并宣布2.5亿美元股票回购计划

2 天前

【专利】蔚来换电技术惹争议，2.5亿美元索赔遭否认

2 天前

特斯拉首座大规模人形机器人的工厂来了：年产能100万台

2 天前

OpenAI发布工作流Agent，GPTs进入倒计时

2 天前

英特尔2026年Q1财报：营收136亿美元，净利润大涨156%

2 天前

中兴通讯亮相CCBN2026：全栈创新，为广电注入AI新动能

2 天前

姚顺雨交出首张答卷，腾讯AI有了一个新底座

2 天前

DeepSeek V4完整技术规格偷跑：1.6万亿参数、1M上下文

2 天前

DeepSeek首轮融资细节披露：50亿元起投估值3000亿

2 天前

Day0适配 | 壁仞科技x腾讯混元，率先支持Hy3 preview语言模型

上一篇：强化学习教父重出江湖，生成式AI的时代要结束了？

下一篇：陶哲轩力推AlphaEvolve：解决67个不同数学问题，多个难题中超越人类最优解

Just Quick Just Quality

发现

资讯话题

热门话题

7 x 24跟踪全球科技动态

快讯

资讯

视频

关于我们