两周复刻DeepSeek-OCR,两人小团队还原低token高压缩核心,换完解码器更实用
15 小时前 / 阅读约5分钟
来源:36kr
两人小团队两周复刻DeepSeek-OCR,推出DeepOCR,还原低token高压缩优势,采用视觉压缩降低算力开销,解码器调整为Qwen2-7B-Instruct,训练低算力友好,实测表现接近原版。

两人小团队,仅用两周就复刻了之前被硅谷夸疯的DeepSeek-OCR??

复刻版名叫DeepOCR,还原了原版低token高压缩的核心优势,还在关键任务上追上了原版的表现。

完全开源,而且无需依赖大规模的算力集群,在两张H200上就能完成训练。

DeepSeek-OCR的设计思想是“靠视觉压缩一切”,通过用少量的视觉token来表示原本需要大量文本token的内容,以此降低大模型的计算开销,解决了大模型处理长文本的算力爆炸难题。

两人小团队能在短时间里复刻出核心能力,怎么做到的?

更实用的复刻版

先来简单回顾一下DeepSeek-OCR为啥会大爆。

大模型处理长文本时,算力会跟着序列长度呈二次方增长,几百页的文档就能把显存撑爆。

而DeepSeek-OCR想出了个反常识的解法——把文字渲染成图片,用视觉模态当压缩媒介

这样一来,原本要几千个文本tokens才能承载的内容,几百个视觉tokens就够了,压缩比能做到7-20倍,而且10倍压缩下准确率还能保持97%

也难怪它一开源就火了,还被称为“AI的JPEG时刻”。

而两人小团队复刻的核心策略也很明确,先把原版的逻辑架构精准还原。

DeepSeek-OCR的灵魂就在于DeepEncoder编码器。在这部分上,团队严格遵循原版设计,采用「局部处理-压缩-全局理解」的三阶段串联结构。

第一步用SAM-base处理高分辨率图像,把1024×1024的图切成16×16的补丁,靠窗口注意力控制激活内存,就算生成4096个初始token也不会让显存过载;

然后用16×卷积压缩器、两层3×3卷积把4096个token砍到256个,还把特征维度从256扩到1024,为后续的全局注意力减负;

最后用CLIP-large接手,但它不读原图,只处理压缩后的256个tokens,靠密集全局注意力抓文档语义,避开了纯全局注意力的内存爆炸问题。

复刻版还像原版一样,把CLIP的补丁特征和展平后的SAM特征拼接,输出2048维的融合特征。

不过,在解码器上,复刻版做了个更务实的调整,把原版激活参数为570M的DeepSeek-3B-MoE换成了Qwen2-7B-Instruct

做这个调整倒不是技术还原不了,而是Qwen2-7B-Instruct和VILA训练框架兼容性更好,而且是完全开源的。

从后面的结果上看,这个替换是合理的,核心能力没丢,还降低了落地门槛。

在训练上,DeepOCR的低算力友好特性体现得很明显。

采用两阶段训练流程,且全程冻结DeepEncoder(SAM+CLIP),这个设计就大幅降低了显存需求。

第一阶段仅训练多模态投影仪,冻结DeepEncoder与LLM,采用512的全局batch size、1e-3学习率,配合AdamW优化器与ZeRO-3卸载技术;

第二阶段是全模型预训练,训练多模态投影仪与LLM,仍冻结DeepEncoder,全局batch size降至32,学习率调整为5e-5,同时开启梯度检查点进一步减少激活内存占用。

这套训练方案可以在2×H200 GPU上跑通 ,还是挺适配中小团队资源条件的。

再看实测数据,压缩效率上,DeepOCR用约250个视觉tokens,效率虽然稍逊色于DeepSeek-OCR Base版,但Qwen2.5-VL-7B等基线VLMs需要3949个token才能达到类似效果。

这也印证了光学压缩逻辑的有效性。

基础任务中,英文文本识别和表格解析表现突出,尤其表格解析甚至优于原版,这也得益于对原版2D空间编码的精准还原。

在olmOCR基准里,简单文档的基础OCR能力也很扎实,与原版表现接近。

当然,DeepOCR和原版客观上的差距也有,但并不是架构没还原好,而是训练数据的限制。

团队表示接下来会补充公式、多语言、旧扫描件等数据,试试动态温度缩放、RLVR这些技术,把复杂任务的差距再缩小。

两人团队介绍

Ming Liu本科毕业于山东大学,专业是应用物理。后来在北京大学拿到了物理硕士学位,目前在爱荷华州立大学攻读计算机博士,研究聚焦于多模态领域。

曾在亚马逊担任应用科学家实习生,从事LLM相关工作。

刘世隆在清华大学拿到了工学学士和计算机博士学位,现为普林斯顿大学人工智能实验室博士后研究员。研究领域在LLM智能体、多模态、计算机视觉等方面。

在加入普林斯顿之前,他曾是字节Seed团队的科研人员。还曾在英伟达、微软等公司实习过。

项目主页:https://pkulium.github.io/DeepOCR_website/

代码地址:https://github.com/pkulium/DeepOCR