DeepSeek-OCR视觉压缩技术颠覆文本处理,效率提升十倍引AI界关注
在人工智能领域掀起一场技术革命的DeepSeek-OCR模型近日震撼开源,这项突破性技术通过视觉压缩方式将文本处理效率提升了整整十倍。
OpenAI联合创始人Andrej Karpathy在深入研究该论文后兴奋地表示:“作为一个本质上是研究计算机视觉,暂时伪装成自然语言专家的人,我更加关注的是:对于大语言模型而言,像素是否比文本更适合作为输入?文本token在输入端是否在浪费资源,甚至表现糟糕?”
他进一步阐述道:“或许更加合理的做法是,所有大语言模型的输入都应该采用图像形式。即使你恰好拥有纯文本输入,也应该先将其渲染成图像再进行输入。”这一观点引发了业内的广泛思考。
技术突破的核心在于,DeepSeek-OCR能够将1000字的文章压缩为仅100个视觉token,在实现十倍压缩率的同时仍保持97%的惊人精度。这意味着单块英伟达A100显卡每天就能处理高达20万页的数据量,为解决大模型领域长期困扰的长上下文效率问题提供了全新思路。
更深远的意义在于,如果“视觉化阅读”文本最终被证实是正确方向,这将彻底改变现有的大模型技术范式。GitHub上的热烈反响印证了这一点——项目开源仅一晚就收获了超过4000个Star。
纽约大学助理教授谢赛宁对Karpathy的评论给予了高度认同,特别是对其“计算机视觉研究者伪装成自然语言专家”的描述深有共鸣。值得注意的是,正是谢赛宁教授首次将Transformer架构与扩散模型结合,开创了扩散Transformer(DiT)技术,为文本到视频生成开辟了新途径。
研究者Emanuel对此进行了更深入的解读:传统多模态大模型中,视觉token往往像是事后添加的附属功能。若将文本转换为可识别的图像像素形式,一万英文单词在多模态LLM中占据的空间将远超文本token表示。然而DeepSeek的创新方法彻底改变了这一局面,使得视觉token的压缩效率反超文本token十倍之多。
这一技术突破与人类大脑的工作机制有着惊人相似。当我们回忆阅读过的书籍内容时,往往通过视觉定位——记得内容在哪一页、哪一侧、页面的大致位置,这表明人脑也在使用某种视觉记忆表征机制。
技术社区的反应同样热烈。Django Web框架联合创始人Simon Willison仅用4个提示词就在40分钟内成功让Claude Code在英伟达Spark硬件上运行该模型。科技视频博主NiceKate AI也顺利将其部署到Mac设备上。
尽管工程实现上取得了显著成就,但研究者们指出,该核心方法思路并非首创。早在2022年,哥本哈根大学等机构就在论文《Language Modelling with Pixels》中提出了类似概念,随后多个研究团队对此进行了持续改进。
当然,质疑声依然存在。目前在Meta工作的前OpenAI和DeepMind研究员Lucas Beyer就直言不讳地指出,DeepSeek-OCR的方法缺乏渐进性,与人类认知过程存在差异。
有趣的是,在国际讨论中,许多外国研究者对论文中引用的中文典故“先天下之忧而忧,后天下之乐而乐”表现出浓厚兴趣,这无论对AI还是外国研究者而言都是个理解挑战。
这项技术是否预示着大模型发展的新方向?视觉化压缩能否成为扩展模型上下文长度的关键?整个AI社区都在密切关注这一突破性技术的后续发展。
想获取更多AI最新资讯与智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台 与 AI学习社区
本文来源:机器之心
原文链接:https://www.jiqizhixin.com/articles/e7b99b51-7e02-4e5d-a6d7-05217b9f14bf
本站部分内容来源于网络,均已注明来源和出处(如有遗漏非主观故意)。本站尊重原创版权,转载内容版权归原作者所有,仅用于信息整理与交流。如原作者不同意转载,请联系我们进行删除或调整。