2025推理模型之年:DeepSeek R1引领LLM强化推理新范式

当2025年的帷幕落下,人工智能领域再次向我们展示了其难以预测的演进轨迹。这一年,规模定律并未失效,但其主战场已悄然转移——从单纯追求参数量的堆叠,转向了对模型推理能力的深度强化。在这一转型浪潮中,DeepSeek R1的诞生无疑是一声惊雷,它不仅动摇了专有模型的垄断地位,更将RLVR(带可验证奖励的强化学习)与GRPO算法推向了年度技术舞台的中央。与此同时,模型架构呈现出混合专家系统与高效注意力机制融合的趋势,而行业内部,“极限刷榜”现象也引发了人们对评估体系有效性的深刻反思。
知名AI教育家兼研究员Sebastian Raschka在其年度技术回顾中,以其标志性的硬核工程视角,对2025年进行了全面而深入的梳理。他的分析涵盖了从DeepSeek令人瞩目的成本经济学,到推理模型背后的精细算法;从工具使用范式的演进,到AI辅助编程的真实用户体验。Raschka不仅勾勒出清晰的技术发展脉络,更深入探讨了人与智能系统协同工作的未来边界。
以下是Sebastian Raschka博客原文的核心内容与解读:

随着2025年步入尾声,是时候回顾大语言模型在这一年取得的最重要进展,审视当前存在的局限与悬而未决的挑战,并分享一些关于未来的思考。
正如我每年所言,2025年对LLM和AI而言又是充满变化与突破的一年,且没有任何迹象表明这种进步正在放缓或趋于饱和。
一、推理能力崛起之年:RLVR与GRPO成为焦点
若要从时间顺序展开,2025年1月是一个关键的起点。模型的规模扩展依然有效,但其对LLM在实际应用中的“感受”改变有限。因此,当DeepSeek在2025年初发布R1论文,展示如何通过强化学习培育出类推理行为时,其意义非同寻常。在LLM语境中,“推理”意味着模型会展示其得出答案的思维过程,而这种过程性解释本身往往能提升答案的准确性。
1.1 DeepSeek R1:一个标志性时刻
DeepSeek R1受到广泛关注,原因有三:
- 开放与卓越: 它以开放权重模型的形式发布,性能却足以媲美当时顶尖的专有模型。
- 成本认知颠覆: R1的论文促使业界重新审视DeepSeek V3的成本估算。结论被修正为:训练顶尖模型的成本可能接近500万美元,而非此前猜测的5000万或5亿美元,这降低了一个数量级。
- 算法创新: 最重要的是,论文提出了RLVR配合GRPO算法,作为一种新颖(或至少是显著改进的)方法,用于开发推理模型并在后训练阶段提升LLM能力。
RLVR中的“V”(可验证)是关键,它允许我们使用确定性方法(如在数学和代码领域)为答案分配正确性标签,从而让LLM能够学习复杂的问题解决技能。
总而言之,2025年LLM的发展主线是由采用RLVR和GRPO的推理模型所定义的。在DeepSeek R1之后,几乎所有主流的开放权重或专有LLM开发商都发布了其模型的“思考”变体。
1.2 LLM发展重点演进
简要回顾近年LLM发展的关注点演变:
- 2022年: RLHF + PPO(基于人类反馈的强化学习)
- 2023年: LoRA SFT(参数高效微调)
- 2024年: 中期训练
- 2025年: RLVR + GRPO
展望未来,Raschka预测2026年RLVR将扩展到数学和代码之外的更多领域,同时“推理时扩展”(在生成答案时投入更多计算资源以提升准确性)将受到更多关注。2027年,持续学习(在不遗忘旧知识的前提下学习新知识)可能成为关键议题。
二、GRPO:年度学术研究宠儿
在LLM研发成本高昂的背景下,GRPO成为了今年学术圈的亮点。尽管它由DeepSeek团队提出,但其概念有趣且在一定规模内实验成本可控,因此催生了大量来自学界和业界的改进研究(如Olmo 3和DeepSeek V3.2采纳的多种GRPO变体)。这些改进在实践中显著提升了训练稳定性和效果。
三、LLM架构:融合与效率之路
在最前沿的模型架构方面,解码器风格的Transformer仍是基石。然而,2025年,开放权重LLM普遍趋向于采用混合专家层,并搭配至少一种高效注意力机制。此外,像Qwen3-Next中的Gated DeltaNet和Nemotron 3中的Mamba-2层等更激进的效率优化架构也开始涌现,旨在实现随序列长度线性扩展的计算复杂度。
预测显示,基于Transformer的架构在未来几年仍将主导高性能模型,但同时,出于成本考量,对计算效率的极致追求将成为重要方向。文本扩散模型作为一种替代路径,也值得关注。
四、推理扩展与工具使用成为关键杠杆
2025年表明,仅靠扩大训练数据和模型规模已不足以保证领先优势。相反,更精细的训练流程(如中期/后训练)以及“推理时扩展”和“工具使用”成为了推动进步的核心杠杆。
- 推理时扩展: 通过让模型在回答时进行更多“思考”(消耗更多计算token),可以显著提升复杂任务(如高难度数学题)的解决能力,DeepSeekMath-V2达到竞赛金牌水平即是一例。
- 工具使用: 通过赋予LLM调用计算器、搜索引擎等外部工具的能力,可以大幅减少“幻觉”,提升事实准确性。这已成为模型训练的重要一环。
五、年度现象:“极限刷榜”与评估困境
“极限刷榜”堪称2025年LLM领域的年度词汇,它描述了过度优化模型在公开基准测试上分数的现象,有时甚至导致分数与真实世界实用能力脱节。当测试数据可能泄露到训练集,并被直接优化时,基准分数的可信度受到挑战。
尽管如此,基准测试仍是模型必须跨越的“门槛”,但高分不再直接等同于更优的实用性能。开发新的、更可靠的评估方法仍是当务之急。
六、AI赋能:编码、写作与研究的伙伴
Raschka分享了他对LLM如何改变知识工作的看法。他将LLM视为赋予专业人士“超能力”的伙伴,而非替代者:
- 编码: 用于生成样板代码、调试、提供建议,但核心逻辑和设计仍由人类专家把控,以确保理解与质量。
- 技术写作与研究: 辅助查证、润色、探索思路,但书籍或论文的深度、结构与创新性仍源于人类的专业知识与判断。
关键在于识别何时使用AI,以及如何以促进自身技能成长的方式使用它。过度依赖可能导致工作失去挑战性,甚至加速职业倦怠。一个理想的类比是国际象棋:棋手利用AI分析棋局、拓展思路,但比赛与创新的主体仍是人类。
七、未来优势:私有数据与领域专业化
随着LLM通用能力的提升,未来的差异化优势将越来越依赖于高质量的私有领域数据。拥有独特数据的企业可能倾向于开发内部定制化LLM,而非将数据出售给大型模型提供商。LLM开发流程的逐渐成熟化,也使得更多有资源的机构能够基于开源模型进行领域适配。
八、作者工作与展望
Raschka回顾了自己作为独立研究员的一年,重心放在LLM研究、技术文章写作以及书籍撰写上。他的著作《从头构建大语言模型》获得了广泛好评,并被翻译成多种语言。目前,他正在撰写续作《从头构建推理模型》,深入探讨推理时扩展与强化学习技术。
九、2025年惊喜与2026年预测
2025年令人惊讶的发展包括:推理模型在数学竞赛中达到金牌水平的速度超预期;Llama系列在开源社区影响力相对下降;Mistral最新模型采用DeepSeek架构;以及OpenAI发布了开放权重模型gpt-oss等。
对2026年的预测主要包括:面向消费级的文本扩散模型可能出现;开源社区将更广泛采纳具备工具使用能力的LLM;RLVR将向科学领域扩展;长上下文能力可能部分替代传统RAG;性能进步将更多来自推理端优化和工具生态,而非单纯训练规模扩大。
最终结论: 2025年的元启示在于,LLM的进步不再是单一突破的结果,而是通过架构、数据、训练算法、推理扩展、工具调用等多条战线协同推进。与此同时,可靠的评估和透明性变得比以往任何时候都更加重要。
展望2026年,我们期待看到更多有趣的技术演进,同时也希望对这些进步的来源有更清晰的认识。
Cheers, Sebastian

附:LLM研究论文精选列表(2025年7-12月)
Raschka还为读者整理了一份2025年下半年有趣的研究论文分类列表,详情可见:https://magazine.sebastianraschka.com/p/llm-research-papers-2025-list-one
想获取更多AI最新资讯与智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台 与 AI学习社区
本文来源:机器之心
原文链接:https://www.jiqizhixin.com/articles/921ef3cb-2357-4a06-a452-28913848edb0