2025推理模型之年:DeepSeek R1引领LLM强化推理新范式

AI快讯 2026-01-03

2025年AI领域发展概览图

当2025年的帷幕落下,人工智能领域再次向我们展示了其难以预测的演进轨迹。这一年,规模定律并未失效,但其主战场已悄然转移——从单纯追求参数量的堆叠,转向了对模型推理能力的深度强化。在这一转型浪潮中,DeepSeek R1的诞生无疑是一声惊雷,它不仅动摇了专有模型的垄断地位,更将RLVR(带可验证奖励的强化学习)与GRPO算法推向了年度技术舞台的中央。与此同时,模型架构呈现出混合专家系统与高效注意力机制融合的趋势,而行业内部,“极限刷榜”现象也引发了人们对评估体系有效性的深刻反思。

知名AI教育家兼研究员Sebastian Raschka在其年度技术回顾中,以其标志性的硬核工程视角,对2025年进行了全面而深入的梳理。他的分析涵盖了从DeepSeek令人瞩目的成本经济学,到推理模型背后的精细算法;从工具使用范式的演进,到AI辅助编程的真实用户体验。Raschka不仅勾勒出清晰的技术发展脉络,更深入探讨了人与智能系统协同工作的未来边界。

以下是Sebastian Raschka博客原文的核心内容与解读:

Sebastian Raschka 2025年LLM年度总结文章封面

随着2025年步入尾声,是时候回顾大语言模型在这一年取得的最重要进展,审视当前存在的局限与悬而未决的挑战,并分享一些关于未来的思考。

正如我每年所言,2025年对LLM和AI而言又是充满变化与突破的一年,且没有任何迹象表明这种进步正在放缓或趋于饱和。

一、推理能力崛起之年:RLVR与GRPO成为焦点

若要从时间顺序展开,2025年1月是一个关键的起点。模型的规模扩展依然有效,但其对LLM在实际应用中的“感受”改变有限。因此,当DeepSeek在2025年初发布R1论文,展示如何通过强化学习培育出类推理行为时,其意义非同寻常。在LLM语境中,“推理”意味着模型会展示其得出答案的思维过程,而这种过程性解释本身往往能提升答案的准确性。

1.1 DeepSeek R1:一个标志性时刻

DeepSeek R1受到广泛关注,原因有三:

  1. 开放与卓越: 它以开放权重模型的形式发布,性能却足以媲美当时顶尖的专有模型。
  2. 成本认知颠覆: R1的论文促使业界重新审视DeepSeek V3的成本估算。结论被修正为:训练顶尖模型的成本可能接近500万美元,而非此前猜测的5000万或5亿美元,这降低了一个数量级。
  3. 算法创新: 最重要的是,论文提出了RLVR配合GRPO算法,作为一种新颖(或至少是显著改进的)方法,用于开发推理模型并在后训练阶段提升LLM能力。

RLVR中的“V”(可验证)是关键,它允许我们使用确定性方法(如在数学和代码领域)为答案分配正确性标签,从而让LLM能够学习复杂的问题解决技能。

总而言之,2025年LLM的发展主线是由采用RLVR和GRPO的推理模型所定义的。在DeepSeek R1之后,几乎所有主流的开放权重或专有LLM开发商都发布了其模型的“思考”变体。

1.2 LLM发展重点演进

简要回顾近年LLM发展的关注点演变:

  • 2022年: RLHF + PPO(基于人类反馈的强化学习)
  • 2023年: LoRA SFT(参数高效微调)
  • 2024年: 中期训练
  • 2025年: RLVR + GRPO

展望未来,Raschka预测2026年RLVR将扩展到数学和代码之外的更多领域,同时“推理时扩展”(在生成答案时投入更多计算资源以提升准确性)将受到更多关注。2027年,持续学习(在不遗忘旧知识的前提下学习新知识)可能成为关键议题。

二、GRPO:年度学术研究宠儿

在LLM研发成本高昂的背景下,GRPO成为了今年学术圈的亮点。尽管它由DeepSeek团队提出,但其概念有趣且在一定规模内实验成本可控,因此催生了大量来自学界和业界的改进研究(如Olmo 3和DeepSeek V3.2采纳的多种GRPO变体)。这些改进在实践中显著提升了训练稳定性和效果。

三、LLM架构:融合与效率之路

在最前沿的模型架构方面,解码器风格的Transformer仍是基石。然而,2025年,开放权重LLM普遍趋向于采用混合专家层,并搭配至少一种高效注意力机制。此外,像Qwen3-Next中的Gated DeltaNet和Nemotron 3中的Mamba-2层等更激进的效率优化架构也开始涌现,旨在实现随序列长度线性扩展的计算复杂度。

预测显示,基于Transformer的架构在未来几年仍将主导高性能模型,但同时,出于成本考量,对计算效率的极致追求将成为重要方向。文本扩散模型作为一种替代路径,也值得关注。

四、推理扩展与工具使用成为关键杠杆

2025年表明,仅靠扩大训练数据和模型规模已不足以保证领先优势。相反,更精细的训练流程(如中期/后训练)以及“推理时扩展”和“工具使用”成为了推动进步的核心杠杆。

  • 推理时扩展: 通过让模型在回答时进行更多“思考”(消耗更多计算token),可以显著提升复杂任务(如高难度数学题)的解决能力,DeepSeekMath-V2达到竞赛金牌水平即是一例。
  • 工具使用: 通过赋予LLM调用计算器、搜索引擎等外部工具的能力,可以大幅减少“幻觉”,提升事实准确性。这已成为模型训练的重要一环。

五、年度现象:“极限刷榜”与评估困境

“极限刷榜”堪称2025年LLM领域的年度词汇,它描述了过度优化模型在公开基准测试上分数的现象,有时甚至导致分数与真实世界实用能力脱节。当测试数据可能泄露到训练集,并被直接优化时,基准分数的可信度受到挑战。

尽管如此,基准测试仍是模型必须跨越的“门槛”,但高分不再直接等同于更优的实用性能。开发新的、更可靠的评估方法仍是当务之急。

六、AI赋能:编码、写作与研究的伙伴

Raschka分享了他对LLM如何改变知识工作的看法。他将LLM视为赋予专业人士“超能力”的伙伴,而非替代者:

  • 编码: 用于生成样板代码、调试、提供建议,但核心逻辑和设计仍由人类专家把控,以确保理解与质量。
  • 技术写作与研究: 辅助查证、润色、探索思路,但书籍或论文的深度、结构与创新性仍源于人类的专业知识与判断。

关键在于识别何时使用AI,以及如何以促进自身技能成长的方式使用它。过度依赖可能导致工作失去挑战性,甚至加速职业倦怠。一个理想的类比是国际象棋:棋手利用AI分析棋局、拓展思路,但比赛与创新的主体仍是人类。

七、未来优势:私有数据与领域专业化

随着LLM通用能力的提升,未来的差异化优势将越来越依赖于高质量的私有领域数据。拥有独特数据的企业可能倾向于开发内部定制化LLM,而非将数据出售给大型模型提供商。LLM开发流程的逐渐成熟化,也使得更多有资源的机构能够基于开源模型进行领域适配。

八、作者工作与展望

Raschka回顾了自己作为独立研究员的一年,重心放在LLM研究、技术文章写作以及书籍撰写上。他的著作《从头构建大语言模型》获得了广泛好评,并被翻译成多种语言。目前,他正在撰写续作《从头构建推理模型》,深入探讨推理时扩展与强化学习技术。

九、2025年惊喜与2026年预测

2025年令人惊讶的发展包括:推理模型在数学竞赛中达到金牌水平的速度超预期;Llama系列在开源社区影响力相对下降;Mistral最新模型采用DeepSeek架构;以及OpenAI发布了开放权重模型gpt-oss等。

对2026年的预测主要包括:面向消费级的文本扩散模型可能出现;开源社区将更广泛采纳具备工具使用能力的LLM;RLVR将向科学领域扩展;长上下文能力可能部分替代传统RAG;性能进步将更多来自推理端优化和工具生态,而非单纯训练规模扩大。

最终结论: 2025年的元启示在于,LLM的进步不再是单一突破的结果,而是通过架构、数据、训练算法、推理扩展、工具调用等多条战线协同推进。与此同时,可靠的评估和透明性变得比以往任何时候都更加重要。

展望2026年,我们期待看到更多有趣的技术演进,同时也希望对这些进步的来源有更清晰的认识。

Cheers, Sebastian

Sebastian Raschka 签名或结尾图

附:LLM研究论文精选列表(2025年7-12月)

Raschka还为读者整理了一份2025年下半年有趣的研究论文分类列表,详情可见:https://magazine.sebastianraschka.com/p/llm-research-papers-2025-list-one


想获取更多AI最新资讯智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台AI学习社区


本文来源:机器之心

原文链接:https://www.jiqizhixin.com/articles/921ef3cb-2357-4a06-a452-28913848edb0

本站部分内容来源于网络,均已注明来源和出处(如有遗漏非主观故意)。本站尊重原创版权,转载内容版权归原作者所有,仅用于信息整理与交流。如原作者不同意转载,请联系我们进行删除或调整。

相关文章