2025推理模型之年：DeepSeek R1引领LLM强化推理新范式

AI快讯 2026-01-03

当2025年的帷幕落下，人工智能领域再次向我们展示了其难以预测的演进轨迹。这一年，规模定律并未失效，但其主战场已悄然转移——从单纯追求参数量的堆叠，转向了对模型推理能力的深度强化。在这一转型浪潮中，DeepSeek R1的诞生无疑是一声惊雷，它不仅动摇了专有模型的垄断地位，更将RLVR（带可验证奖励的强化学习）与GRPO算法推向了年度技术舞台的中央。与此同时，模型架构呈现出混合专家系统与高效注意力机制融合的趋势，而行业内部，“极限刷榜”现象也引发了人们对评估体系有效性的深刻反思。

知名AI教育家兼研究员Sebastian Raschka在其年度技术回顾中，以其标志性的硬核工程视角，对2025年进行了全面而深入的梳理。他的分析涵盖了从DeepSeek令人瞩目的成本经济学，到推理模型背后的精细算法；从工具使用范式的演进，到AI辅助编程的真实用户体验。Raschka不仅勾勒出清晰的技术发展脉络，更深入探讨了人与智能系统协同工作的未来边界。

以下是Sebastian Raschka博客原文的核心内容与解读：

原文链接: https://magazine.sebastianraschka.com/p/state-of-llms-2025

随着2025年步入尾声，是时候回顾大语言模型在这一年取得的最重要进展，审视当前存在的局限与悬而未决的挑战，并分享一些关于未来的思考。

正如我每年所言，2025年对LLM和AI而言又是充满变化与突破的一年，且没有任何迹象表明这种进步正在放缓或趋于饱和。

一、推理能力崛起之年：RLVR与GRPO成为焦点

若要从时间顺序展开，2025年1月是一个关键的起点。模型的规模扩展依然有效，但其对LLM在实际应用中的“感受”改变有限。因此，当DeepSeek在2025年初发布R1论文，展示如何通过强化学习培育出类推理行为时，其意义非同寻常。在LLM语境中，“推理”意味着模型会展示其得出答案的思维过程，而这种过程性解释本身往往能提升答案的准确性。

1.1 DeepSeek R1：一个标志性时刻

DeepSeek R1受到广泛关注，原因有三：

开放与卓越: 它以开放权重模型的形式发布，性能却足以媲美当时顶尖的专有模型。
成本认知颠覆: R1的论文促使业界重新审视DeepSeek V3的成本估算。结论被修正为：训练顶尖模型的成本可能接近500万美元，而非此前猜测的5000万或5亿美元，这降低了一个数量级。
算法创新: 最重要的是，论文提出了RLVR配合GRPO算法，作为一种新颖（或至少是显著改进的）方法，用于开发推理模型并在后训练阶段提升LLM能力。

RLVR中的“V”（可验证）是关键，它允许我们使用确定性方法（如在数学和代码领域）为答案分配正确性标签，从而让LLM能够学习复杂的问题解决技能。

总而言之，2025年LLM的发展主线是由采用RLVR和GRPO的推理模型所定义的。在DeepSeek R1之后，几乎所有主流的开放权重或专有LLM开发商都发布了其模型的“思考”变体。

1.2 LLM发展重点演进

简要回顾近年LLM发展的关注点演变：

2022年: RLHF + PPO（基于人类反馈的强化学习）
2023年: LoRA SFT（参数高效微调）
2024年: 中期训练
2025年: RLVR + GRPO

展望未来，Raschka预测2026年RLVR将扩展到数学和代码之外的更多领域，同时“推理时扩展”（在生成答案时投入更多计算资源以提升准确性）将受到更多关注。2027年，持续学习（在不遗忘旧知识的前提下学习新知识）可能成为关键议题。

二、GRPO：年度学术研究宠儿

在LLM研发成本高昂的背景下，GRPO成为了今年学术圈的亮点。尽管它由DeepSeek团队提出，但其概念有趣且在一定规模内实验成本可控，因此催生了大量来自学界和业界的改进研究（如Olmo 3和DeepSeek V3.2采纳的多种GRPO变体）。这些改进在实践中显著提升了训练稳定性和效果。

三、LLM架构：融合与效率之路

在最前沿的模型架构方面，解码器风格的Transformer仍是基石。然而，2025年，开放权重LLM普遍趋向于采用混合专家层，并搭配至少一种高效注意力机制。此外，像Qwen3-Next中的Gated DeltaNet和Nemotron 3中的Mamba-2层等更激进的效率优化架构也开始涌现，旨在实现随序列长度线性扩展的计算复杂度。

预测显示，基于Transformer的架构在未来几年仍将主导高性能模型，但同时，出于成本考量，对计算效率的极致追求将成为重要方向。文本扩散模型作为一种替代路径，也值得关注。

四、推理扩展与工具使用成为关键杠杆

2025年表明，仅靠扩大训练数据和模型规模已不足以保证领先优势。相反，更精细的训练流程（如中期/后训练）以及“推理时扩展”和“工具使用”成为了推动进步的核心杠杆。

推理时扩展: 通过让模型在回答时进行更多“思考”（消耗更多计算token），可以显著提升复杂任务（如高难度数学题）的解决能力，DeepSeekMath-V2达到竞赛金牌水平即是一例。
工具使用: 通过赋予LLM调用计算器、搜索引擎等外部工具的能力，可以大幅减少“幻觉”，提升事实准确性。这已成为模型训练的重要一环。

五、年度现象：“极限刷榜”与评估困境

“极限刷榜”堪称2025年LLM领域的年度词汇，它描述了过度优化模型在公开基准测试上分数的现象，有时甚至导致分数与真实世界实用能力脱节。当测试数据可能泄露到训练集，并被直接优化时，基准分数的可信度受到挑战。

尽管如此，基准测试仍是模型必须跨越的“门槛”，但高分不再直接等同于更优的实用性能。开发新的、更可靠的评估方法仍是当务之急。

六、AI赋能：编码、写作与研究的伙伴

Raschka分享了他对LLM如何改变知识工作的看法。他将LLM视为赋予专业人士“超能力”的伙伴，而非替代者：

编码: 用于生成样板代码、调试、提供建议，但核心逻辑和设计仍由人类专家把控，以确保理解与质量。
技术写作与研究: 辅助查证、润色、探索思路，但书籍或论文的深度、结构与创新性仍源于人类的专业知识与判断。

关键在于识别何时使用AI，以及如何以促进自身技能成长的方式使用它。过度依赖可能导致工作失去挑战性，甚至加速职业倦怠。一个理想的类比是国际象棋：棋手利用AI分析棋局、拓展思路，但比赛与创新的主体仍是人类。

七、未来优势：私有数据与领域专业化

随着LLM通用能力的提升，未来的差异化优势将越来越依赖于高质量的私有领域数据。拥有独特数据的企业可能倾向于开发内部定制化LLM，而非将数据出售给大型模型提供商。LLM开发流程的逐渐成熟化，也使得更多有资源的机构能够基于开源模型进行领域适配。

八、作者工作与展望

Raschka回顾了自己作为独立研究员的一年，重心放在LLM研究、技术文章写作以及书籍撰写上。他的著作《从头构建大语言模型》获得了广泛好评，并被翻译成多种语言。目前，他正在撰写续作《从头构建推理模型》，深入探讨推理时扩展与强化学习技术。

九、2025年惊喜与2026年预测

2025年令人惊讶的发展包括：推理模型在数学竞赛中达到金牌水平的速度超预期；Llama系列在开源社区影响力相对下降；Mistral最新模型采用DeepSeek架构；以及OpenAI发布了开放权重模型gpt-oss等。

对2026年的预测主要包括：面向消费级的文本扩散模型可能出现；开源社区将更广泛采纳具备工具使用能力的LLM；RLVR将向科学领域扩展；长上下文能力可能部分替代传统RAG；性能进步将更多来自推理端优化和工具生态，而非单纯训练规模扩大。

最终结论: 2025年的元启示在于，LLM的进步不再是单一突破的结果，而是通过架构、数据、训练算法、推理扩展、工具调用等多条战线协同推进。与此同时，可靠的评估和透明性变得比以往任何时候都更加重要。

展望2026年，我们期待看到更多有趣的技术演进，同时也希望对这些进步的来源有更清晰的认识。

Cheers, Sebastian

附：LLM研究论文精选列表（2025年7-12月）

Raschka还为读者整理了一份2025年下半年有趣的研究论文分类列表，详情可见：https://magazine.sebastianraschka.com/p/llm-research-papers-2025-list-one

想获取更多AI最新资讯与智能工具推荐，欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台 与 AI学习社区

本文来源：机器之心

原文链接：https://www.jiqizhixin.com/articles/921ef3cb-2357-4a06-a452-28913848edb0

大语言模型强化学习

本站部分内容来源于网络，均已注明来源和出处（如有遗漏非主观故意）。本站尊重原创版权，转载内容版权归原作者所有，仅用于信息整理与交流。如原作者不同意转载，请联系我们进行删除或调整。