北京智研院NPR框架:原生并行推理加速大模型复杂任务处理

AI快讯 2025-12-28

NPR框架示意图

当前,大语言模型在生成流畅、连贯的长文本方面取得了显著进展。然而,当面对真正复杂的推理任务时——例如需要同时探索多条路径、进行自我反思与交叉验证、或在多个线索间进行综合与权衡——传统的链式思维(Chain-of-Thought)方法便开始显得力不从心。它容易受到早期判断的误导,思维发散性不足,自我纠错能力弱,并且其顺序生成模式在效率上存在天然瓶颈。

针对这一核心挑战,北京通用人工智能研究院(BIGAI)语言交互实验室(NLCo)推出了其最新研究成果:原生并行推理器(Native Parallel Reasoner,简称NPR)。该框架旨在突破现有瓶颈,其核心目标是:使智能体能够在单次思考过程中,同时生成并维护多条候选推理路径,在关键决策点进行“分支”与“聚合”,最终像拼图一样整合所有线索,得出最优解决方案。

NPR的突破性不仅在于“并行生成”这一工程技巧,更在于它提出了一套完整的“自蒸馏 + 并行强化学习”三阶段训练范式,并配备了专门的并行推理引擎。其最终目标是让并行推理从一种外部附加功能,转变为模型内在的、原生的认知能力

NPR框架概览图

为何需要并行推理?

随着研究从“扩展单一思维链”转向“实现多步深度推理”,人们对语言智能体的能力提出了更高要求。未来的高级智能不仅需要深度思考,更需要广度探索——即能够并行地探索多种可能的解题思路,然后合并验证结果。这种类似MapReduce“分而治之”的思想,对于扩展智能体在推理时的计算边界至关重要。然而,将其内化为模型的固有能力,面临着三大主要障碍:

  1. 算法与架构不匹配:现有的推理引擎和强化学习算法难以原生支持“分支-聚合”操作。引擎调度并行分支效率低下,而常用RL技术可能会削弱触发并行结构的关键词元梯度,阻碍模型学习精确的并行控制逻辑。
  2. 手工并行机制效率低下:早期的并行化尝试多依赖手工规则,无法有效复用共享的KV Cache状态,导致每个分支重复计算公共部分,时间复杂度退化为线性O(N),无法满足实时或大规模部署的效率需求。
  3. 对强监督蒸馏的过度依赖:如Multiverse等方法虽然实现了并行,但严重依赖强教师模型提供的示例进行蒸馏。学生模型只是在模仿教师的串行思维并将其“包装”成并行格式,从而也继承了教师的局限性,难以通过自我迭代突破智能边界,形成新的瓶颈。

NPR的核心理念:让“并行”成为本能

NPR的关键在于“原生”二字。研究团队致力于在不依赖任何外部强教师模型提供的并行轨迹的前提下,探索一条让模型自我进化出并行推理能力的路径。其整体思路是一个渐进式的三阶段训练范式,引导模型从“学会用并行格式书写”,逐步过渡到“在计算图层面真正执行并行推理”。

三阶段训练范式详解

  1. 阶段一:并行格式学习 – 目标不是立即实现真正并行,而是让模型首先掌握并行推理的表达结构,例如如何标记分支起点、组织多条路径、定义聚合节点。
  2. 阶段二:自蒸馏 – 在具备表达能力后,通过自蒸馏技术,让模型用自己的生成结果来训练自己。经过严格筛选,模型逐步内化“多分支探索、相互印证、汇总收敛”的推理模式,摆脱对外部教师模型串行思维偏好的依赖。
  3. 阶段三:并行感知强化学习 – 这是关键跃迁。利用专门设计的并行感知强化学习,模型学习在何时分叉、分叉多少、如何在聚合点比较与合并结果。这使得并行性从文本表面的格式,转变为推理过程中可执行的内在控制逻辑。

如下图所示,经过三阶段训练,NPR在复杂数学推理任务上的准确率从约17%持续提升至50.4%,同时相较于传统自回归推理方式,实现了最高约4.6倍的生成加速。

NPR性能提升与加速比

关键技术实现

1. 自蒸馏与严格筛选

从初始模型生成的大量并行格式候选轨迹中,仅保留同时满足“答案正确”和“格式严格合规”的高质量样本,用于后续训练,极大减少了数据噪声。

2. 并行注意力掩码与位置编码

采用特殊设计的并行注意力掩码和位置编码,确保在单次前向传播中,多条推理路径既能相互隔离、独立计算,又能共享上下文KV Cache,避免重复计算,显著提升效率。

3. 并行感知策略优化(PAPO)

为解决传统RL算法在并行语义下的不适应问题,NPR提出了PAPO算法。其核心设计包括:使用专用引擎(NPR-Engine)确保生成轨迹的结构合法性;在批次级别进行优势归一化以稳定训练;保留控制并行结构的关键词元梯度;采用严格的同策略(On-policy)目标函数,避免重要性采样带来的不稳定。

PAPO算法示意图

4. 并行推理引擎(NPR-Engine)的工程优化

为实现稳定的并行强化学习训练,团队在引擎层面进行了关键改进,包括:预算感知的KV缓存回收机制,防止内存泄漏;分支感知的Token计数策略,避免生成超长;格式预检机制,快速拒绝非法分支,保证确定性。

实验验证与性能表现

NPR在AIME24/25、HMMT25、OlympiadBench等八个高难度数学与逻辑推理基准上进行了全面测试。

  • 数据优势:使用自蒸馏产生的数据集(ORZ-8k)替代外部数据(如Multiverse的MV-4B),在多个基准上带来显著提升,平均得分从50.1提升至59.0。
  • 方法优势:从顺序监督微调切换到并行监督微调,使模型能接触并行轨迹,提升了任务分解的灵活性。进一步应用并行强化学习(PAPO)后,性能获得系统性提升,平均得分从62.0提升至65.0。
  • 并行鲁棒性:与Multiverse模型在不同数据集上并行率波动较大不同,NPR在所有八个测试数据集上均实现了100%的并行触发率,表明其并行推理能力是稳健且默认的问题解决模式。
  • 效率优势:NPR在所有测试基准上都取得了最佳推理效率,始终优于Multiverse和自回归基线。值得注意的是,加速比随着任务难度的增加而增大(如在最难的AIME25上达到4.6倍),证明其在需要深度探索解空间时优势更为明显。

NPR与基线模型性能对比

实际案例解析

论文展示了NPR解决具体数学问题的典型模式:

  1. :并行生成多个独立的解题计划(如代数法、几何法、数值检验法)。
  2. :每个计划独立、并行地展开详细的推理步骤。
  3. :整合并交叉验证所有分支的结果,剔除不一致项,最终输出简洁答案。

这种“多角度并行探索+汇总验证”的策略,能有效减少因单一路径假设错误而导致的推理失败。

NPR并行推理案例1
NPR并行推理案例2

总结与展望

北京智研院提出的NPR框架,为构建具备原生并行推理能力的大模型提供了一条简单且可扩展的路径。该框架无需依赖外部教师模型,即可让模型学会自适应的问题分解、多样化的并行规划以及可靠的结论聚合。通过将自蒸馏与智能体并行强化学习相结合,NPR催生出了真正的、而非模拟的并行推理策略。广泛的实验证明,该方法在提升推理准确率的同时,能带来显著的效率加速,并且并行行为稳健可靠。这些成果表明,原生并行推理是迈向更通用、更可扩展人工智能的一个极具前景的方向。


想获取更多AI最新资讯智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台AI学习社区


本文来源:机器之心

原文链接:https://www.jiqizhixin.com/articles/15c5c245-b67f-4e7a-9f1f-d79f59a3c1ff

本站部分内容来源于网络,均已注明来源和出处(如有遗漏非主观故意)。本站尊重原创版权,转载内容版权归原作者所有,仅用于信息整理与交流。如原作者不同意转载,请联系我们进行删除或调整。

相关文章