强化学习

最大似然强化学习:优化目标与计算效率提升模型训练

本文介绍了一项由多所顶尖大学联合提出的“最大似然强化学习”突破性研究。该研究指出,传统强化学习仅优化了最大似然目标的一阶近似,存在根本局限。MaxRL通过将问题重新形式化为潜变量最大似然优化,并引入以计算量为索引的目标函数族,使训练目标能随算力增加逐步逼近真实最大似然。实验证明,该方法在代码生成、数学推理等任务上,相比现有方法在训练与测试效率上均有显著提升,最高可达20倍,为不可微的采样学习问题提供了更本质的解决方案,可能重塑AI训练范式。

AI4S 2.0:通专融合驱动AGI,以科学发现引领前沿

上海人工智能实验室主任周伯文在AAAI 2026提出,科学智能(AI4S)需从1.0迈向2.0(AGI4S),核心路径是“通专融合”,即构建能动态结合广泛知识(通才)与深度专业推理(专才)的智能。他介绍了实现该愿景的“智者”SAGE三层技术架构(基础、融合、进化),以及基于此研发的“书生”科学大模型Intern-S1和全流程科学发现平台Intern-Discovery。这些进展旨在将AI从点状工具升级为能驱动全周期科学发现的“革命性伙伴”,并呼吁全球合作者共同探索这一前沿领域。

百川智能发布Baichuan-M3 Plus医疗大模型:低幻觉率+免费API加速AI医疗落地

百川智能发布新一代医疗大模型Baichuan-M3 Plus,该模型通过Fact-Aware RL和六源循证等技术,实现了全球领先的低幻觉率(仅2.6),并首创“证据锚定”技术确保每个医学判断都可追溯。同时,公司启动“海纳百川”计划,向医疗服务机构免费开放API,并结合Gated Eagle-3框架等工程优化,将调用成本降低70%,旨在以高准确性、高可及性推动AI辅助医疗的普及与落地。

田渊栋:从Meta被裁到AI创业,探索大模型可解释性与个人价值

本文讲述了知名AI科学家田渊栋从Meta被裁后投身AI创业的经历。他详细回顾了参与Llama 4项目、遭遇裁员的心路历程,并系统阐述了其2025年在提升大模型推理效率与探索模型可解释性方面的核心研究工作。文章重点分享了他对AI时代社会变革的深刻洞察,提出了“人类社会的费米能级”概念,指出个人价值将取决于人机协作效能是否超越AI本身。他警示了AI同化风险,并倡导以坚定的“目标感”和主动思考,在“遍地神灯”的时代中保持独特价值与创造力。

2025推理模型之年:DeepSeek R1引领LLM强化推理新范式

本文基于AI研究员Sebastian Raschka的年度总结,深入解读了2025年大语言模型领域的核心进展。文章指出,2025年是“推理模型之年”,DeepSeek R1的发布及其采用的RLVR与GRPO算法成为技术风向标,推动LLM发展重点从参数堆叠转向推理能力强化。同时,模型架构呈现MoE与高效注意力机制融合的趋势,“推理时扩展”和“工具使用”成为提升性能的关键杠杆。行业也面临“极限刷榜”带来的评估挑战。文章还探讨了AI在编码、写作中的协作角色,并预测未来优势将在于私有数据与领域专业化。最后,对20

北京智研院NPR框架:原生并行推理加速大模型复杂任务处理

北京通用人工智能研究院(BIGAI)提出原生并行推理器(NPR)框架,旨在解决大语言模型处理复杂推理任务时的瓶颈。该框架通过“自蒸馏+并行强化学习”三阶段训练范式,使模型获得内在的并行推理能力,能同时探索多条路径并汇总结果。实验表明,NPR在多个高难度数学推理基准上显著提升了准确率与效率(最高加速4.6倍),且并行行为稳健,为下一代AI智能体的发展提供了新思路。

AI Agent记忆系统综述:NUS与人大等高校框架与功能解析

本文深度解读了由新加坡国立大学、中国人民大学等顶尖高校联合发布的AI Agent记忆系统综述。文章指出,记忆已从可选模块变为Agent的核心基础设施。综述创新性地提出了“形式-功能-动态”三角框架,系统分析了记忆的载体(Token级、参数、潜在)、核心功能(事实、经验、工作记忆)及其动态生命周期。文章进一步辨析了Agent Memory与LLM Memory、RAG等概念的本质区别,并展望了下一代记忆系统向记忆生成、自动化管理、RL驱动以及应对多模态、多智能体和可信挑战的发展趋势。

快手科技熵比裁剪法:解决强化学习全局分布漂移,提升大语言模型训练稳定性

快手科技语言大模型团队提出创新性“熵比裁剪”方法,有效解决大语言模型强化学习训练中的全局分布漂移难题。该方法通过约束策略熵的相对变化,从整体分布层面稳定训练过程,与经典的PPO-Clip形成互补。实验表明,ERC能在多个高难度数学推理基准上显著提升模型性能,并确保训练动态更稳定,同时保持良好的探索能力。这项研究为提升大模型训练稳定性和可靠性提供了重要技术突破。

阿里千问新方法:一阶近似优化大语言模型强化学习训练稳定性

阿里千问团队提出了一种创新的大语言模型强化学习理论框架,通过将词元级优化目标构建为序列级期望奖励的一阶近似,从根本上解释了训练不稳定的原因。该研究指出,在训练与推理差异及策略偏差足够小的条件下,此近似成立。针对混合专家模型的特殊挑战,团队提出了路由重放方法。大规模实验证明,结合重要性采样的基础策略梯度方法在同策略训练中最稳定;而在异策略训练中,必须同时使用路由重放和剪切技术。研究最终表明,实现稳定的训练过程比模型初始化方式更为关键。