强化学习

AI4S 2.0:通专融合驱动AGI,以科学发现引领前沿

上海人工智能实验室主任周伯文在AAAI 2026提出,科学智能(AI4S)需从1.0迈向2.0(AGI4S),核心路径是“通专融合”,即构建能动态结合广泛知识(通才)与深度专业推理(专才)的智能。他介绍了实现该愿景的“智者”SAGE三层技术架构(基础、融合、进化),以及基于此研发的“书生”科学大模型Intern-S1和全流程科学发现平台Intern-Discovery。这些进展旨在将AI从点状工具升级为能驱动全周期科学发现的“革命性伙伴”,并呼吁全球合作者共同探索这一前沿领域。

最大似然强化学习:优化目标与计算效率提升模型训练

本文介绍了一项由多所顶尖大学联合提出的“最大似然强化学习”突破性研究。该研究指出,传统强化学习仅优化了最大似然目标的一阶近似,存在根本局限。MaxRL通过将问题重新形式化为潜变量最大似然优化,并引入以计算量为索引的目标函数族,使训练目标能随算力增加逐步逼近真实最大似然。实验证明,该方法在代码生成、数学推理等任务上,相比现有方法在训练与测试效率上均有显著提升,最高可达20倍,为不可微的采样学习问题提供了更本质的解决方案,可能重塑AI训练范式。