大语言模型

最大似然强化学习:优化目标与计算效率提升模型训练

本文介绍了一项由多所顶尖大学联合提出的“最大似然强化学习”突破性研究。该研究指出,传统强化学习仅优化了最大似然目标的一阶近似,存在根本局限。MaxRL通过将问题重新形式化为潜变量最大似然优化,并引入以计算量为索引的目标函数族,使训练目标能随算力增加逐步逼近真实最大似然。实验证明,该方法在代码生成、数学推理等任务上,相比现有方法在训练与测试效率上均有显著提升,最高可达20倍,为不可微的采样学习问题提供了更本质的解决方案,可能重塑AI训练范式。

AStockArena首期实盘竞技:GPT-5与Claude科创板交易领先,DeepSeek展稳健风控

AStockArena首期实盘竞技结果显示,GPT-5系列与Claude在科创板交易中表现领先,其中GPT-5.1的Alpha收益超过12%。DeepSeek在暴跌行情中展现出卓越的风控能力,证明了国产模型的竞争力。该平台是国内首个采用真实T+1规则的科创板智能体竞技平台,通过ReAct全闭环架构、真实科创板测试场景和专业数据支持,为AI交易模型提供了高拟真的评估环境,推动量化交易进入智能体时代。

Yann LeCun AMI Labs发布世界模型,挑战大语言模型,估值35亿美元

图灵奖得主Yann LeCun创立的AMI Labs正式公布其核心方向:开发能够理解并模拟现实物理规律的“世界模型”,以此挑战当前主流的大语言模型范式。该公司旨在构建具备理解、记忆、推理规划能力且安全可控的新型AI系统,专注于工业、医疗、机器人等高可靠性领域。与此同时,LeCun的理念也在硅谷另一家公司的能量推理模型中得到体现。该赛道已吸引巨额资本关注,AMI Labs估值或达35亿美元,标志着AI研究正从语言生成向物理世界理解与交互的关键转变。

AAAI 2026新加坡AI周:人类自主权与Agentic AI前沿研讨会聚焦

AAAI 2026新加坡AI周期间将举办两场前沿研讨会:第一场聚焦AI时代如何捍卫人类在工作、学习、拥有与选择方面的自主权,汇聚全球治理与技术专家;第二场深入探讨基于大语言模型的Agentic AI、自主智能体与多智能体系统的技术融合、挑战与未来方向。两场活动均在新加坡国立大学举行,邀请多位国际顶尖学者分享,是了解AI伦理治理与智能体技术最新进展的宝贵平台。

生成式AI语音助手在智能家居中的可靠性挑战与用户体验优化

本文探讨了生成式AI语音助手(如Alexa Plus)在智能家居应用中面临的可靠性挑战。文章通过记者与咖啡机的真实互动案例,揭示了LLM固有的随机性与家居控制所需的确定性之间的根本矛盾。尽管新技术在理解复杂指令、实现多设备协同和提供智能通知方面潜力巨大,但在执行开灯、煮咖啡等基础指令时却频频出错,引发用户不满。分析指出,问题核心在于技术边界模糊,当前将生成式AI置于核心控制位置可能为时过早。文章认为,未来的优化方向应是明确AI的辅助角色,将其作为增强理解的交互层,而非完全替代稳定可靠的传统控制逻辑,从而在

Deep Principle发布全球首个LLMs科学评测体系SDE,揭示大模型科学发现短板

中国AI初创企业深度原理联合全球24所顶尖高校,发布了首个针对大语言模型科学发现能力的评测体系SDE。评估显示,GPT-5等主流模型在真实科研场景中表现远逊于传统问答测试,暴露出多步推理等短板,并出现性能提升的边际效益递减现象。这项与OpenAI同期关注相同议题的研究,标志着全球对AI驱动科学创新的严肃审视,旨在将AI发展引向超越题库竞争、真正助力人类拓展知识边界的星辰大海。

Sakana AI联手MIT:大语言模型在Core War中驱动AI对抗进化,揭示数字红皇后算法与趋同演化现象

Sakana AI与麻省理工学院(MIT)合作,利用大语言模型在经典编程游戏《Core War》中驱动了一场AI对抗进化实验,提出了“数字红皇后(DRQ)”算法。该算法通过让AI程序在虚拟战场中持续进行自我博弈和对抗,迭代进化出既稳健又通用的“战士”程序。研究不仅验证了“红皇后动态”(物种必须不断进化以维持相对竞争力),还观察到了有趣的“趋同进化”现象——从不同起点独立演化的程序最终会发展出相似的高效行为策略。这项研究为在安全可控的沙盒环境中探索AI在对抗性场景(如网络安全)中的演化规律提供了新范式,对理

2025推理模型之年:DeepSeek R1引领LLM强化推理新范式

本文基于AI研究员Sebastian Raschka的年度总结,深入解读了2025年大语言模型领域的核心进展。文章指出,2025年是“推理模型之年”,DeepSeek R1的发布及其采用的RLVR与GRPO算法成为技术风向标,推动LLM发展重点从参数堆叠转向推理能力强化。同时,模型架构呈现MoE与高效注意力机制融合的趋势,“推理时扩展”和“工具使用”成为提升性能的关键杠杆。行业也面临“极限刷榜”带来的评估挑战。文章还探讨了AI在编码、写作中的协作角色,并预测未来优势将在于私有数据与领域专业化。最后,对20

北京智研院NPR框架:原生并行推理加速大模型复杂任务处理

北京通用人工智能研究院(BIGAI)提出原生并行推理器(NPR)框架,旨在解决大语言模型处理复杂推理任务时的瓶颈。该框架通过“自蒸馏+并行强化学习”三阶段训练范式,使模型获得内在的并行推理能力,能同时探索多条路径并汇总结果。实验表明,NPR在多个高难度数学推理基准上显著提升了准确率与效率(最高加速4.6倍),且并行行为稳健,为下一代AI智能体的发展提供了新思路。

Poetiq与GPT-5.2推理编排系统ARC-AGI-2:无需微调提升AI性能

AI初创公司Poetiq通过其创新的Meta-System(推理编排系统),在未对底层模型进行任何微调的情况下,显著提升了GPT-5.2 X-High在权威复杂推理基准ARC-AGI-2上的性能。测试显示,该系统使模型在PUBLIC-EVAL数据集上取得75%的准确率,较之前SOTA提升约15%,同时单题成本低于8美元。Poetiq系统采用迭代式问题求解和自我审计机制,具备模型无关性,可快速适配不同大模型,展现了在模型之上构建智能、通过优化推理过程而非改变模型本身来释放AI潜力的新范式。