标签名称：大语言模型

最大似然强化学习：优化目标与计算效率提升模型训练

本文介绍了一项由多所顶尖大学联合提出的“最大似然强化学习”突破性研究。该研究指出，传统强化学习仅优化了最大似然目标的一阶近似，存在根本局限。MaxRL通过将问题重新形式化为潜变量最大似然优化，并引入以计算量为索引的目标函数族，使训练目标能随算力增加逐步逼近真实最大似然。实验证明，该方法在代码生成、数学推理等任务上，相比现有方法在训练与测试效率上均有显著提升，最高可达20倍，为不可微的采样学习问题提供了更本质的解决方案，可能重塑AI训练范式。

AI快讯

2026-02-06

AStockArena首期实盘竞技：GPT-5与Claude科创板交易领先，DeepSeek展稳健风控

AStockArena首期实盘竞技结果显示，GPT-5系列与Claude在科创板交易中表现领先，其中GPT-5.1的Alpha收益超过12%。DeepSeek在暴跌行情中展现出卓越的风控能力，证明了国产模型的竞争力。该平台是国内首个采用真实T+1规则的科创板智能体竞技平台，通过ReAct全闭环架构、真实科创板测试场景和专业数据支持，为AI交易模型提供了高拟真的评估环境，推动量化交易进入智能体时代。

AI快讯

2026-01-27

Yann LeCun AMI Labs发布世界模型，挑战大语言模型，估值35亿美元

图灵奖得主Yann LeCun创立的AMI Labs正式公布其核心方向：开发能够理解并模拟现实物理规律的“世界模型”，以此挑战当前主流的大语言模型范式。该公司旨在构建具备理解、记忆、推理规划能力且安全可控的新型AI系统，专注于工业、医疗、机器人等高可靠性领域。与此同时，LeCun的理念也在硅谷另一家公司的能量推理模型中得到体现。该赛道已吸引巨额资本关注，AMI Labs估值或达35亿美元，标志着AI研究正从语言生成向物理世界理解与交互的关键转变。

AI快讯

2026-01-25

AAAI 2026新加坡AI周：人类自主权与Agentic AI前沿研讨会聚焦

AAAI 2026新加坡AI周期间将举办两场前沿研讨会：第一场聚焦AI时代如何捍卫人类在工作、学习、拥有与选择方面的自主权，汇聚全球治理与技术专家；第二场深入探讨基于大语言模型的Agentic AI、自主智能体与多智能体系统的技术融合、挑战与未来方向。两场活动均在新加坡国立大学举行，邀请多位国际顶尖学者分享，是了解AI伦理治理与智能体技术最新进展的宝贵平台。

AI快讯

2026-01-19

生成式AI语音助手在智能家居中的可靠性挑战与用户体验优化

本文探讨了生成式AI语音助手（如Alexa Plus）在智能家居应用中面临的可靠性挑战。文章通过记者与咖啡机的真实互动案例，揭示了LLM固有的随机性与家居控制所需的确定性之间的根本矛盾。尽管新技术在理解复杂指令、实现多设备协同和提供智能通知方面潜力巨大，但在执行开灯、煮咖啡等基础指令时却频频出错，引发用户不满。分析指出，问题核心在于技术边界模糊，当前将生成式AI置于核心控制位置可能为时过早。文章认为，未来的优化方向应是明确AI的辅助角色，将其作为增强理解的交互层，而非完全替代稳定可靠的传统控制逻辑，从而在

AI快讯

2026-01-19

Deep Principle发布全球首个LLMs科学评测体系SDE，揭示大模型科学发现短板

中国AI初创企业深度原理联合全球24所顶尖高校，发布了首个针对大语言模型科学发现能力的评测体系SDE。评估显示，GPT-5等主流模型在真实科研场景中表现远逊于传统问答测试，暴露出多步推理等短板，并出现性能提升的边际效益递减现象。这项与OpenAI同期关注相同议题的研究，标志着全球对AI驱动科学创新的严肃审视，旨在将AI发展引向超越题库竞争、真正助力人类拓展知识边界的星辰大海。

AI快讯

2026-01-17

Sakana AI联手MIT：大语言模型在Core War中驱动AI对抗进化，揭示数字红皇后算法与趋同演化现象

Sakana AI与麻省理工学院（MIT）合作，利用大语言模型在经典编程游戏《Core War》中驱动了一场AI对抗进化实验，提出了“数字红皇后（DRQ）”算法。该算法通过让AI程序在虚拟战场中持续进行自我博弈和对抗，迭代进化出既稳健又通用的“战士”程序。研究不仅验证了“红皇后动态”（物种必须不断进化以维持相对竞争力），还观察到了有趣的“趋同进化”现象——从不同起点独立演化的程序最终会发展出相似的高效行为策略。这项研究为在安全可控的沙盒环境中探索AI在对抗性场景（如网络安全）中的演化规律提供了新范式，对理

AI快讯

2026-01-12

2025推理模型之年：DeepSeek R1引领LLM强化推理新范式

本文基于AI研究员Sebastian Raschka的年度总结，深入解读了2025年大语言模型领域的核心进展。文章指出，2025年是“推理模型之年”，DeepSeek R1的发布及其采用的RLVR与GRPO算法成为技术风向标，推动LLM发展重点从参数堆叠转向推理能力强化。同时，模型架构呈现MoE与高效注意力机制融合的趋势，“推理时扩展”和“工具使用”成为提升性能的关键杠杆。行业也面临“极限刷榜”带来的评估挑战。文章还探讨了AI在编码、写作中的协作角色，并预测未来优势将在于私有数据与领域专业化。最后，对20

AI快讯

2026-01-03

北京智研院NPR框架：原生并行推理加速大模型复杂任务处理

北京通用人工智能研究院（BIGAI）提出原生并行推理器（NPR）框架，旨在解决大语言模型处理复杂推理任务时的瓶颈。该框架通过“自蒸馏+并行强化学习”三阶段训练范式，使模型获得内在的并行推理能力，能同时探索多条路径并汇总结果。实验表明，NPR在多个高难度数学推理基准上显著提升了准确率与效率（最高加速4.6倍），且并行行为稳健，为下一代AI智能体的发展提供了新思路。

AI快讯

2025-12-28

Poetiq与GPT-5.2推理编排系统ARC-AGI-2：无需微调提升AI性能

AI初创公司Poetiq通过其创新的Meta-System（推理编排系统），在未对底层模型进行任何微调的情况下，显著提升了GPT-5.2 X-High在权威复杂推理基准ARC-AGI-2上的性能。测试显示，该系统使模型在PUBLIC-EVAL数据集上取得75%的准确率，较之前SOTA提升约15%，同时单题成本低于8美元。Poetiq系统采用迭代式问题求解和自我审计机制，具备模型无关性，可快速适配不同大模型，展现了在模型之上构建智能、通过优化推理过程而非改变模型本身来释放AI潜力的新范式。

AI快讯

2025-12-26

AI导航

大语言模型