大语言模型

Sakana AI联手MIT:大语言模型在Core War中驱动AI对抗进化,揭示数字红皇后算法与趋同演化现象

Sakana AI与麻省理工学院(MIT)合作,利用大语言模型在经典编程游戏《Core War》中驱动了一场AI对抗进化实验,提出了“数字红皇后(DRQ)”算法。该算法通过让AI程序在虚拟战场中持续进行自我博弈和对抗,迭代进化出既稳健又通用的“战士”程序。研究不仅验证了“红皇后动态”(物种必须不断进化以维持相对竞争力),还观察到了有趣的“趋同进化”现象——从不同起点独立演化的程序最终会发展出相似的高效行为策略。这项研究为在安全可控的沙盒环境中探索AI在对抗性场景(如网络安全)中的演化规律提供了新范式,对理

2025推理模型之年:DeepSeek R1引领LLM强化推理新范式

本文基于AI研究员Sebastian Raschka的年度总结,深入解读了2025年大语言模型领域的核心进展。文章指出,2025年是“推理模型之年”,DeepSeek R1的发布及其采用的RLVR与GRPO算法成为技术风向标,推动LLM发展重点从参数堆叠转向推理能力强化。同时,模型架构呈现MoE与高效注意力机制融合的趋势,“推理时扩展”和“工具使用”成为提升性能的关键杠杆。行业也面临“极限刷榜”带来的评估挑战。文章还探讨了AI在编码、写作中的协作角色,并预测未来优势将在于私有数据与领域专业化。最后,对20

北京智研院NPR框架:原生并行推理加速大模型复杂任务处理

北京通用人工智能研究院(BIGAI)提出原生并行推理器(NPR)框架,旨在解决大语言模型处理复杂推理任务时的瓶颈。该框架通过“自蒸馏+并行强化学习”三阶段训练范式,使模型获得内在的并行推理能力,能同时探索多条路径并汇总结果。实验表明,NPR在多个高难度数学推理基准上显著提升了准确率与效率(最高加速4.6倍),且并行行为稳健,为下一代AI智能体的发展提供了新思路。

Poetiq与GPT-5.2推理编排系统ARC-AGI-2:无需微调提升AI性能

AI初创公司Poetiq通过其创新的Meta-System(推理编排系统),在未对底层模型进行任何微调的情况下,显著提升了GPT-5.2 X-High在权威复杂推理基准ARC-AGI-2上的性能。测试显示,该系统使模型在PUBLIC-EVAL数据集上取得75%的准确率,较之前SOTA提升约15%,同时单题成本低于8美元。Poetiq系统采用迭代式问题求解和自我审计机制,具备模型无关性,可快速适配不同大模型,展现了在模型之上构建智能、通过优化推理过程而非改变模型本身来释放AI潜力的新范式。

快手科技熵比裁剪法:解决强化学习全局分布漂移,提升大语言模型训练稳定性

快手科技语言大模型团队提出创新性“熵比裁剪”方法,有效解决大语言模型强化学习训练中的全局分布漂移难题。该方法通过约束策略熵的相对变化,从整体分布层面稳定训练过程,与经典的PPO-Clip形成互补。实验表明,ERC能在多个高难度数学推理基准上显著提升模型性能,并确保训练动态更稳定,同时保持良好的探索能力。这项研究为提升大模型训练稳定性和可靠性提供了重要技术突破。

AAAI 2026 | Trust-videoLLMs:视频大语言模型可信度与多模态安全评测

合肥工业大学与清华大学研究团队在AAAI 2026上提出了首个面向视频大语言模型的综合可信度评测基准Trust-videoLLMs。该基准从真实性、鲁棒性、安全性、公平性、隐私性五个维度,对23款主流模型进行了全面评估。关键发现包括:闭源模型整体领先但开源模型正在追赶;模型规模不等于性能;视频内容会放大安全风险;公平性偏见普遍存在;隐私保护能力存在双重性。团队开源了全套评测框架、数据集与工具箱,旨在推动构建更安全、可靠、负责任的多模态AI系统。

Thinking Machines Lab 全面开放Tinker API,新增微调与视觉模型功能,兼容OpenAI API

由前OpenAI CTO创立的Thinking Machines Lab宣布其Tinker API全面开放,取消内测限制。本次更新带来三大核心功能:支持对万亿参数模型Kimi K2进行微调;提供完全兼容OpenAI API标准的推理接口,实现即插即用;新增两款视觉语言模型(Qwen3-VL),支持图像内容处理与多模态任务微调。Tinker通过将复杂的训练基础设施抽象为API,让开发者无需管理算力资源,仅关注数据与算法,极大降低了大规模模型定制与应用的门槛。

浙大NeurIPS 2025提出COIDO框架:高效优化多模态数据选择,显著降低计算成本

浙江大学团队在NeurIPS 2025上提出的COIDO框架,通过耦合重要性-多样性优化与轻量级评分器设计,革命性地降低了多模态大模型视觉指令微调的数据筛选成本。该框架仅需20%的数据进行训练,即可达到接近全量数据微调的性能,同时在计算效率与筛选质量上均超越现有方法,并展现出强大的泛化与迁移能力,为高效多模态模型训练提供了突破性解决方案。

斯坦福研究:协调层激活LLM推理能力,迈向AGI新路径

斯坦福大学Edward Y. Chang教授的最新研究提出,实现通用人工智能(AGI)的关键不在于无限扩大语言模型规模,而在于构建一个“协调层”。该协调层能够智能地引导和绑定大语言模型(LLM)内海量的模式知识,使其从基于统计的“模式匹配”转向目标明确的可靠“推理”。研究提出了“统一认知意识理论”(UCCT),将这一转变描述为一种“相变”,并设计了“多智能体协作智能”(MACI)架构作为协调层的工程实现。这项研究为AGI的发展提供了一条超越“规模扩展”与“模式匹配批判”的第三条道路。

阿里千问新方法:一阶近似优化大语言模型强化学习训练稳定性

阿里千问团队提出了一种创新的大语言模型强化学习理论框架,通过将词元级优化目标构建为序列级期望奖励的一阶近似,从根本上解释了训练不稳定的原因。该研究指出,在训练与推理差异及策略偏差足够小的条件下,此近似成立。针对混合专家模型的特殊挑战,团队提出了路由重放方法。大规模实验证明,结合重要性采样的基础策略梯度方法在同策略训练中最稳定;而在异策略训练中,必须同时使用路由重放和剪切技术。研究最终表明,实现稳定的训练过程比模型初始化方式更为关键。