大语言模型
空间智能再进化:Spatial-SSRL与LVLM推动自监督强化学习下的空间理解
上海人工智能实验室联合多所高校研发的Spatial-SSRL技术,通过创新的自监督强化学习范式,无需外部标注即可显著提升视觉大语言模型的空间理解能力。该技术基于RGB和RGB-D图像构建五种自监督任务,在Qwen2.5-VL和Qwen3-VL架构上实现平均3.89%-4.63%的性能提升,同时完美保持模型原有通用视觉能力,为自动驾驶和具身智能等领域提供了低成本、高效率的空间智能解决方案。
AAAI 2026前瞻:iSeal加密指纹技术,为大语言模型版权保护提供端到端安全方案
AAAI 2026收录的iSeal技术,是首个针对端到端模型窃取场景的加密指纹方案。它通过引入外部编码器、混淆扩散绑定机制及语义相似度验证,有效抵御了模型权重被盗后的合谋遗忘与响应篡改两大高级攻击,在12个主流LLM上实现了100%的验证成功率,且不影响模型原生性能,为大语言模型的版权保护提供了全新的端到端安全解决方案。
DeepSeek-V3.2模型Token消耗效率分析与GRPO优化策略
本文深入分析了DeepSeek-V3.2模型,特别是其长思考版本Speciale在Token消耗效率方面的问题。数据显示该版本在处理相同任务时需要消耗竞品3倍以上的Token,且存在输出冗长的现象。技术根源在于GRPO算法的长度偏置缺陷——当模型给出错误答案时,较长的响应受到的惩罚更弱,导致模型倾向于生成冗长回复。虽然DeepSeek团队已对难度偏置进行优化并施加了更严格的Token约束,但长度偏置问题仍然存在。文章探讨了这一问题的历史渊源,并指出Token效率将是未来AI模型发展的重要研究方向。
阿里千问新方法:一阶近似优化大语言模型强化学习训练稳定性
阿里千问团队提出了一种创新的大语言模型强化学习理论框架,通过将词元级优化目标构建为序列级期望奖励的一阶近似,从根本上解释了训练不稳定的原因。该研究指出,在训练与推理差异及策略偏差足够小的条件下,此近似成立。针对混合专家模型的特殊挑战,团队提出了路由重放方法。大规模实验证明,结合重要性采样的基础策略梯度方法在同策略训练中最稳定;而在异策略训练中,必须同时使用路由重放和剪切技术。研究最终表明,实现稳定的训练过程比模型初始化方式更为关键。
斯坦福研究:协调层激活LLM推理能力,迈向AGI新路径
斯坦福大学Edward Y. Chang教授的最新研究提出,实现通用人工智能(AGI)的关键不在于无限扩大语言模型规模,而在于构建一个“协调层”。该协调层能够智能地引导和绑定大语言模型(LLM)内海量的模式知识,使其从基于统计的“模式匹配”转向目标明确的可靠“推理”。研究提出了“统一认知意识理论”(UCCT),将这一转变描述为一种“相变”,并设计了“多智能体协作智能”(MACI)架构作为协调层的工程实现。这项研究为AGI的发展提供了一条超越“规模扩展”与“模式匹配批判”的第三条道路。
浙大NeurIPS 2025提出COIDO框架:高效优化多模态数据选择,显著降低计算成本
浙江大学团队在NeurIPS 2025上提出的COIDO框架,通过耦合重要性-多样性优化与轻量级评分器设计,革命性地降低了多模态大模型视觉指令微调的数据筛选成本。该框架仅需20%的数据进行训练,即可达到接近全量数据微调的性能,同时在计算效率与筛选质量上均超越现有方法,并展现出强大的泛化与迁移能力,为高效多模态模型训练提供了突破性解决方案。
Thinking Machines Lab 全面开放Tinker API,新增微调与视觉模型功能,兼容OpenAI API
由前OpenAI CTO创立的Thinking Machines Lab宣布其Tinker API全面开放,取消内测限制。本次更新带来三大核心功能:支持对万亿参数模型Kimi K2进行微调;提供完全兼容OpenAI API标准的推理接口,实现即插即用;新增两款视觉语言模型(Qwen3-VL),支持图像内容处理与多模态任务微调。Tinker通过将复杂的训练基础设施抽象为API,让开发者无需管理算力资源,仅关注数据与算法,极大降低了大规模模型定制与应用的门槛。
AAAI 2026 | Trust-videoLLMs:视频大语言模型可信度与多模态安全评测
合肥工业大学与清华大学研究团队在AAAI 2026上提出了首个面向视频大语言模型的综合可信度评测基准Trust-videoLLMs。该基准从真实性、鲁棒性、安全性、公平性、隐私性五个维度,对23款主流模型进行了全面评估。关键发现包括:闭源模型整体领先但开源模型正在追赶;模型规模不等于性能;视频内容会放大安全风险;公平性偏见普遍存在;隐私保护能力存在双重性。团队开源了全套评测框架、数据集与工具箱,旨在推动构建更安全、可靠、负责任的多模态AI系统。
快手科技熵比裁剪法:解决强化学习全局分布漂移,提升大语言模型训练稳定性
快手科技语言大模型团队提出创新性“熵比裁剪”方法,有效解决大语言模型强化学习训练中的全局分布漂移难题。该方法通过约束策略熵的相对变化,从整体分布层面稳定训练过程,与经典的PPO-Clip形成互补。实验表明,ERC能在多个高难度数学推理基准上显著提升模型性能,并确保训练动态更稳定,同时保持良好的探索能力。这项研究为提升大模型训练稳定性和可靠性提供了重要技术突破。
Poetiq与GPT-5.2推理编排系统ARC-AGI-2:无需微调提升AI性能
AI初创公司Poetiq通过其创新的Meta-System(推理编排系统),在未对底层模型进行任何微调的情况下,显著提升了GPT-5.2 X-High在权威复杂推理基准ARC-AGI-2上的性能。测试显示,该系统使模型在PUBLIC-EVAL数据集上取得75%的准确率,较之前SOTA提升约15%,同时单题成本低于8美元。Poetiq系统采用迭代式问题求解和自我审计机制,具备模型无关性,可快速适配不同大模型,展现了在模型之上构建智能、通过优化推理过程而非改变模型本身来释放AI潜力的新范式。