分割一切、3D重建一切还不够,Meta开源SAM Audio分割一切声音

继 SAM(Segment Anything Model)、SAM 3D 后,Meta 又有了新动作。

腾讯任命姚顺雨为首席AI科学家,升级大模型研发架构迎战AI新赛道

腾讯正式任命前OpenAI研究员姚顺雨为首席AI科学家,并向总裁刘炽平汇报。同时,公司宣布升级大模型研发架构,新成立AI Infra部、AI Data部和数据计算平台部,以全面强化底层技术能力。姚顺雨在AI智能体领域成就卓著,其加入与架构调整彰显了腾讯在AI新赛道发力的决心。

快手科技熵比裁剪法:解决强化学习全局分布漂移,提升大语言模型训练稳定性

快手科技语言大模型团队提出创新性“熵比裁剪”方法,有效解决大语言模型强化学习训练中的全局分布漂移难题。该方法通过约束策略熵的相对变化,从整体分布层面稳定训练过程,与经典的PPO-Clip形成互补。实验表明,ERC能在多个高难度数学推理基准上显著提升模型性能,并确保训练动态更稳定,同时保持良好的探索能力。这项研究为提升大模型训练稳定性和可靠性提供了重要技术突破。

无问芯穹发布企业级智能体服务平台,以AI基础设施加速企业实现智能体自由与生产力跃升

无问芯穹在2025 INFINI DAY上正式发布其战略级企业级智能体服务平台。该平台作为智能体时代的核心AI基础设施,旨在解决企业智能体落地中生产级效果难、运行不稳定、成本高、商业化闭环难四大痛点,提供从定制优化、部署托管到商业化变现的全链路陪伴式服务。平台通过内置行业模板、动态模型适配、强大算力保障、深度推理优化及打通工具链、升级链、推广链,助力企业高效、稳定、低成本地部署和运营智能体,已成功应用于系统开发、求职、旅游、教育等多个行业,旨在将智能体内化为企业原生动能,加速创造力向生产力的转化,定义下一

AAAI 2026 | Trust-videoLLMs:视频大语言模型可信度与多模态安全评测

合肥工业大学与清华大学研究团队在AAAI 2026上提出了首个面向视频大语言模型的综合可信度评测基准Trust-videoLLMs。该基准从真实性、鲁棒性、安全性、公平性、隐私性五个维度,对23款主流模型进行了全面评估。关键发现包括:闭源模型整体领先但开源模型正在追赶;模型规模不等于性能;视频内容会放大安全风险;公平性偏见普遍存在;隐私保护能力存在双重性。团队开源了全套评测框架、数据集与工具箱,旨在推动构建更安全、可靠、负责任的多模态AI系统。

Thinking Machines Lab 全面开放Tinker API,新增微调与视觉模型功能,兼容OpenAI API

由前OpenAI CTO创立的Thinking Machines Lab宣布其Tinker API全面开放,取消内测限制。本次更新带来三大核心功能:支持对万亿参数模型Kimi K2进行微调;提供完全兼容OpenAI API标准的推理接口,实现即插即用;新增两款视觉语言模型(Qwen3-VL),支持图像内容处理与多模态任务微调。Tinker通过将复杂的训练基础设施抽象为API,让开发者无需管理算力资源,仅关注数据与算法,极大降低了大规模模型定制与应用的门槛。

神经网络权重收敛通用子空间:模型架构主导学习结果

约翰斯・霍普金斯大学的最新研究发现,超过1100个在不同数据集、初始化和超参数下训练的神经网络,其最终权重都会收敛到一个共享的低维子空间。这一“通用权重子空间假说”表明,模型架构而非数据,主导了神经网络的学习结果,训练更像是在“发现”一个预先存在的数学结构。该发现解释了过参数化模型泛化、LoRA等技术有效性的原因,并为模型压缩、高效合并及理论理解提供了新视角,同时也引发了关于当前架构是否存在内在天花板的讨论。研究通过分析ResNet、ViT、LLaMA及大量LoRA模型,提供了权重层面通用性的实证证据。

谷歌布林谈AI未来:Transformer革新教育、材料科学与学术产业协同

在斯坦福大学工程学院百年庆典上,谷歌联合创始人谢尔盖·布林与校方领导展开深度对谈。他回顾了谷歌依托学术基因、敢于挑战难题的成功经验,也坦诚反思了在Transformer架构上错失先机的遗憾。布林探讨了AI时代下计算机专业的教育价值、未来大学可能超越地理限制的形态,以及学术界在工业界强势研发下,于超长期基础探索中的不可替代角色。他建议创业者保持耐心、敬畏市场,并指出AI的未来突破将更依赖算法创新而非单纯算力扩展。最后,布林与对话者一致认为,材料科学与合成生物学是当前被严重低估、蕴含巨大潜力的技术前沿。

浙大NeurIPS 2025提出COIDO框架:高效优化多模态数据选择,显著降低计算成本

浙江大学团队在NeurIPS 2025上提出的COIDO框架,通过耦合重要性-多样性优化与轻量级评分器设计,革命性地降低了多模态大模型视觉指令微调的数据筛选成本。该框架仅需20%的数据进行训练,即可达到接近全量数据微调的性能,同时在计算效率与筛选质量上均超越现有方法,并展现出强大的泛化与迁移能力,为高效多模态模型训练提供了突破性解决方案。

ACL 2025年度会士名单公布:季姮、张岳等11位学者入选

国际计算语言学学会(ACL)公布了2025年度会士名单,共有11位全球顶尖学者获此殊荣。其中,伊利诺伊大学厄巴纳-香槟分校的季姮教授和西湖大学的张岳教授作为杰出的华人学者入选,彰显了华人在该领域的卓越贡献。其他入选者包括在TextRank算法、开放AI模型、多模态处理、阿拉伯语/日语NLP、计算情感科学及基础理论等方面有开创性工作的国际领军学者。ACL Fellow是学会最高荣誉,旨在表彰对自然语言处理领域做出卓越技术成就或社区贡献的会员。

迪士尼联手OpenAI:10亿美元投资Sora,200+IP授权开启AI内容新纪元

迪士尼宣布向OpenAI投资10亿美元并达成三年战略合作,授权Sora使用其旗下超过200个经典IP角色用于生成短视频。此举标志着娱乐巨头从对抗AI转向合作共赢,旨在拥抱新一代用户、提升内部生产力并激活UGC生态。然而,合作也引发对品牌形象稀释、内容失控及AI生成内容质量问题的广泛担忧,揭示了AI时代内容产业在创新机遇与风险管控之间的深刻矛盾。

香港大学开源ViMax框架:多智能体协同实现AI全流程自动化视频制作

香港大学黄超教授团队开源的ViMax框架,通过多智能体协同实现了AI全流程自动化视频制作。该框架将影视制作分解为剧本创作、分镜规划、视觉生成、质量把控和统筹协调五个阶段,由专门的AI智能体负责。ViMax创新性地采用三层递归规划体系应对长视频叙事复杂度,并利用图网络和RAG技术解决跨镜头视觉一致性与上下文碎片化难题。这一体系标志着AI视频生成从‘片段生成’到‘系统化创作’的重要转变,为未来自动化创作工具的发展提供了新思路。

何恺明NeurIPS 2025演讲:从Faster R-CNN获奖回望目标检测三十年演进之路

本文回顾了何恺明在NeurIPS 2025大会上关于目标检测三十年发展的主题演讲。演讲以荣获“时间检验奖”的Faster R-CNN论文为引,系统梳理了从早期手工特征时代(如Viola-Jones、SIFT、DPM),到深度学习破晓时期(AlexNet、R-CNN),再到以Faster R-CNN为代表的端到端检测范式确立,以及后续YOLO、Transformer、SAM等新技术涌现的完整演进历程。文章不仅总结了关键的技术突破点,更提炼出“用可学习模型替代系统瓶颈”的核心方法论,并以“驶向迷雾”的比喻,展

统计物理视角:大模型第一性原理与能量模型泛化分析

本文从统计物理视角深入剖析了大语言模型的第一性原理。研究指出,Transformer架构及其核心的Attention模块均可用能量模型进行描述,揭示了模型推理与训练的本质分别是最小化能量函数与平均能量函数。文章系统探讨了Transformer的记忆容量随参数指数增长的特性、泛化误差界与Logits的紧密关联,并最终论证了大模型的能力极限在于时间序列维度的Granger因果推断,这意味着扩展定律仍将延续,但模型无法实现真正的符号抽象与逻辑推理。该研究为理解大模型黑箱机制、界定其能力边界提供了全新的理论框架。

斯坦福研究:协调层激活LLM推理能力,迈向AGI新路径

斯坦福大学Edward Y. Chang教授的最新研究提出,实现通用人工智能(AGI)的关键不在于无限扩大语言模型规模,而在于构建一个“协调层”。该协调层能够智能地引导和绑定大语言模型(LLM)内海量的模式知识,使其从基于统计的“模式匹配”转向目标明确的可靠“推理”。研究提出了“统一认知意识理论”(UCCT),将这一转变描述为一种“相变”,并设计了“多智能体协作智能”(MACI)架构作为协调层的工程实现。这项研究为AGI的发展提供了一条超越“规模扩展”与“模式匹配批判”的第三条道路。

OpenAI或提前发布GPT-5.2与图像生成模型,迎战谷歌Gemini 3竞争

OpenAI疑似因谷歌Gemini 3的竞争压力,启动“红色代码”紧急响应,计划提前发布新一代大型语言模型GPT-5.2(内部代号“橄榄油蛋糕”)及下一代图像生成模型Image-2系列(内部代号“栗子和榛子”)。市场预测发布日期可能为本周四(12月11日)。新图像模型据称在色彩还原、细节保真、艺术风格融合及“图生码”能力上均有显著提升,旨在全面对标谷歌产品。此举标志着年末AI巨头竞争进入白热化阶段。

Light-X:全球首个镜头与光照双控4D视频生成框架,单目视频秒变电影级大片

Light-X是由国际顶尖科研机构联合推出的全球首个镜头与光照双控4D视频生成框架。它能够仅凭一段普通单目视频,让用户自由规划虚拟摄像机轨迹以生成任意新视角,同时灵活调整场景的光照方向、强度与风格,实现电影级视觉效果。该技术通过解耦相机与光照控制、利用动态点云先验和统一的扩散模型,攻克了多因素耦合与数据匮乏的难题,并在实验中显著优于现有方法,为影视、VR/AR等内容创作带来了革命性工具。

谷歌TPU性能与产能优势挑战英伟达AI芯片市场主导地位

摩根士丹利报告显示,谷歌TPU产能即将爆发式增长,供应链问题解决,将大规模对外销售。TPU作为专为AI推理设计的ASIC芯片,在能效和成本上相较英伟达GPU有数倍优势,正吸引Midjourney、Anthropic、Meta等巨头采用。这标志着AI算力市场正从训练转向推理主导,引发华尔街对英伟达毛利率和市场份额的担忧。未来将形成GPU负责训练与研发、TPU等ASIC芯片主导规模化推理的混合算力新格局。

2025浦东AI人才论坛:青年力量驱动张江AI创新与具身智能发展

2025年12月6日,“青年聚力·智汇浦东”人工智能产业人才论坛在上海张江科学会堂成功举办。论坛汇聚产、学、研各界精英,通过产业推介、项目签约、主旨演讲、圆桌对话及报告发布等形式,深入探讨了以张江AI创新小镇为核心的产业生态建设、具身智能的进化路径与生态构建、AI顶尖人才“引育并举”新范式,以及青年力量如何推动AI理论向产业价值跃迁。会上发布的《2025浦东新区人工智能人才发展趋势报告》揭示了AI人才高学历、高薪酬、青年化的特点及未来巨大需求缺口。本次论坛为上海建设全球人工智能高地注入了新的思想动力与创新

ICLR 2026审稿危机:AI幻觉冲击学术诚信,同行评审体系受挑战

ICLR 2026大会正面临严重的学术诚信危机。GPTZero检测发现,抽样论文中有超过16%存在AI生成的虚假引用(幻觉),且这些论文大多已通过同行评审。这暴露了在生成式AI和发表压力下,传统学术评审体系已不堪重负。事件引发对AI时代如何维护学术质量的深刻反思,并凸显了开发辅助验证工具的紧迫性。