迪士尼联手OpenAI:10亿美元投资Sora,200+IP授权开启AI内容新纪元
迪士尼宣布向OpenAI投资10亿美元并达成三年战略合作,授权Sora使用其旗下超过200个经典IP角色用于生成短视频。此举标志着娱乐巨头从对抗AI转向合作共赢,旨在拥抱新一代用户、提升内部生产力并激活UGC生态。然而,合作也引发对品牌形象稀释、内容失控及AI生成内容质量问题的广泛担忧,揭示了AI时代内容产业在创新机遇与风险管控之间的深刻矛盾。
香港大学开源ViMax框架:多智能体协同实现AI全流程自动化视频制作
香港大学黄超教授团队开源的ViMax框架,通过多智能体协同实现了AI全流程自动化视频制作。该框架将影视制作分解为剧本创作、分镜规划、视觉生成、质量把控和统筹协调五个阶段,由专门的AI智能体负责。ViMax创新性地采用三层递归规划体系应对长视频叙事复杂度,并利用图网络和RAG技术解决跨镜头视觉一致性与上下文碎片化难题。这一体系标志着AI视频生成从‘片段生成’到‘系统化创作’的重要转变,为未来自动化创作工具的发展提供了新思路。
何恺明NeurIPS 2025演讲:从Faster R-CNN获奖回望目标检测三十年演进之路
本文回顾了何恺明在NeurIPS 2025大会上关于目标检测三十年发展的主题演讲。演讲以荣获“时间检验奖”的Faster R-CNN论文为引,系统梳理了从早期手工特征时代(如Viola-Jones、SIFT、DPM),到深度学习破晓时期(AlexNet、R-CNN),再到以Faster R-CNN为代表的端到端检测范式确立,以及后续YOLO、Transformer、SAM等新技术涌现的完整演进历程。文章不仅总结了关键的技术突破点,更提炼出“用可学习模型替代系统瓶颈”的核心方法论,并以“驶向迷雾”的比喻,展
统计物理视角:大模型第一性原理与能量模型泛化分析
本文从统计物理视角深入剖析了大语言模型的第一性原理。研究指出,Transformer架构及其核心的Attention模块均可用能量模型进行描述,揭示了模型推理与训练的本质分别是最小化能量函数与平均能量函数。文章系统探讨了Transformer的记忆容量随参数指数增长的特性、泛化误差界与Logits的紧密关联,并最终论证了大模型的能力极限在于时间序列维度的Granger因果推断,这意味着扩展定律仍将延续,但模型无法实现真正的符号抽象与逻辑推理。该研究为理解大模型黑箱机制、界定其能力边界提供了全新的理论框架。
斯坦福研究:协调层激活LLM推理能力,迈向AGI新路径
斯坦福大学Edward Y. Chang教授的最新研究提出,实现通用人工智能(AGI)的关键不在于无限扩大语言模型规模,而在于构建一个“协调层”。该协调层能够智能地引导和绑定大语言模型(LLM)内海量的模式知识,使其从基于统计的“模式匹配”转向目标明确的可靠“推理”。研究提出了“统一认知意识理论”(UCCT),将这一转变描述为一种“相变”,并设计了“多智能体协作智能”(MACI)架构作为协调层的工程实现。这项研究为AGI的发展提供了一条超越“规模扩展”与“模式匹配批判”的第三条道路。
OpenAI或提前发布GPT-5.2与图像生成模型,迎战谷歌Gemini 3竞争
OpenAI疑似因谷歌Gemini 3的竞争压力,启动“红色代码”紧急响应,计划提前发布新一代大型语言模型GPT-5.2(内部代号“橄榄油蛋糕”)及下一代图像生成模型Image-2系列(内部代号“栗子和榛子”)。市场预测发布日期可能为本周四(12月11日)。新图像模型据称在色彩还原、细节保真、艺术风格融合及“图生码”能力上均有显著提升,旨在全面对标谷歌产品。此举标志着年末AI巨头竞争进入白热化阶段。
Light-X:全球首个镜头与光照双控4D视频生成框架,单目视频秒变电影级大片
Light-X是由国际顶尖科研机构联合推出的全球首个镜头与光照双控4D视频生成框架。它能够仅凭一段普通单目视频,让用户自由规划虚拟摄像机轨迹以生成任意新视角,同时灵活调整场景的光照方向、强度与风格,实现电影级视觉效果。该技术通过解耦相机与光照控制、利用动态点云先验和统一的扩散模型,攻克了多因素耦合与数据匮乏的难题,并在实验中显著优于现有方法,为影视、VR/AR等内容创作带来了革命性工具。
谷歌TPU性能与产能优势挑战英伟达AI芯片市场主导地位
摩根士丹利报告显示,谷歌TPU产能即将爆发式增长,供应链问题解决,将大规模对外销售。TPU作为专为AI推理设计的ASIC芯片,在能效和成本上相较英伟达GPU有数倍优势,正吸引Midjourney、Anthropic、Meta等巨头采用。这标志着AI算力市场正从训练转向推理主导,引发华尔街对英伟达毛利率和市场份额的担忧。未来将形成GPU负责训练与研发、TPU等ASIC芯片主导规模化推理的混合算力新格局。
2025浦东AI人才论坛:青年力量驱动张江AI创新与具身智能发展
2025年12月6日,“青年聚力·智汇浦东”人工智能产业人才论坛在上海张江科学会堂成功举办。论坛汇聚产、学、研各界精英,通过产业推介、项目签约、主旨演讲、圆桌对话及报告发布等形式,深入探讨了以张江AI创新小镇为核心的产业生态建设、具身智能的进化路径与生态构建、AI顶尖人才“引育并举”新范式,以及青年力量如何推动AI理论向产业价值跃迁。会上发布的《2025浦东新区人工智能人才发展趋势报告》揭示了AI人才高学历、高薪酬、青年化的特点及未来巨大需求缺口。本次论坛为上海建设全球人工智能高地注入了新的思想动力与创新
ICLR 2026审稿危机:AI幻觉冲击学术诚信,同行评审体系受挑战
ICLR 2026大会正面临严重的学术诚信危机。GPTZero检测发现,抽样论文中有超过16%存在AI生成的虚假引用(幻觉),且这些论文大多已通过同行评审。这暴露了在生成式AI和发表压力下,传统学术评审体系已不堪重负。事件引发对AI时代如何维护学术质量的深刻反思,并凸显了开发辅助验证工具的紧迫性。
Sora应用AI生成萌娃与小狗视频火爆,用户留存率低引关注
近期,由Sora等AI模型生成的萌娃与小狗互动视频风靡社交媒体,以其极强的治愈感获得海量传播。这些视频通过精准的提示词生成,效果逼真。然而,数据揭示火爆表象下的隐忧:Sora应用的用户留存率在两个月内暴跌至近乎为零。分析指出,其核心矛盾在于定位模糊——既是强大的创作工具,又试图成为社交平台,但用户仅将其视为内容生产“工厂”,生成的作品被导出至其他社交平台,导致其自身生态缺乏真实社交粘性,难以留住普通用户。
阿里千问新方法:一阶近似优化大语言模型强化学习训练稳定性
阿里千问团队提出了一种创新的大语言模型强化学习理论框架,通过将词元级优化目标构建为序列级期望奖励的一阶近似,从根本上解释了训练不稳定的原因。该研究指出,在训练与推理差异及策略偏差足够小的条件下,此近似成立。针对混合专家模型的特殊挑战,团队提出了路由重放方法。大规模实验证明,结合重要性采样的基础策略梯度方法在同策略训练中最稳定;而在异策略训练中,必须同时使用路由重放和剪切技术。研究最终表明,实现稳定的训练过程比模型初始化方式更为关键。
GenMimic革新机器人模仿学习:视频生成驱动人形机器人进化
GenMimic是一项突破性的机器人模仿学习研究,它使人形机器人能够通过观看AI生成的视频(如由Wan2.1或Sora创建),无需额外训练即可在现实世界中零样本复现人类动作。该技术由伯克利、纽约大学等机构联合开发,采用创新的两阶段流程和结合加权跟踪与对称损失的强化学习策略,能有效处理生成视频中的噪声,在仿真和宇树G1实体机器人上均验证了其有效性,为机器人获取多样化技能开辟了新途径。
刚刚,英伟达CUDA迎来史上最大更新!
几个小时前,NVIDIA CUDA Toolkit 13.1 正式发布,英伟达官方表示:「这是 20 年来最大的一次更新。」
国产大模型openPangu-R-72B凭昇腾算力,斩获SuperCLUE深度搜索评测冠军
国产大模型 openPangu-R-72B 在最新的 SuperCLUE 深度搜索评测中夺得冠军。该模型基于国产昇腾算力平台,采用创新的 MoE 架构,通过“80选8”专家机制平衡性能与效率。其在技术底座上融合了参数式 Sink Token、组合归一化等优化,并在后训练阶段针对深度搜索任务专项突破,运用长链难题合成、非索引信息处理、快慢思考融合三大策略,显著提升了复杂信息检索能力。同时,其兄弟模型在通用榜单也获佳绩,彰显了 openPangu 系列模型与国产算力协同创新的强大实力。
任少卿教授领衔中科大全球招募AI人才,聚焦Faster R-CNN与通用人工智能研究
中国科学技术大学任少卿教授领衔的通用人工智能研究所(筹)面向全球招募人工智能高端人才,涵盖教授、研究员、博士后、工程师及学生等多个岗位。研究所聚焦Faster R-CNN、世界模型、具身智能等前沿方向,提供上海与合肥两地工作选择及顶级科研资源,旨在开展原创性、颠覆性研究,诚邀海内外学者共创顶尖成就。
DeepSeek-V3.2模型Token消耗效率分析与GRPO优化策略
本文深入分析了DeepSeek-V3.2模型,特别是其长思考版本Speciale在Token消耗效率方面的问题。数据显示该版本在处理相同任务时需要消耗竞品3倍以上的Token,且存在输出冗长的现象。技术根源在于GRPO算法的长度偏置缺陷——当模型给出错误答案时,较长的响应受到的惩罚更弱,导致模型倾向于生成冗长回复。虽然DeepSeek团队已对难度偏置进行优化并施加了更严格的Token约束,但长度偏置问题仍然存在。文章探讨了这一问题的历史渊源,并指出Token效率将是未来AI模型发展的重要研究方向。
Vidu Q2生图全家桶限时免费:AI图像生成编辑,4K画质多参工作流
生数科技Vidu推出全新Q2“生图全家桶”,升级参考生图功能并新增文生图与图像编辑模块,以超强一致性为核心,支持精准控制与4K高清输出。其图像编辑功能在国际评测中表现优异,并构建了从图片到视频的一站式工作流。目前已在八大场景广泛应用,并为用户提供至12月31日的限时免费体验福利。
时空智能需求爆发,千寻位置万亿调用赋能智能驾驶与低空经济
全球领先的时空智能公司千寻位置宣布,其月度服务调用量已连续两个月突破一万亿次,成为全球首个达成此成就的平台。这一里程碑标志着在AI浪潮下,智能驾驶、低空经济、机器人等领域对高精度时空服务的需求呈现爆发式增长。时空智能作为连接数字与物理世界的桥梁,正成为“物理AI”不可或缺的基础设施,赋能各类智能体在现实世界中精准感知、规划与行动。千寻位置通过其全球增强站网络与自主研发技术,已服务超350万辆智能汽车、5000万部手机及20万台低空飞行器,推动北斗应用从“可用”走向“好用”,驱动产业创新与高质量发展。
理想AI眼镜Livis发布:蔡司镜片与AI助手定义全天候智能生活伙伴
2025年12月3日,理想汽车发布其首款AI眼镜Livis,该产品全系搭载蔡司高品质镜片,起售价1999元。Livis以仅36克的超轻设计实现全天候无负担佩戴,集成了第一视角闪电抓拍、开放式空间音频、基于MindGPT-4o的“理想同学”AI助手及自研Livis OS系统。它不仅是理想汽车智能体验向车外生活的自然延伸,实现与车机的无缝联动控制,更是理想在具身智能领域的重要探索,旨在成为用户工作与生活中的全天候智能伙伴。