计算机视觉

何恺明NeurIPS 2025演讲:从Faster R-CNN获奖回望目标检测三十年演进之路

本文回顾了何恺明在NeurIPS 2025大会上关于目标检测三十年发展的主题演讲。演讲以荣获“时间检验奖”的Faster R-CNN论文为引,系统梳理了从早期手工特征时代(如Viola-Jones、SIFT、DPM),到深度学习破晓时期(AlexNet、R-CNN),再到以Faster R-CNN为代表的端到端检测范式确立,以及后续YOLO、Transformer、SAM等新技术涌现的完整演进历程。文章不仅总结了关键的技术突破点,更提炼出“用可学习模型替代系统瓶颈”的核心方法论,并以“驶向迷雾”的比喻,展

Light-X:全球首个镜头与光照双控4D视频生成框架,单目视频秒变电影级大片

Light-X是由国际顶尖科研机构联合推出的全球首个镜头与光照双控4D视频生成框架。它能够仅凭一段普通单目视频,让用户自由规划虚拟摄像机轨迹以生成任意新视角,同时灵活调整场景的光照方向、强度与风格,实现电影级视觉效果。该技术通过解耦相机与光照控制、利用动态点云先验和统一的扩散模型,攻克了多因素耦合与数据匮乏的难题,并在实验中显著优于现有方法,为影视、VR/AR等内容创作带来了革命性工具。

任少卿教授领衔中科大全球招募AI人才,聚焦Faster R-CNN与通用人工智能研究

中国科学技术大学任少卿教授领衔的通用人工智能研究所(筹)面向全球招募人工智能高端人才,涵盖教授、研究员、博士后、工程师及学生等多个岗位。研究所聚焦Faster R-CNN、世界模型、具身智能等前沿方向,提供上海与合肥两地工作选择及顶级科研资源,旨在开展原创性、颠覆性研究,诚邀海内外学者共创顶尖成就。

UniLumos统一图像视频重打光框架:物理反馈提升光影真实性与20倍加速

UniLumos是一个统一的图像与视频重光照框架,通过引入几何反馈机制显著提升光影物理真实性,结合路径一致性学习实现20倍推理加速,并构建了细粒度的光影评估体系,在多项指标上达到当前最优水平。

字节跳动发布Depth Anything 3:简化Transformer实现高效3D视觉建模

字节跳动最新发布的Depth Anything 3(DA3)通过简化Transformer架构实现突破性3D视觉建模,仅使用标准Transformer和单一深度射线表示就在姿态估计和几何估计任务中分别实现44%和25%的性能提升。该技术证明了3D视觉研究可避免过度复杂化设计,具备视频重建、SLAM、3D高斯估计和多摄像头空间感知等多元化应用场景,为自动驾驶、机器人导航等领域提供强大技术支撑。

UniVid开源项目:统一模型实现视频理解与生成一体化,提升语义一致性与画面连贯性

UniVid开源项目创新性地将视频理解与生成能力融合于单一模型,通过适配器架构、温控模态对齐和金字塔反射三大核心技术,在VBench评测中刷新多项记录,实现了语义一致性和画面连贯性的显著提升。这一突破为视频创作、智能分析和机器人技术等领域提供了强大的技术支撑,同时开源特性促进了AI研究的民主化进程。

UniVid开源项目:统一模型实现视频理解与生成一体化

UniVid开源项目创新性地将视频理解与生成能力融合于统一模型,通过适配器架构、温度模态对齐和金字塔反射三大核心技术,在VBench评测中刷新多项记录,实现99.88的时序一致性和80.58的语义对齐度。该项目为视频内容创作、智能分析和机器人导航等场景提供强大支持,完全开源的特性助力AI研究社区发展。