标签名称：计算机视觉

基于棱镜假说的统一自编码：频率谱视角下的视觉模型语义-细节统一表示学习

南洋理工大学与商汤研究院的研究团队提出了“棱镜假说”，从频率谱视角统一解释视觉信息，认为低频对应语义、高频对应细节。基于此，他们开发了统一自编码框架，成功在一个潜在空间内融合了语义理解与细节重建能力，在图像重建、生成和语义理解任务上均取得优异表现，为视觉基础模型的发展提供了新思路。

AI快讯

2026-01-14

何恺明NeurIPS 2025演讲：从Faster R-CNN获奖回望目标检测三十年演进之路

本文回顾了何恺明在NeurIPS 2025大会上关于目标检测三十年发展的主题演讲。演讲以荣获“时间检验奖”的Faster R-CNN论文为引，系统梳理了从早期手工特征时代（如Viola-Jones、SIFT、DPM），到深度学习破晓时期（AlexNet、R-CNN），再到以Faster R-CNN为代表的端到端检测范式确立，以及后续YOLO、Transformer、SAM等新技术涌现的完整演进历程。文章不仅总结了关键的技术突破点，更提炼出“用可学习模型替代系统瓶颈”的核心方法论，并以“驶向迷雾”的比喻，展

AI快讯

2025-12-12

Light-X：全球首个镜头与光照双控4D视频生成框架，单目视频秒变电影级大片

Light-X是由国际顶尖科研机构联合推出的全球首个镜头与光照双控4D视频生成框架。它能够仅凭一段普通单目视频，让用户自由规划虚拟摄像机轨迹以生成任意新视角，同时灵活调整场景的光照方向、强度与风格，实现电影级视觉效果。该技术通过解耦相机与光照控制、利用动态点云先验和统一的扩散模型，攻克了多因素耦合与数据匮乏的难题，并在实验中显著优于现有方法，为影视、VR/AR等内容创作带来了革命性工具。

AI快讯

2025-12-10

任少卿教授领衔中科大全球招募AI人才，聚焦Faster R-CNN与通用人工智能研究

中国科学技术大学任少卿教授领衔的通用人工智能研究所（筹）面向全球招募人工智能高端人才，涵盖教授、研究员、博士后、工程师及学生等多个岗位。研究所聚焦Faster R-CNN、世界模型、具身智能等前沿方向，提供上海与合肥两地工作选择及顶级科研资源，旨在开展原创性、颠覆性研究，诚邀海内外学者共创顶尖成就。

AI快讯

2025-12-06

UniLumos统一图像视频重打光框架：物理反馈提升光影真实性与20倍加速

UniLumos是一个统一的图像与视频重光照框架，通过引入几何反馈机制显著提升光影物理真实性，结合路径一致性学习实现20倍推理加速，并构建了细粒度的光影评估体系，在多项指标上达到当前最优水平。

AI快讯

2025-11-25

字节跳动发布Depth Anything 3：简化Transformer实现高效3D视觉建模

字节跳动最新发布的Depth Anything 3（DA3）通过简化Transformer架构实现突破性3D视觉建模，仅使用标准Transformer和单一深度射线表示就在姿态估计和几何估计任务中分别实现44%和25%的性能提升。该技术证明了3D视觉研究可避免过度复杂化设计，具备视频重建、SLAM、3D高斯估计和多摄像头空间感知等多元化应用场景，为自动驾驶、机器人导航等领域提供强大技术支撑。

AI快讯

2025-11-16

UniVid开源项目：统一模型实现视频理解与生成一体化，提升语义一致性与画面连贯性

UniVid开源项目创新性地将视频理解与生成能力融合于单一模型，通过适配器架构、温控模态对齐和金字塔反射三大核心技术，在VBench评测中刷新多项记录，实现了语义一致性和画面连贯性的显著提升。这一突破为视频创作、智能分析和机器人技术等领域提供了强大的技术支撑，同时开源特性促进了AI研究的民主化进程。

AI快讯

2025-10-21

UniVid开源项目：统一模型实现视频理解与生成一体化

UniVid开源项目创新性地将视频理解与生成能力融合于统一模型，通过适配器架构、温度模态对齐和金字塔反射三大核心技术，在VBench评测中刷新多项记录，实现99.88的时序一致性和80.58的语义对齐度。该项目为视频内容创作、智能分析和机器人导航等场景提供强大支持，完全开源的特性助力AI研究社区发展。

AI快讯

2025-10-21

AI导航

计算机视觉