何恺明NeurIPS 2025演讲:从Faster R-CNN获奖回望目标检测三十年演进之路

AI快讯 2025-12-12

何恺明NeurIPS 2025演讲:从Faster R-CNN获奖回望目标检测三十年演进之路

在近期落幕的NeurIPS 2025大会上,人工智能领域的顶尖学者们汇聚一堂,分享前沿洞见。其中,一项荣誉的颁发承载了厚重的历史意义,也收获了整个学术界的广泛认可——由任少卿、何恺明、Ross Girshick和孙剑共同完成的经典论文《Faster R-CNN》,荣获了大会颁发的「时间检验奖」。

对于任何一位计算机视觉领域的研究者或从业者而言,“Faster R-CNN”这个名字都如雷贯耳。自2015年问世以来,这篇论文便确立了现代目标检测技术的核心框架,其影响力如同海上的灯塔,持续指引着此后十年间视觉模型发展的航向。

NeurIPS 2025时间检验奖颁奖现场
NeurIPS 2025时间检验奖颁奖现场
Faster R-CNN论文封面

为纪念这一里程碑时刻,何恺明博士在会上发表了题为《视觉目标检测简史》的主题演讲。这场演讲不仅是一次技术回顾,更是一部描绘计算机如何逐步学会“看见”世界的编年史,系统梳理了过去三十年间目标检测技术的演进脉络。

何恺明在NeurIPS 2025发表演讲

演讲PPT已公开,链接如下:
https://people.csail.mit.edu/kaiming/neurips2025talk/neurips2025_fasterrcnn_kaiming.pdf

你是否曾好奇,为何今天的AI能够瞬间识别出图像中的猫、狗、汽车并精准定位,而在十几年前,这却被视为一项近乎不可能完成的任务?让我们跟随何恺明博士的视角,一同回溯这段从“原始”走向“智能”的非凡旅程。

现代AI目标检测示例

手工时代:精雕细琢的“放大镜”

在深度学习浪潮席卷之前,计算机视觉科学家们更像是技艺精湛的“工匠”,依靠手工设计的特征和传统算法来感知世界。

人脸检测的早期探索

  • 1996年:Rowley等人发表了《基于神经网络的人脸检测》。这篇论文是何恺明博士阅读的第一篇计算机视觉论文,它利用早期的神经网络在图像金字塔上搜寻人脸。
  • 1997年:Osuna等人将支持向量机引入人脸检测领域,试图在数据中寻找最优的分类边界。
  • 2001年:Viola-Jones框架横空出世。它通过组合简单的矩形特征,实现了当时极快的人脸检测速度,其影响深远,至今仍能在许多设备的对焦系统中看到它的影子。

特征工程的黄金岁月

当检测“整张脸”变得困难,研究者们转向寻找更局部的“关键点”和“纹理”。

  • 1999年:Lowe提出了SIFT(尺度不变特征变换),使其在图像旋转、缩放时仍能保持稳定的识别能力,堪称当时的“特征之王”。
  • 2003年:Sivic和Zisserman借鉴文本检索思想,提出“视觉词袋模型”,将图像视为一系列“视觉单词”的集合。
  • 2005年:Dalal和Triggs发明了HOG(方向梯度直方图),专门用于描述行人轮廓。同年,Grauman和Darrell提出了“金字塔匹配核”,用于衡量特征集之间的相似度。
  • 2006年:Lazebnik等人提出“空间金字塔匹配”,弥补了词袋模型丢失空间信息的缺陷。
  • 2008年:特征工程的集大成者DPM(可变形部件模型)登场。它将物体视为由弹簧连接的可变形部件组合,代表了传统方法所能达到的巅峰。

然而,这些方法的痛点在于:特征依赖于人工设计,分类器只能在有限的信息上工作。整个过程不仅效率低下,也难以应对复杂多变的真实场景。

破晓时分:AlexNet与R-CNN的“暴力革命”

2012年,AlexNet在ImageNet竞赛中以压倒性优势夺冠,如同一道惊雷,宣告了深度学习在特征提取能力上已远超人工设计。但一个新的问题随之而来:如何将这种强大的分类能力用于需要定位的目标检测?

AlexNet网络结构示意图

R-CNN的诞生:2014年,Girshick等人提出了划时代的R-CNN。其思路直观而有力:首先利用传统算法(如Selective Search)在图像上生成约2000个候选区域,然后将每个区域送入CNN提取特征,最后使用SVM进行分类。这虽然带来了精度的大幅提升,但让每个候选框都独立经过CNN的计算方式,导致了巨大的计算开销。

巅峰时刻:Faster R-CNN的“速度进化”

为了解决R-CNN的效率瓶颈,研究者们开始思考如何共享计算。

  • 2014年:何恺明团队提出SPP-Net,引入了空间金字塔池化层,使得网络可以处理任意尺寸的输入,并实现了全图特征的一次性计算,显著提升了速度。
  • 2015年:Girshick借鉴SPP-Net思想,推出Fast R-CNN。它引入了RoI Pooling层,将特征提取、分类和边界框回归整合进一个统一的网络中进行端到端训练,进一步优化了流程。
Fast R-CNN与R-CNN流程对比

然而,一个根本性的瓶颈依然存在:候选区域的生成仍然依赖于缓慢的传统算法(Selective Search),这成为了整个系统提速的最后障碍。

Selective Search成为速度瓶颈示意图

2015年,Faster R-CNN的终极答案:何恺明团队提出了RPN(区域提议网络)。灵感来源于1991年LeCun等人的“空间位移网络”思想,RPN让神经网络自身在特征图上进行“滑动”,通过预设的Anchor(锚点)来直接预测物体可能的位置。至此,目标检测的四个核心环节——区域提议、特征提取、分类、回归——全部由神经网络接管,实现了真正意义上的端到端实时检测,在速度和精度上完成了双重飞跃。

新纪元:Transformer与“分割万物”

Faster R-CNN开辟了一个时代,但技术的探索从未止步。何恺明在演讲中描绘了此后奔涌向前的技术洪流。

既然追求极致的速度,能否彻底摒弃“候选框”这一步骤?

  • 2016年:YOLO和SSD问世。它们模仿人类“一眼扫过”的感知方式,单次前向传播即可直接输出图像中所有物体的位置和类别,速度达到极致。
  • 2017年:为解决单阶段检测器中正负样本严重不平衡的问题,何恺明团队提出了Focal Loss(RetinaNet)。同年,Mask R-CNN惊艳亮相,它在Faster R-CNN基础上增加了掩码预测分支,实现了像素级的实例分割,并引入了RoI Align解决了特征对齐的精度问题。
  • 2020年:DETR将Transformer架构引入目标检测,完全抛弃了Anchor和非极大值抑制等复杂后处理,利用全局注意力机制重新定义了检测范式。
  • 2023年:SAM模型横空出世。在海量数据上训练后,它获得了“分割万物”的通用能力,不再受预先定义类别的限制,展现了视觉大模型的巨大潜力。
目标检测技术演进脉络图

迷雾中的航行:我们学到了什么?

在演讲的尾声,何恺明博士展示了一张由Nano-Banana生成的、寓意深刻的图片:一艘航船正驶向苍茫的迷雾之海。

象征科学探索的航船驶向迷雾

他以此比喻科学探索的本质:这就像是一次驶入未知迷雾的航行。前方没有绘制好的地图,我们甚至无法确知终点是否存在。从手工特征到卷积神经网络,再到Transformer,每一次技术的飞跃,都是探险者在迷雾中发现的新大陆。

Faster R-CNN留给我们的宝贵遗产,不仅仅是一个高效的算法,更是一种核心的方法论启示:当系统中的某个组件成为性能瓶颈时,尝试用更强大、更通用的可学习模型去替代它。

何恺明博士在演讲中幽默地总结道:“Write object detection papers and win Test of Time Awards :)” (撰写目标检测论文,然后赢得时间检验奖)。

站在新的十年起点,我们不禁要问:计算机视觉的下一个“圣杯”,将会是什么?这艘探索之船,又将驶向怎样一片未知而壮阔的海域?


想获取更多AI最新资讯智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台AI学习社区


本文来源:机器之心

原文链接:https://www.jiqizhixin.com/articles/42f00d22-2a4a-41b7-8755-88571f377bfc

本站部分内容来源于网络,均已注明来源和出处(如有遗漏非主观故意)。本站尊重原创版权,转载内容版权归原作者所有,仅用于信息整理与交流。如原作者不同意转载,请联系我们进行删除或调整。

相关文章