何恺明NeurIPS 2025演讲：从Faster R-CNN获奖回望目标检测三十年演进之路

AI快讯 2025-12-12

何恺明NeurIPS 2025演讲：从Faster R-CNN获奖回望目标检测三十年演进之路

在近期落幕的NeurIPS 2025大会上，人工智能领域的顶尖学者们汇聚一堂，分享前沿洞见。其中，一项荣誉的颁发承载了厚重的历史意义，也收获了整个学术界的广泛认可——由任少卿、何恺明、Ross Girshick和孙剑共同完成的经典论文《Faster R-CNN》，荣获了大会颁发的「时间检验奖」。

对于任何一位计算机视觉领域的研究者或从业者而言，“Faster R-CNN”这个名字都如雷贯耳。自2015年问世以来，这篇论文便确立了现代目标检测技术的核心框架，其影响力如同海上的灯塔，持续指引着此后十年间视觉模型发展的航向。

论文地址：https://arxiv.org/pdf/1506.01497

为纪念这一里程碑时刻，何恺明博士在会上发表了题为《视觉目标检测简史》的主题演讲。这场演讲不仅是一次技术回顾，更是一部描绘计算机如何逐步学会“看见”世界的编年史，系统梳理了过去三十年间目标检测技术的演进脉络。

演讲PPT已公开，链接如下：
https://people.csail.mit.edu/kaiming/neurips2025talk/neurips2025_fasterrcnn_kaiming.pdf

你是否曾好奇，为何今天的AI能够瞬间识别出图像中的猫、狗、汽车并精准定位，而在十几年前，这却被视为一项近乎不可能完成的任务？让我们跟随何恺明博士的视角，一同回溯这段从“原始”走向“智能”的非凡旅程。

手工时代：精雕细琢的“放大镜”

在深度学习浪潮席卷之前，计算机视觉科学家们更像是技艺精湛的“工匠”，依靠手工设计的特征和传统算法来感知世界。

人脸检测的早期探索

1996年：Rowley等人发表了《基于神经网络的人脸检测》。这篇论文是何恺明博士阅读的第一篇计算机视觉论文，它利用早期的神经网络在图像金字塔上搜寻人脸。
1997年：Osuna等人将支持向量机引入人脸检测领域，试图在数据中寻找最优的分类边界。
2001年：Viola-Jones框架横空出世。它通过组合简单的矩形特征，实现了当时极快的人脸检测速度，其影响深远，至今仍能在许多设备的对焦系统中看到它的影子。

特征工程的黄金岁月

当检测“整张脸”变得困难，研究者们转向寻找更局部的“关键点”和“纹理”。

1999年：Lowe提出了SIFT（尺度不变特征变换），使其在图像旋转、缩放时仍能保持稳定的识别能力，堪称当时的“特征之王”。
2003年：Sivic和Zisserman借鉴文本检索思想，提出“视觉词袋模型”，将图像视为一系列“视觉单词”的集合。
2005年：Dalal和Triggs发明了HOG（方向梯度直方图），专门用于描述行人轮廓。同年，Grauman和Darrell提出了“金字塔匹配核”，用于衡量特征集之间的相似度。
2006年：Lazebnik等人提出“空间金字塔匹配”，弥补了词袋模型丢失空间信息的缺陷。
2008年：特征工程的集大成者DPM（可变形部件模型）登场。它将物体视为由弹簧连接的可变形部件组合，代表了传统方法所能达到的巅峰。

然而，这些方法的痛点在于：特征依赖于人工设计，分类器只能在有限的信息上工作。整个过程不仅效率低下，也难以应对复杂多变的真实场景。

破晓时分：AlexNet与R-CNN的“暴力革命”

2012年，AlexNet在ImageNet竞赛中以压倒性优势夺冠，如同一道惊雷，宣告了深度学习在特征提取能力上已远超人工设计。但一个新的问题随之而来：如何将这种强大的分类能力用于需要定位的目标检测？

R-CNN的诞生：2014年，Girshick等人提出了划时代的R-CNN。其思路直观而有力：首先利用传统算法（如Selective Search）在图像上生成约2000个候选区域，然后将每个区域送入CNN提取特征，最后使用SVM进行分类。这虽然带来了精度的大幅提升，但让每个候选框都独立经过CNN的计算方式，导致了巨大的计算开销。

巅峰时刻：Faster R-CNN的“速度进化”

为了解决R-CNN的效率瓶颈，研究者们开始思考如何共享计算。

2014年：何恺明团队提出SPP-Net，引入了空间金字塔池化层，使得网络可以处理任意尺寸的输入，并实现了全图特征的一次性计算，显著提升了速度。
2015年：Girshick借鉴SPP-Net思想，推出Fast R-CNN。它引入了RoI Pooling层，将特征提取、分类和边界框回归整合进一个统一的网络中进行端到端训练，进一步优化了流程。

然而，一个根本性的瓶颈依然存在：候选区域的生成仍然依赖于缓慢的传统算法（Selective Search），这成为了整个系统提速的最后障碍。

2015年，Faster R-CNN的终极答案：何恺明团队提出了RPN（区域提议网络）。灵感来源于1991年LeCun等人的“空间位移网络”思想，RPN让神经网络自身在特征图上进行“滑动”，通过预设的Anchor（锚点）来直接预测物体可能的位置。至此，目标检测的四个核心环节——区域提议、特征提取、分类、回归——全部由神经网络接管，实现了真正意义上的端到端实时检测，在速度和精度上完成了双重飞跃。

新纪元：Transformer与“分割万物”

Faster R-CNN开辟了一个时代，但技术的探索从未止步。何恺明在演讲中描绘了此后奔涌向前的技术洪流。

既然追求极致的速度，能否彻底摒弃“候选框”这一步骤？

2016年：YOLO和SSD问世。它们模仿人类“一眼扫过”的感知方式，单次前向传播即可直接输出图像中所有物体的位置和类别，速度达到极致。
2017年：为解决单阶段检测器中正负样本严重不平衡的问题，何恺明团队提出了Focal Loss（RetinaNet）。同年，Mask R-CNN惊艳亮相，它在Faster R-CNN基础上增加了掩码预测分支，实现了像素级的实例分割，并引入了RoI Align解决了特征对齐的精度问题。
2020年：DETR将Transformer架构引入目标检测，完全抛弃了Anchor和非极大值抑制等复杂后处理，利用全局注意力机制重新定义了检测范式。
2023年：SAM模型横空出世。在海量数据上训练后，它获得了“分割万物”的通用能力，不再受预先定义类别的限制，展现了视觉大模型的巨大潜力。