译者 | 张哲刚
审校 | 重楼
自动驾驶汽车是不能犯错误的,忽视一个红绿灯或一个行人都可能意味着灾难。但城市环境是动态的,在这样的环境中目标检测是一个大难题。
我使用空洞空间卷积池化金字塔(ASPP)和迁移学习来优化自动驾驶汽车的目标检测,结果如何呢?结果是这个模型能够在多个尺度下很好地检测到目标,即使在光线不太好的情形下,实时运行的效果也非常好。
下面叙述一下我的实施过程。
面临问题:户外目标检测
自动驾驶汽车依靠卷积神经网络(CNNs)来检测目标物体,但现实世界中有很多干扰因素,例如:
- 交通灯大小比例是变化的——距离远时较小,距离近时较大。
- 车道标记会随着角度而变形。
- 会有遮挡的情形——可能会看不到停放的汽车后面的行人。
- 照明条件的差异——可能会有阴影、眩光或夜间驾驶情形。
传统的卷积神经网络(CNNs)难以进行多尺度目标检测,如果从零开始训练则需要很长时间。这时候空洞空间卷积池化金字塔(ASPP)和迁移学习就有了用武之地。
ASPP:以不同的比例来检测捕获目标
CNNs适用于大小固定的目标,但现实世界中目标物体的大小和距离大都是各不相同的。 空洞空间卷积池化金字塔(ASPP)通过使用膨胀卷积,来检测和捕获目标多个尺度的特征,从而解决了这个问题。
ASPP 的工作原理
ASPP使用多个具有不同膨胀率的卷积滤波器来提取不同分辨率的特征,涵盖了小型目标、大型目标以及介于两者之间的所有目标物体。
下面讲讲我是如何在PyTorch中实现ASPP的,将组归一化和注意力机制相结合,在复杂的应用环境中也能够表现出强大的性能:
实现原理:
- 不同的感受野可以使模型一次性检测到小型目标(例如远处的红绿灯)和大型目标(例如公共汽车)。
- 全局平均池化分支衍生的全局上下文有助于消除对目标的误判断。
- 轻量级注意力着重于信息量最大的通道,从而提高复杂纷乱场景下的检测准确性。
成果:
- 不同规格尺度的目标均可以检测得到(不再漏掉较小的红绿灯)。
- 平均精确度(mAP)提高14%。
- 更好地处理了遮挡问题,部分隐藏的目标也能够检测到。
迁移学习:站在巨人的肩膀之上
当预先训练的模型已经存在时,从零开始训练一个目标检测模型并不是一个理想选择。这时候,我们可以利用迁移学习来微调一个已经理解目标的模型。
我使用了 DETR(Detection Transformer),这是Facebook AI基于Transformer的对象检测模型。它能够学习上下文,比如,它不仅可以识别到一个停车标志,还能理解这是道路场景组成的一部分。
下面是我在自动驾驶数据集上微调DETR的操作:
成果:
- 训练时间缩短了80%。
- 改善了夜间和大雾天气时的实际性能。
- 训练时需要相对较少的标记数据。
使用合成图像来增强数据
自动驾驶汽车需要海量的数据集,但现实世界中的标记数据却很有限。那怎么办呢?解决方法是使用生成对抗网络(GAN)生成合成数据。
我使用GAN创建了虽是虚拟但非常逼真的车道标记和交通场景,以扩展数据集。
下面是一个简单的GAN,用于生成车道标记:
成果:
- 不需要手动标记,数据集增加了5倍 。
- 经过训练的模型对于边缘场景的处理更加稳健。
- 数据集偏差得以减少(训练样本更加多样化)。
最终成果:目标检测得以更加智能、更加快速
通过结合 ASPP、迁移学习和合成数据,我为自动驾驶汽车构建了一个更精确而又可扩展的目标检测系统。最终主要成果如下:
- 目标检测速度:110 毫秒/帧
- 较小目标检测(红绿灯):+14%mAP
- 遮挡处理:更强大的遮挡物检测功能
- 训练时间:缩短至6小时
- 所需训练数据:50%可以由GANs合成
下一步:如何让它变得更出色
- 添加实时跟踪功能,随时跟踪检测到的目标。
- 使用更先进的Transformers(如OWL-ViT)进行零样本目标检测。
- 进一步优化推理速度,以便更好地在嵌入式硬件上部署。
结论
ASPP、Transformers和数据合并这三项组合算得上是自主目标检测的三面手,它们能够把以往那些反应迟钝、容易出现盲点的模型进化为快速而敏锐的系统,从而可以在一个街区之外就能观测到红绿灯。通过采用膨胀卷积来实现多尺度目标检测,利用迁移学习来进行快速微调,还能够使用GAN生成的数据来填补每一个空白。这样,我们能够将推理时间缩短接近一半,并节省大量的训练时间。这是一个巨大的飞跃,使得自动驾驶汽车可以像我们人类一样观察这个世界,并且更快、更精确。哪怕是在最混乱无序的街道上,有朝一日也定能够信心十足地飞驰。
译者介绍
张哲刚,51CTO社区编辑,系统运维工程师,国内较早一批硬件评测及互联网从业者,曾入职阿里巴巴。
原文标题:How I Made Object Detection Smarter for Self-Driving Cars With Transfer Learning & ASPP,作者:Vineeth Reddy Vatti