自动驾驶新研究:基于深度动态消息传播的单目三维目标检测

发布者:刘铁江发布时间:2021-04-21浏览次数:2056

图1 左:DDMP-3D动态的采样与动态生成核参数与关系矩阵

  右:基线模型(黄)与DDMP-3D(红)的鸟瞰图比较

目标检测是计算机视觉的基础任务。随着深度学习的成功,二维目标检测近些年取得了非常显著的进展,然而三维目标检测在很多场景如自动驾驶当中,依然是一个非常重要并且极具挑战性的任务。

三维目标检测通常需要感知物体的空间三维位置、物理尺寸以及方向角。基于雷达点云的三维目标检测取得了很好的性能,但是其依赖于昂贵的激光雷达传感器以及其稀疏的点云表征使得此类型技术无法得到大规模的应用。另一方面,物体尺度的剧烈变化与缺少深度先验等瓶颈使得基于单目摄像头的三维目标检测远远达不到理想的性能。传统基于深度信息与图像融合的方法在透视变换与遮挡的情况下无法保证传统卷积核能够很好的提取到物体上下文信息,并且此类方法严重依赖于深度图的估计精度。

基于以上发现,大数据学院张力课题组首次提出基于深度动态图消息传播的单目三维目标检测方法(DDMP-3D)。如图1所示,网络通过动态的选取最相关图节点,实现高效的获取物体上下文语义信息;基于采样到的节点,动态的预测多尺度的深度信息核参数与相关性矩阵,在神经网络中进行信息传播;此外,中心点感知的深度图编码分支作为辅助任务,解决了自动驾驶场景中3D目标检测依靠单目摄像头深度预测不准确的难题,并且提升了深度分支的实例感知与物体定位。此方法在国际权威自动驾驶数据集KITTI单目3D检测任务中取得当前最好成绩。三维目标检测可视化结果如图2所示。论文工作Depth-conditioned Dynamic Message Propagation for Monocular 3D Object Detection已被CVPR 2021接收。

论文地址:https://arxiv.org/abs/2103.16470

代码地址:https://github.com/fudan-zvg/DDMP

图2:DDMP-3D(红)与groung-truth(绿)在自动驾驶数据集KITTI上的可视化结果


张力课题组供稿