3D目标检测综述：从数据集到2D和3D方法-白红宇

3D目标检测综述：从数据集到2D和3D方法

阅读量：547 次

发布时间：2019-03-09

本文共 1233 字，大约阅读时间需要 4 分钟。

目标检测一直是计算机视觉领域中一大难题。近日，来自阿尔伯塔大学的研究者对目标检测领域的近期发展进行了综述，涵盖常见数据格式和数据集、2D目标检测方法和3D目标检测方法。本文将概述性地总结一些当前最佳的目标检测相关研究。

目标检测任务的目标是找到图像中的所有感兴趣区域，并确定这些区域的位置和类别。由于目标具有许多不同的外观、形状和姿态，再加上光线、遮挡和成像过程中其它因素的干扰，目标检测一直以来都是计算机视觉领域中一大挑战性难题。

本文将使用nuScenes数据集来训练和评估模型。nuScenes数据集来自nuTonomy，是一个大规模自动驾驶数据集，其中的数据进行了3D目标标注。与其它很多数据集相比，nuScenes数据集不仅规模更大，目标标注更多，而且还提供了整套传感器套件，包括激光雷达、声波雷达、GPS和IMU。

在预处理方面，尽管数据集中的图像质量很高，但在实际应用中，天气等因素都可能影响图像的质量，并因此降低检测准确率。近期提出的一些用于交通场景的去雾算法可以解决这类问题。Wang等人提出了如何解决雾浓度分布不均的问题，并基于波长与颜色的相关性，设计了一种透射率估计算法。Basu提出了一种使用场景中的清晰边缘自动校准相机的方法，该方法可移动相机且无需事先定义一种模式。

在数据格式方面，深度图、雷达数据和点云数据是三种常用的数据形式。深度图和RGB-D格式数据集包括Pascal VOC、COCO和ImageNet等。雷达数据和点云数据的融合是非常重要的。点云数据是三维坐标系中的一组向量，通常由激光雷达、立体相机或TOF相机采集，输出LAS和LAZ文件格式。这些点云数据通常与RGB图像结合使用，包括KITTI、nuScenes和Waymo Open等数据集。

在2D目标检测方面，传统方法包括HOG特征和SVM分类器方法，用于行人检测等任务。霍夫变换和雷登变换在特征提取方面也有广泛应用。Yin提出了一种跟踪鼻子形状的方法，使用面积增长方法确定鼻子所在的区域，并通过预定义模板提取鼻尖和鼻翼形状。KLT特征跟踪器在噪声环境下的性能也得到了提升。

在深度学习方法方面，目标检测算法主要分为两阶段式和单阶段式。两阶段式算法先生成候选边界框，再通过卷积神经网络分类，性能更优；单阶段式算法直接回归边界框，速度更快。包括R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD等。

在3D目标检测方面，研究工作主要分为三类：仅使用RGB图像、仅使用点云数据以及结合RGB图像和点云数据。使用RGB图像的方法包括3D-GCK和MV3D等，通过预测2D边界框并估计深度信息实现实时检测。使用点云数据的方法包括BirdNet+和DPC-MN等，通过旋转多角度或投射圆柱面来减少信息损失。结合RGB图像和点云数据的方法如Frustum PointNets和MV3D等，通过2D边界框缩小搜索空间，提升检测性能。

END

我爱计算机视觉

转载地址：http://xrdsz.baihongyu.com/

你可能感兴趣的文章

OpenLayers学习三：地图旋转及地图跳转到某一点的方式（以类为接口）