本文共 1233 字,大约阅读时间需要 4 分钟。
目标检测一直是计算机视觉领域中一大难题。近日,来自阿尔伯塔大学的研究者对目标检测领域的近期发展进行了综述,涵盖常见数据格式和数据集、2D目标检测方法和3D目标检测方法。本文将概述性地总结一些当前最佳的目标检测相关研究。
目标检测任务的目标是找到图像中的所有感兴趣区域,并确定这些区域的位置和类别。由于目标具有许多不同的外观、形状和姿态,再加上光线、遮挡和成像过程中其它因素的干扰,目标检测一直以来都是计算机视觉领域中一大挑战性难题。
本文将使用nuScenes数据集来训练和评估模型。nuScenes数据集来自nuTonomy,是一个大规模自动驾驶数据集,其中的数据进行了3D目标标注。与其它很多数据集相比,nuScenes数据集不仅规模更大,目标标注更多,而且还提供了整套传感器套件,包括激光雷达、声波雷达、GPS和IMU。
在预处理方面,尽管数据集中的图像质量很高,但在实际应用中,天气等因素都可能影响图像的质量,并因此降低检测准确率。近期提出的一些用于交通场景的去雾算法可以解决这类问题。Wang等人提出了如何解决雾浓度分布不均的问题,并基于波长与颜色的相关性,设计了一种透射率估计算法。Basu提出了一种使用场景中的清晰边缘自动校准相机的方法,该方法可移动相机且无需事先定义一种模式。
在数据格式方面,深度图、雷达数据和点云数据是三种常用的数据形式。深度图和RGB-D格式数据集包括Pascal VOC、COCO和ImageNet等。雷达数据和点云数据的融合是非常重要的。点云数据是三维坐标系中的一组向量,通常由激光雷达、立体相机或TOF相机采集,输出LAS和LAZ文件格式。这些点云数据通常与RGB图像结合使用,包括KITTI、nuScenes和Waymo Open等数据集。
在2D目标检测方面,传统方法包括HOG特征和SVM分类器方法,用于行人检测等任务。霍夫变换和雷登变换在特征提取方面也有广泛应用。Yin提出了一种跟踪鼻子形状的方法,使用面积增长方法确定鼻子所在的区域,并通过预定义模板提取鼻尖和鼻翼形状。KLT特征跟踪器在噪声环境下的性能也得到了提升。
在深度学习方法方面,目标检测算法主要分为两阶段式和单阶段式。两阶段式算法先生成候选边界框,再通过卷积神经网络分类,性能更优;单阶段式算法直接回归边界框,速度更快。包括R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD等。
在3D目标检测方面,研究工作主要分为三类:仅使用RGB图像、仅使用点云数据以及结合RGB图像和点云数据。使用RGB图像的方法包括3D-GCK和MV3D等,通过预测2D边界框并估计深度信息实现实时检测。使用点云数据的方法包括BirdNet+和DPC-MN等,通过旋转多角度或投射圆柱面来减少信息损失。结合RGB图像和点云数据的方法如Frustum PointNets和MV3D等,通过2D边界框缩小搜索空间,提升检测性能。
END
我爱计算机视觉
转载地址:http://xrdsz.baihongyu.com/