博客
关于我
3D目标检测综述:从数据集到2D和3D方法
阅读量:547 次
发布时间:2019-03-09

本文共 1233 字,大约阅读时间需要 4 分钟。

目标检测一直是计算机视觉领域中一大难题。近日,来自阿尔伯塔大学的研究者对目标检测领域的近期发展进行了综述,涵盖常见数据格式和数据集、2D目标检测方法和3D目标检测方法。本文将概述性地总结一些当前最佳的目标检测相关研究。

目标检测任务的目标是找到图像中的所有感兴趣区域,并确定这些区域的位置和类别。由于目标具有许多不同的外观、形状和姿态,再加上光线、遮挡和成像过程中其它因素的干扰,目标检测一直以来都是计算机视觉领域中一大挑战性难题。

本文将使用nuScenes数据集来训练和评估模型。nuScenes数据集来自nuTonomy,是一个大规模自动驾驶数据集,其中的数据进行了3D目标标注。与其它很多数据集相比,nuScenes数据集不仅规模更大,目标标注更多,而且还提供了整套传感器套件,包括激光雷达、声波雷达、GPS和IMU。

在预处理方面,尽管数据集中的图像质量很高,但在实际应用中,天气等因素都可能影响图像的质量,并因此降低检测准确率。近期提出的一些用于交通场景的去雾算法可以解决这类问题。Wang等人提出了如何解决雾浓度分布不均的问题,并基于波长与颜色的相关性,设计了一种透射率估计算法。Basu提出了一种使用场景中的清晰边缘自动校准相机的方法,该方法可移动相机且无需事先定义一种模式。

在数据格式方面,深度图、雷达数据和点云数据是三种常用的数据形式。深度图和RGB-D格式数据集包括Pascal VOC、COCO和ImageNet等。雷达数据和点云数据的融合是非常重要的。点云数据是三维坐标系中的一组向量,通常由激光雷达、立体相机或TOF相机采集,输出LAS和LAZ文件格式。这些点云数据通常与RGB图像结合使用,包括KITTI、nuScenes和Waymo Open等数据集。

在2D目标检测方面,传统方法包括HOG特征和SVM分类器方法,用于行人检测等任务。霍夫变换和雷登变换在特征提取方面也有广泛应用。Yin提出了一种跟踪鼻子形状的方法,使用面积增长方法确定鼻子所在的区域,并通过预定义模板提取鼻尖和鼻翼形状。KLT特征跟踪器在噪声环境下的性能也得到了提升。

在深度学习方法方面,目标检测算法主要分为两阶段式和单阶段式。两阶段式算法先生成候选边界框,再通过卷积神经网络分类,性能更优;单阶段式算法直接回归边界框,速度更快。包括R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD等。

在3D目标检测方面,研究工作主要分为三类:仅使用RGB图像、仅使用点云数据以及结合RGB图像和点云数据。使用RGB图像的方法包括3D-GCK和MV3D等,通过预测2D边界框并估计深度信息实现实时检测。使用点云数据的方法包括BirdNet+和DPC-MN等,通过旋转多角度或投射圆柱面来减少信息损失。结合RGB图像和点云数据的方法如Frustum PointNets和MV3D等,通过2D边界框缩小搜索空间,提升检测性能。

END

我爱计算机视觉

转载地址:http://xrdsz.baihongyu.com/

你可能感兴趣的文章
Numpy.ndarray对象不可调用
查看>>
Numpy:按多个条件过滤行?
查看>>
numpy、cv2等操作图片基本操作
查看>>
numpy判断对应位置是否相等,all、any的使用
查看>>
Numpy如何使用np.umprod重写range函数中i的python
查看>>
numpy数组替换其中的值(如1替换为255)
查看>>
numpy数组索引-ChatGPT4o作答
查看>>
numpy绘制热力图
查看>>
numpy转PIL 报错TypeError: Cannot handle this data type
查看>>
Nutch + solr 这个配合不错哦
查看>>
NutzCodeInsight 2.0.7 发布,为 nutz-sqltpl 提供友好的 ide 支持
查看>>
NutzWk 5.1.5 发布,Java 微服务分布式开发框架
查看>>
NUUO网络视频录像机 css_parser.php 任意文件读取漏洞复现
查看>>
NuxtJS 接口转发详解:Nitro 的用法与注意事项
查看>>
NVelocity标签使用详解
查看>>
Nvidia Cudatoolkit 与 Conda Cudatoolkit
查看>>
NVIDIA GPU 的状态信息输出,由 `nvidia-smi` 命令生成
查看>>
NVIDIA-cuda-cudnn下载地址
查看>>
nvidia-htop 使用教程
查看>>
nvidia-smi 参数详解
查看>>