3D检测

发表于 2025/05/05 更新于 2025/05/08

作者 RonaldSun

3 分钟阅读

3D检测

Sparse4D(2023 horizon)

BEV based检测方法缺点：

这片文章用DETR的方式，直接用3D空间中的query提取2D空间的feature：

在box中取了一些keypoint点，在multi scale、 multi view上提取特征，然后在时序上提取特征：
- 每个instance取7个固定的reference points，和其他K个通过模型算出来的reference point一起作为keypoints set;
- 每个keypoint根据预测的instance速度以及ego的pose，计算其在上一帧的位置坐标
- 首先是单帧的特征提取：把这些keypoints投影到multi-view和multi-scale的图像上用双线性插值取特征，然后使用预测的weight加权求和；这里预测的weight会分为多个组，类似于transformer中multihead的做法；
- 然后是时序上的特征融合，从最后一个时刻开始，两两时刻的特征cat之后过一个linear层，直到最后一层
- 最后instance的特征是所有keypoint的特征之和
depth reweight：为了解决远处的box投影到图片上会取到近处物体的feature, 所以有了一个加权的策略，如果预测的depth不准，那么大概率就是没取到正确的feature；
init reference bbox使用gt做kmeans得到的。

比较值得注意的是这篇文章的特征提取方式，可以看成是一种在3D空间中的Deformable attention的实现方式，并没有像BEVFormer中那样去2D里面做deformable。匀速运动假设、heading不变以及速度估计的精度可能是隐含的问题。

本文由作者按照 CC BY 4.0 进行授权