BEV特征提取系列总结

发表于 2025/05/02 更新于 2025/05/08

作者 RonaldSun

5 分钟阅读

BEV特征提取系列总结

LSS(2020 NVIDIA)

Lift, Splat, Shoot

splat的过程中采用了sort+cumsum来避免padding导致的额外显存占用，这也是用sum pooling的原因。

与LSS从2D转换到3D特征不同，BEVFormer是直接从3D BEV特征作为出发点，投影到2D中去聚合特征的过程。

BEV空间中的每个格子都是一个query，每个query会用N个高度值往图像上投影，然后使用deformable attention提取特征，投影得到的坐标就是reference point，N个特征加起来，不同view的特征取平均得到最终的特征；
对于时序的feature，会保留上一个时刻的BEV feature，然后通过ego的运动转到当前帧中，与当前的bev特征concat作为value做deformable attention，其中offset是由当前时刻和上一时刻concat的结果来算的，因为考虑到运动物体，前后两个时刻offset不是等价的。

需要注意的是，再图像中提取BEV特征时，是用bev query取预测2D空间中的offset，然后获取图像特征的，而不是获取3D offset，因为在BEV空间中也会做Deformable attention。

和BEVFormer的区别：

和BEVFormer的区别：

这篇文章的主要的好处是对相机内外参做了比较好的处理，把相机内外参的影响全都体现在position encoding里面了。

提出了LSS的问题主要在于缺少真正的depth监督过程，而是通过最终decoder的检测Loss来隐式的监督前面的depth预测模块，这样导致的问题：

BEVDepth的改进：

引入了lidar对深度进行显式的监督；
预测深度的head加入了相机内外惨的编码；
在深度图像宽度的维度（可以理解为不同高度的BEV平面），添加了一些33的conv层，使得在深度预测没那么准的情况下，在splat之前有一个深度信息交互的过程，这一步称为”Depth Refine”

提出BEVFormer一个显著的问题是对于backbone的监督太差了，尤其是使用了deformable attention之后，梯度从decoder传递到encoder的过程中会损失信息；
主要的改进是加了一个FCOS3D的decoder对encoder进行监督，得到更好的backbone；
FCOS3D的结果经过后处理之后会送到decoder中作为补充的query
还指出了原始BEVFormer使用recurrent的模式提取时序信息，对于长时间的信息容易丢失，因此用了一个时间窗口的特征来做加强。

在不依赖lidar点云做深度监督的情况下，加强了backbone的能力。

本文由作者按照 CC BY 4.0 进行授权