自动驾驶感知系统多传感器融合算法:激光雷达、摄像头与毫米波雷达的前融合、特征级融合与决策级融合策略
核心正文
自动驾驶系统的环境感知依赖于多传感器冗余与互补,以应对复杂多变的长尾场景。激光雷达(LiDAR)提供精确的3D点云几何信息,摄像头(Camera)提供丰富的2D纹理与语义信息,毫米波雷达(Radar)则能在恶劣天气下稳定测速测距。多传感器融合(MSF)算法旨在将这些异构、异步、不同坐标系和置信度的数据有效整合,生成准确、鲁棒的环境模型。融合层次可分为前融合、特征级融合和决策级融合。
1. 前融合:也称为数据级融合或早期融合,指在原始数据或最低层抽象层面进行融合。典型方法是将不同模态的数据映射到统一的时空坐标系下。
激光雷达-摄像头融合:这是前融合的主流。首先进行精确的时空标定与同步。融合方式包括:a) 基于投影的点云着色:将LiDAR点云投影到图像平面,为每个3D点赋予对应的RGB颜色,增强点云的语义。b) 深度补全:利用图像引导的深度补全网络,将稀疏的LiDAR深度图补全为密集的深度图,甚至生成伪激光雷达点云用于3D检测。c) 端到端联合感知:设计多模态骨干网络,如将图像转换为鸟瞰图(BEV)特征,与LiDAR的BEV特征在统一空间进行融合(如PointPainting, PointFusion, MV3D)。近期基于Transformer的融合架构(如BEVFormer, TransFusion)通过可变形注意力机制,自适应地关联图像特征和点云特征,取得了显著进展。
毫米波雷达-摄像头融合:雷达提供目标的径向距离和速度(多普勒信息),但角度分辨率低。前融合常将雷达点投影到图像,作为2D/3D目标检测的辅助线索,或利用雷达速度信息过滤静态背景,提升运动目标检测的鲁棒性。
2. 特征级融合:各传感器独立提取高级特征(如目标提议框、语义分割图、关键点),再将特征进行融合。这是目前最常用的策略,平衡了灵活性和性能。
基于区域提议的网络:每个传感器分支独立生成2D或3D提议框,然后通过一个融合网络(如ROI Align + MLP)对来自不同模态的同一目标的提议框特征进行融合,再分类和回归。例如,Frustum PointNet先从图像2D检测生成视锥体,再用点云在锥体内进行3D检测。
基于BEV空间的融合:成为趋势。将摄像头图像通过Transformer或LSS(Lift, Splat, Shoot)等方法提升到BEV空间,形成密集的BEV特征图。同时,将LiDAR点云通过体素化或PointPillar也转换为BEV特征。随后在BEV空间进行特征拼接、卷积或基于注意力的融合。这种方法天然适合后续的规划控制任务。
3. 决策级融合:也称为后融合,各传感器独立完成完整的感知任务(如检测、跟踪),输出目标列表,再对这些列表进行关联与融合。
目标级融合:对来自不同传感器的检测框进行时间对齐、坐标系统一、数据关联(如匈牙利算法、联合概率数据关联),然后对关联上的目标状态(位置、速度、类别)进行融合(如卡尔曼滤波、D-S证据理论)。这种方法模块化程度高,对单个传感器失效鲁棒,但可能丢失早期互补信息,且依赖各传感器自身性能。
多传感器目标跟踪:是决策级融合的典型应用。如雷达提供稳定的轨迹和速度,视觉/LiDAR提供精确的形状和分类,通过滤波器(如扩展卡尔曼滤波、粒子滤波)融合多个传感器的观测,得到更平滑、更可靠的目标轨迹。
挑战与趋势:挑战包括:异构数据的时空对齐精度、传感器失效或相互矛盾的决策处理、融合算法在边缘计算平台上的实时性。趋势是朝端到端可学习的深度融合发展,利用Transformer等架构实现更灵活的特征交互;以及开发时序融合网络,有效利用历史帧信息提升感知的稳定性和预测能力。
本文要点
多传感器融合通过前、特征、决策三个层次的策略,综合了激光雷达的几何精度、摄像头的语义信息和毫米波雷达的测速鲁棒性,是构建高可靠自动驾驶感知系统的核心。
特征级融合,尤其是在鸟瞰图空间的融合,是目前的主流研究方向,它在保留各模态信息的同时,为下游任务提供了统一的表示空间。
决策级融合提供了模块化的系统设计,对故障具有鲁棒性,但性能上限受限于各独立感知模块的精度;未来方向是端到端的深度时序融合。
拓展阅读
Chen, X., et al. Multi-View 3D Object Detection Network for Autonomous Driving[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017: 1907-1915.
Liang, T., et al. BEVFusion: A Simple and Robust LiDAR-Camera Fusion Framework[J]. Advances in Neural Information Processing Systems, 2022, 35: 10421-10434.
