一、引言
在自動駕駛領域,感知系統的核心目標是從多傳感器數據中提取語義信息,並將其融合到統一的 “鳥瞰圖(Bird's-Eye-View, BEV)” 座標系中,為後續的運動規劃模塊提供決策依據。傳統計算機視覺算法要麼輸出與座標系無關的分類結果,要麼在輸入圖像的同一座標系中進行預測(如目標檢測、語義分割等),這與自動駕駛中 “多傳感器輸入 - 統一 BEV 輸出” 的需求存在本質脱節。
為解決這一問題,Jonah Philion 和 Sanja Fidler 提出了一種名為 “Lift, Splat, Shoot” 的端到端架構,能夠直接從任意數量的相機圖像中提取 BEV 場景表示。該架構通過 “Lift(提升)-Splat(潑灑)-Shoot(投射)” 三步核心流程,在保留多視圖感知關鍵對稱性的同時,實現了端到端可微分訓練,其性能在多個 BEV 語義分割任務中超越現有基線,並支持可解釋的端到端運動規劃。
二、核心背景與問題定義
2.1 自動駕駛感知的核心矛盾
自動駕駛感知面臨的核心挑戰在於:
- 多傳感器異構性:不同相機具有獨立的座標系(內參 + 外參),數據分佈存在差異;
- 座標系轉換需求:感知結果需映射到 ego 車的 BEV 座標系,才能被規劃模塊直接使用;
- 深度歧義性:單目相機缺乏直接深度信息,多視圖融合需解決深度估計與跨相機信息融合的耦合問題。
傳統多視圖感知方法(如先單圖檢測再座標轉換)的缺陷的是:後處理階段的座標轉換導致模型無法從 BEV 輸出端反向傳播梯度到原始傳感器輸入,無法通過數據驅動學習最優融合策略,也無法利用規劃模塊的反饋優化感知系統。
2.2 關鍵對稱性要求
為保證多視圖感知的魯棒性,模型需滿足以下三個核心對稱性:
- 平移等變性(Translation Equivariance):圖像像素座標整體平移時,輸出結果同步平移;
- 排列不變性(Permutation Invariance):相機輸入順序不影響最終 BEV 輸出;
- Ego 幀等距等變性(Ego-frame Isometry Equivariance):Ego 車座標系旋轉 / 平移時,輸出結果同步變換。
Lift, Splat, Shoot 架構通過設計天然滿足這三個對稱性,為多視圖融合提供了堅實的結構基礎。
三、相關工作綜述
論文的相關工作主要圍繞單目 3D 目標檢測和 BEV 幀推理兩大方向展開,其核心貢獻在於整合並突破了現有方法的侷限:
3.1 單目 3D 目標檢測
現有方法可分為三類:
- 2D 檢測 + 3D 迴歸:先通過 2D 檢測器獲取目標框,再回歸 3D 位置與尺寸。這類方法依賴 2D 檢測精度,且深度估計與邊界框預測的誤差難以解耦;
- 偽激光雷達(Pseudo-Lidar):先通過單目深度估計生成偽點雲,再輸入 BEV 網絡進行檢測。這類方法將深度估計與 BEV 檢測解耦,利用了 BEV 座標系中歐式距離的物理意義,但兩步法同樣存在梯度傳播斷裂問題;
- 3D 幾何基元投影:通過生成 3D 體素或目標提案,投影到多相機圖像中提取特徵後進行檢測。這類方法的缺陷是:像素特徵與體素深度無關,導致深度歧義性影響融合效果。
3.2 BEV 幀直接推理
近年來直接在 BEV 幀進行推理的方法逐漸興起:
- MonoLayout:通過單目圖像推理 BEV 佈局,利用對抗損失補全遮擋目標,但僅支持單相機輸入,缺乏多視圖融合能力;
- 金字塔佔用網絡(PON):採用 Transformer 架構將圖像特徵轉換為 BEV 表示,但未充分利用相機的幾何結構;
- FISHING Net:支持多視圖 BEV 分割與未來預測,但在語義分割精度與泛化性上仍有提升空間。
Lift, Splat, Shoot 的創新點在於:通過 “隱式深度分佈 + 幾何約束融合”,在端到端框架中同時解決深度估計與多視圖融合問題,且天然滿足多視圖感知的對稱性要求。
四、核心方法:Lift-Splat-Shoot 架構
論文提出的架構核心由三步組成:Lift(將圖像提升到 3D 視錐體特徵)、Splat(將多相機視錐體特徵潑灑到 BEV 網格)、Shoot(將軌跡模板投射到 BEV 代價圖進行運動規劃)。整體流程如圖 4 所示:
左:輸入多相機圖像及內參 / 外參;中左:Lift 步驟生成的視錐體點雲;中右:Splat 步驟將點雲映射到 BEV 平面;右:BEV CNN 輸出語義分割或規劃結果。
4.1 問題形式化定義
給定
張相機圖像
,每張圖像對應內參矩陣
和外參矩陣
(定義 3D 參考座標到像素座標的映射)。目標是輸出 BEV 座標系下的柵格化語義表示
(
為特徵通道數,
為 BEV 網格尺寸),訓練與測試階段均不依賴激光雷達等深度傳感器。
4.2 Lift:隱式深度分佈的 3D 特徵提升
Lift 步驟的核心目標是將單張 2D 圖像提升到 3D 空間,生成包含深度信息的視錐體(Frustum)特徵點雲,解決單目相機的深度歧義性問題。
4.2.1 深度離散化與視錐體構建
對於每張圖像的每個像素
,定義一組離散深度值
論文中
,
,
,深度範圍 4至45m。每個像素對應
個 3D 點
,所有像素的 3D 點構成該相機的視錐體點雲(尺寸為
)。
該結構類似於 “多平面圖像(Multi-Plane Image)”,但區別在於:多平面圖像存儲 RGB 顏色與透明度,而此處存儲抽象語義特徵。
4.2.2 深度分佈與特徵加權
為解決深度歧義性,模型不為每個像素預測單一深度,而是預測一個深度分佈
(
表示 simplex 空間,滿足
)和一個上下文特徵向量
。每個 3D 點
的最終特徵為:
該設計的靈活性在於:
- 若 為 one-hot 向量,等價於偽激光雷達的 “硬深度分配”;
- 若 為均勻分佈,等價於 OFT 方法中 “特徵與深度無關” 的處理方式;
- 模型可通過學習自動選擇:深度明確時聚焦單一深度,深度模糊時(如遠距離、遮擋區域)分散特徵到多個深度。
4.2.3 特徵提取網絡
採用預訓練的 EfficientNet-B0 作為骨幹網絡,對輸入圖像進行特徵提取,輸出每個像素的上下文向量
和深度分佈
(通過 softmax 層歸一化得到)。該網絡在 ImageNet 上預訓練,保證了特徵的泛化能力。
Lift 步驟的可視化如圖 3 所示:
左:像素的深度分佈
4.3 Splat:柱體池化的多視圖特徵融合
Splat 步驟的核心是將所有相機的視錐體點雲融合到統一的 BEV 網格中,通過柱體池化(Pillar Pooling)實現高效的特徵聚合,並滿足排列不變性與等變性要求。
4.3.1 柱體定義與點雲映射
BEV 網格的尺寸為
(範圍 -50m 到 50m,網格分辨率 0.5m × 0.5m)。定義 “柱體(Pillar)” 為 BEV 網格中沿高度方向無限延伸的立方體(即忽略 3D 點的高度信息,僅保留水平座標
)。利用相機內參
和外參
,將每個相機視錐體中的 3D 點
映射到 BEV 座標系的
位置,進而分配到對應的柱體中。
4.3.2 高效柱體求和池化
為解決大規模點雲的池化效率問題,論文采用 “累積和技巧(Cumulative Sum Trick)” 替代傳統的填充 - 池化操作,步驟如下:
- 按柱體 ID 對所有點雲特徵排序;
- 對特徵進行累積和計算;
- 通過柱體邊界的累積和差值得到每個柱體的求和特徵。
該方法的優勢在於:
- 避免填充導致的內存浪費;
- 可推導解析梯度,訓練速度提升 2 倍;
- 求和池化天然滿足排列不變性(相機順序不影響求和結果)。
最終,Splat 步驟輸出 BEV 特徵圖(尺寸為
),可直接輸入 BEV CNN 進行語義推理。
4.4 Shoot:基於軌跡模板的端到端運動規劃
Shoot 步驟的核心是利用 BEV 特徵圖學習空間代價函數,通過 “投射軌跡模板” 實現可解釋的端到端運動規劃,將感知與規劃緊密結合。
4.4.1 軌跡模板生成
通過對大規模專家軌跡進行 K-Means 聚類(
),生成 1000 個軌跡模板
,每個模板
表示一條 5 秒長(時間步長 0.25s)的 ego 車運動軌跡,如圖 5 所示:
訓練與測試階段均使用該模板集合,通過代價函數選擇最優軌跡。
4.4.2 代價函數與概率建模
將規劃問題轉化為軌跡模板的分類任務:給定 BEV 特徵圖預測的代價圖
(
位置的通行代價),每條軌跡
的代價為其路徑上所有 BEV 網格的代價之和。軌跡的概率分佈定義為:
訓練目標為最大化專家軌跡的對數概率:
- 對於每個樣本,找到與 ground-truth 軌跡 L2 距離最近的模板作為正樣本;
- 使用交叉熵損失優化模型,使網絡學習到符合駕駛規則的代價函數(如車道邊界代價高、障礙物區域代價高)。
該設計的優勢在於:
- 可解釋性:最優軌跡來自明確的模板集合,便於調試與安全驗證;
- 端到端訓練:代價圖與軌跡選擇共享梯度,感知與規劃協同優化;
- 無需手動設計代價函數:通過數據驅動自動學習駕駛規則。
4.5 網絡架構細節
整個模型的網絡結構分為兩部分:
- 圖像骨幹網絡:EfficientNet-B0(預訓練於 ImageNet),輸出每個像素的上下文向量 和深度分佈 ;
- BEV 骨幹網絡:基於 ResNet-18 改進,流程為:
- 7×7 卷積(步長 2)+ BatchNorm + ReLU;
- ResNet-18 的前 3 個元層,得到 3 個不同分辨率的 BEV 特徵圖 ;
- 上採樣 4 倍,與 拼接後通過 ResNet 塊;
- 最終上採樣 2 倍,輸出與原始 BEV 網格尺寸一致的特徵圖。
模型總參數量為 14.3M,在 Titan V GPU 上的前向推理速度為 35Hz,滿足自動駕駛實時性要求。
五、實驗與結果分析
論文在 nuScenes 和 Lyft Level 5 兩個大型自動駕駛數據集上進行了全面實驗,驗證了模型在 BEV 語義分割、魯棒性、泛化性和運動規劃任務上的性能。
5.1 實驗設置
- 數據集:
- nuScenes:1000 個場景(每個 20 秒),6 個相機(前、前左、前右、後左、後右、後),包含 3D 邊界框和地圖標註;
- Lyft Level 5:無標準訓練 / 驗證分割,手動劃分 48 個場景作為驗證集(6048 個樣本),相機配置與 nuScenes 不同。
- 任務定義:
- 目標分割:車輛分割(nuScenes 包含 car 類;Lyft 包含 car、truck 等)、汽車分割(僅 car 類);
- 地圖分割:可行駛區域分割、車道線分割;
- 運動規劃:預測與 ground-truth 軌跡 L2 距離最近的模板(Top-5/10/20 準確率)。
- 訓練細節:Adam 優化器(學習率 1e-3,權重衰減 1e-7),訓練 300k 步,二元交叉熵損失(車道線分割正樣本權重 5.0,其餘為 1.0)。
5.2 BEV 語義分割結果
5.2.1 目標分割性能
表 1 展示了不同模型在 nuScenes 和 Lyft 數據集上的目標分割 IOU 結果:
注:* 表示併發工作,Lyft 數據集的分割定義與本文不同,僅作參考。
關鍵結論:
- 本文模型在所有任務上超越 CNN 基線、凍結編碼器和 OFT,驗證了 “隱式深度分佈 + 幾何融合” 的有效性;
- 相比 OFT,本文模型通過深度分佈加權解決了 “像素特徵與深度無關” 的缺陷,提升顯著;
- 併發工作 PON 和 FISHING 的性能低於本文模型,證明了架構設計的優越性。
5.2.2 地圖分割性能
表 2 展示了地圖分割任務的 IOU 結果:
關鍵結論:
- 本文模型在可行駛區域分割(72.94)和車道線分割(19.96)上均達到最優;
- 車道線分割任務的絕對 IOU 較低,原因是車道線在 BEV 中佔比小(長細結構),但本文模型相比基線仍有 3.45 個百分點的提升,證明了特徵融合的有效性。
5.3 魯棒性分析
5.3.1 傳感器噪聲與 dropout 魯棒性
論文通過兩個實驗驗證模型的魯棒性:
- 外參噪聲:訓練時為相機外參添加不同程度的高斯噪聲,測試時評估性能變化(圖 6a);
- 相機 dropout:訓練時隨機丟棄 1 個相機,測試時評估不同數量相機缺失的性能(圖 6b)。
左:外參噪聲魯棒性;右:相機 dropout 魯棒性。
關鍵結論:
- 訓練時添加外參噪聲的模型(藍色曲線)在測試時面對高噪聲時性能下降更少,證明模型可通過數據增強提升對校準誤差的魯棒性;
- 訓練時隨機丟棄相機的模型(紅色曲線)在測試時相機缺失的情況下性能更優,類似 Dropout 正則化,強制模型學習跨相機特徵相關性。
5.3.2 相機重要性分析
圖 7 展示了單個相機缺失時汽車分割 IOU 的變化:
右側 “full” 表示所有相機正常工作的性能,其餘為單個相機缺失的性能。
關鍵結論:
- 後向相機(Backwards)缺失導致性能下降最顯著,原因是其視野最廣,覆蓋 ego 車後方大範圍區域;
- 前向相機(Forward)缺失後,模型可通過其他相機(如前左、前右)的部分視野 extrapolate 車道線和障礙物,性能下降相對較小(圖 8 定性結果)。
從上到下:正常情況、前向相機缺失、後向相機缺失、前左相機缺失。缺失相機覆蓋區域的預測結果變得模糊,但模型仍能部分補全。
5.4 泛化性分析
5.4.1 零樣本相機 rig 遷移
實驗 1:訓練時僅使用 nuScenes 6 個相機中的 4 個,測試時添加未見過的相機(前左 / 後左),結果如表 3 所示:
關鍵結論:添加未訓練過的相機後,性能持續提升,證明模型可零樣本利用新增傳感器的信息,無需重新訓練。
實驗 2:在 nuScenes 上訓練,直接遷移到 Lyft 相機 rig(相機配置完全不同),結果如表 4 所示:
關鍵結論:
- 所有模型遷移後性能均下降,但本文模型的下降幅度最小,且領先基線的優勢進一步擴大;
- 證明模型學習到的是相機幾何與場景語義的通用關係,而非特定相機 rig 的特徵,泛化性更強。
5.5 與激光雷達 Oracle 深度的對比
將本文模型與使用激光雷達真實深度的 PointPillars 模型對比,結果如表 5 所示:
關鍵結論:
- 本文模型(純視覺)在可行駛區域分割上接近激光雷達模型(70.81 vs 74.91),證明視覺融合可提取高精度的道路結構信息;
- 在目標分割上仍有差距(32.06 vs 40.26),原因是激光雷達提供精確的 3D 位置,而視覺深度分佈存在不確定性;
- 多幀激光雷達的性能進一步提升,暗示未來可通過多幀視覺序列建模縮小差距。
5.5.1 性能隨距離與天氣的變化
圖 10 展示了汽車分割 IOU 隨目標距離和天氣的變化:
左:距離 ego 車的距離;右:天氣條件(晴朗 / 多雲 / 雨天 / 夜晚)。
關鍵結論:
- 隨目標距離增加,本文模型與激光雷達模型的性能均線性下降,但本文模型下降更快,原因是遠距離像素的深度歧義性更強;
- 夜晚場景中,本文模型性能下降顯著(IOU 約 25),而激光雷達不受光照影響(IOU 約 35),證明光照是純視覺感知的主要瓶頸。
5.6 運動規劃結果
表 6 展示了運動規劃任務的 Top-5/10/20 準確率:
關鍵結論:
- 本文模型性能低於激光雷達模型,但已能學習到基本的駕駛規則(如沿車道行駛、避讓障礙物);
- 多幀激光雷達的性能提升顯著,證明時序信息對規劃至關重要,未來可通過多幀視覺融合進一步優化。
定性結果如圖 11 所示:
紅色為 Top-1 軌跡,藍色為 Top-10 軌跡。模型能預測低速通過人行橫道、跟隨前車等合理軌跡。
六、結論與未來工作
6.1 核心貢獻總結
Lift, Splat, Shoot 架構的核心貢獻在於:
- 提出了 “Lift-Splat-Shoot” 三步流程,實現了從多視圖相機到 BEV 語義表示的端到端可微分映射,天然滿足多視圖感知的三大對稱性;
- 通過隱式深度分佈()解決了單目相機的深度歧義性,允許模型根據場景自適應調整深度聚焦或分散策略;
- 設計了高效的柱體池化與累積和技巧,保證了模型的實時性;
- 首次將純視覺 BEV 表示用於可解釋的端到端運動規劃,實現了感知與規劃的協同優化。
6.2 侷限性與未來方向
論文指出的侷限性及未來改進方向:
- 純視覺深度估計的精度不足,導致遠距離目標分割性能落後於激光雷達,未來可融合多幀視覺序列提升深度估計精度;
- 夜晚等惡劣光照條件下性能下降顯著,需結合夜視增強、多傳感器融合(如毫米波雷達)解決;
- 運動規劃依賴固定軌跡模板,靈活性不足,未來可探索動態軌跡生成與模板自適應更新。
6.3 行業影響
該論文為自動駕駛純視覺感知提供了重要的技術範式,其核心思想已被後續眾多工作借鑑(如 BEVFormer、PETR 等),推動了純視覺 BEV 感知的快速發展。特別是在激光雷達成本較高的場景下,該架構為低成本自動駕駛方案提供了可行的技術路徑。
七、附錄:關鍵術語與公式彙總
7.1 關鍵術語
- BEV(Bird's-Eye-View):鳥瞰圖座標系,以 ego 車為中心的俯視圖網格;
- 視錐體(Frustum):相機可觀測的 3D 空間區域,由相機內參和外參定義;
- 柱體(Pillar):BEV 網格中沿高度方向無限延伸的立方體,用於聚合 3D 點雲特徵;
- 深度分佈(Depth Distribution):每個像素的深度概率分佈 \(\alpha\),用於加權生成 3D 特徵。
7.2 核心公式
- 3D 點特徵計算:
- 軌跡概率分佈:
Lift, Splat, Shoot 論文在自動駕駛純視覺 BEV 感知領域做出了突破性貢獻。其架構設計既考慮了多視圖幾何約束,又通過端到端訓練充分利用了數據驅動的優勢,為後續相關研究提供了堅實的基礎與豐富的啓發。