[BEV] 學習筆記之Lift, Splat, Shoot 詳情 - 自動駕駛,純視覺BEV感知,BEV 語義分割,可解釋的端到端軌跡規劃,數據驅動,JavaScript,前端開發 mob6454cc6d3e23 博客

一、引言

在自動駕駛領域，感知系統的核心目標是從多傳感器數據中提取語義信息，並將其融合到統一的 “鳥瞰圖（Bird's-Eye-View, BEV）” 座標系中，為後續的運動規劃模塊提供決策依據。傳統計算機視覺算法要麼輸出與座標系無關的分類結果，要麼在輸入圖像的同一座標系中進行預測（如目標檢測、語義分割等），這與自動駕駛中 “多傳感器輸入 - 統一 BEV 輸出” 的需求存在本質脱節。

[BEV] 學習筆記之Lift, Splat, Shoot_#數據驅動

為解決這一問題，Jonah Philion 和 Sanja Fidler 提出了一種名為 “Lift, Splat, Shoot” 的端到端架構，能夠直接從任意數量的相機圖像中提取 BEV 場景表示。該架構通過 “Lift（提升）-Splat（潑灑）-Shoot（投射）” 三步核心流程，在保留多視圖感知關鍵對稱性的同時，實現了端到端可微分訓練，其性能在多個 BEV 語義分割任務中超越現有基線，並支持可解釋的端到端運動規劃。

[BEV] 學習筆記之Lift, Splat, Shoot_#自動駕駛_02

二、核心背景與問題定義

2.1 自動駕駛感知的核心矛盾

自動駕駛感知面臨的核心挑戰在於：

多傳感器異構性：不同相機具有獨立的座標系（內參 + 外參），數據分佈存在差異；
座標系轉換需求：感知結果需映射到 ego 車的 BEV 座標系，才能被規劃模塊直接使用；
深度歧義性：單目相機缺乏直接深度信息，多視圖融合需解決深度估計與跨相機信息融合的耦合問題。

傳統多視圖感知方法（如先單圖檢測再座標轉換）的缺陷的是：後處理階段的座標轉換導致模型無法從 BEV 輸出端反向傳播梯度到原始傳感器輸入，無法通過數據驅動學習最優融合策略，也無法利用規劃模塊的反饋優化感知系統。

2.2 關鍵對稱性要求

為保證多視圖感知的魯棒性，模型需滿足以下三個核心對稱性：

平移等變性（Translation Equivariance）：圖像像素座標整體平移時，輸出結果同步平移；
排列不變性（Permutation Invariance）：相機輸入順序不影響最終 BEV 輸出；
Ego 幀等距等變性（Ego-frame Isometry Equivariance）：Ego 車座標系旋轉 / 平移時，輸出結果同步變換。

Lift, Splat, Shoot 架構通過設計天然滿足這三個對稱性，為多視圖融合提供了堅實的結構基礎。

三、相關工作綜述

論文的相關工作主要圍繞單目 3D 目標檢測和 BEV 幀推理兩大方向展開，其核心貢獻在於整合並突破了現有方法的侷限：

3.1 單目 3D 目標檢測

現有方法可分為三類：

2D 檢測 + 3D 迴歸：先通過 2D 檢測器獲取目標框，再回歸 3D 位置與尺寸。這類方法依賴 2D 檢測精度，且深度估計與邊界框預測的誤差難以解耦；
偽激光雷達（Pseudo-Lidar）：先通過單目深度估計生成偽點雲，再輸入 BEV 網絡進行檢測。這類方法將深度估計與 BEV 檢測解耦，利用了 BEV 座標系中歐式距離的物理意義，但兩步法同樣存在梯度傳播斷裂問題；
3D 幾何基元投影：通過生成 3D 體素或目標提案，投影到多相機圖像中提取特徵後進行檢測。這類方法的缺陷是：像素特徵與體素深度無關，導致深度歧義性影響融合效果。

3.2 BEV 幀直接推理

近年來直接在 BEV 幀進行推理的方法逐漸興起：

MonoLayout：通過單目圖像推理 BEV 佈局，利用對抗損失補全遮擋目標，但僅支持單相機輸入，缺乏多視圖融合能力；
金字塔佔用網絡（PON）：採用 Transformer 架構將圖像特徵轉換為 BEV 表示，但未充分利用相機的幾何結構；
FISHING Net：支持多視圖 BEV 分割與未來預測，但在語義分割精度與泛化性上仍有提升空間。

Lift, Splat, Shoot 的創新點在於：通過 “隱式深度分佈 + 幾何約束融合”，在端到端框架中同時解決深度估計與多視圖融合問題，且天然滿足多視圖感知的對稱性要求。

四、核心方法：Lift-Splat-Shoot 架構

論文提出的架構核心由三步組成：Lift（將圖像提升到 3D 視錐體特徵）、Splat（將多相機視錐體特徵潑灑到 BEV 網格）、Shoot（將軌跡模板投射到 BEV 代價圖進行運動規劃）。整體流程如圖 4 所示：

[BEV] 學習筆記之Lift, Splat, Shoot_#BEV 語義分割_03

左：輸入多相機圖像及內參 / 外參；中左：Lift 步驟生成的視錐體點雲；中右：Splat 步驟將點雲映射到 BEV 平面；右：BEV CNN 輸出語義分割或規劃結果。

4.1 問題形式化定義

給定

[BEV] 學習筆記之Lift, Splat, Shoot_#可解釋的端到端軌跡規劃_04

張相機圖像

$\{X_k \in \mathbb{R}^{3 \times H \times W}\}_n$

，每張圖像對應內參矩陣

$I_k \in \mathbb{R}^{3 \times 3}$

和外參矩陣

$E_k \in \mathbb{R}^{3 \times 4}$

（定義 3D 參考座標到像素座標的映射）。目標是輸出 BEV 座標系下的柵格化語義表示

$y \in \mathbb{R}^{C \times X \times Y}$

（

[BEV] 學習筆記之Lift, Splat, Shoot_#可解釋的端到端軌跡規劃_09

為特徵通道數，

$X \times Y$

為 BEV 網格尺寸），訓練與測試階段均不依賴激光雷達等深度傳感器。

4.2 Lift：隱式深度分佈的 3D 特徵提升

Lift 步驟的核心目標是將單張 2D 圖像提升到 3D 空間，生成包含深度信息的視錐體（Frustum）特徵點雲，解決單目相機的深度歧義性問題。

4.2.1 深度離散化與視錐體構建

對於每張圖像的每個像素

[BEV] 學習筆記之Lift, Splat, Shoot_#數據驅動_11

，定義一組離散深度值

[BEV] 學習筆記之Lift, Splat, Shoot_#純視覺BEV感知_12

論文中

[BEV] 學習筆記之Lift, Splat, Shoot_#可解釋的端到端軌跡規劃_13

，

[BEV] 學習筆記之Lift, Splat, Shoot_#BEV 語義分割_14

，

$\Delta=1.0m$

，深度範圍 4至45m。每個像素對應

[BEV] 學習筆記之Lift, Splat, Shoot_#數據驅動_16

個 3D 點

[BEV] 學習筆記之Lift, Splat, Shoot_#自動駕駛_17

，所有像素的 3D 點構成該相機的視錐體點雲（尺寸為

$D \times H \times W$

）。

該結構類似於 “多平面圖像（Multi-Plane Image）”，但區別在於：多平面圖像存儲 RGB 顏色與透明度，而此處存儲抽象語義特徵。

4.2.2 深度分佈與特徵加權

為解決深度歧義性，模型不為每個像素預測單一深度，而是預測一個深度分佈

$\alpha \in \triangle^{|D|-1}$

（

$\triangle$

表示 simplex 空間，滿足

$\sum_{d \in D} \alpha_d = 1$

）和一個上下文特徵向量

$c \in \mathbb{R}^C$

。每個 3D 點

[BEV] 學習筆記之Lift, Splat, Shoot_#自動駕駛_17

的最終特徵為：

[BEV] 學習筆記之Lift, Splat, Shoot_#純視覺BEV感知_24

該設計的靈活性在於：

若為 one-hot 向量，等價於偽激光雷達的 “硬深度分配”；
若為均勻分佈，等價於 OFT 方法中 “特徵與深度無關” 的處理方式；
模型可通過學習自動選擇：深度明確時聚焦單一深度，深度模糊時（如遠距離、遮擋區域）分散特徵到多個深度。

4.2.3 特徵提取網絡

採用預訓練的 EfficientNet-B0 作為骨幹網絡，對輸入圖像進行特徵提取，輸出每個像素的上下文向量

[BEV] 學習筆記之Lift, Splat, Shoot_#BEV 語義分割_25

和深度分佈

$\alpha$

（通過 softmax 層歸一化得到）。該網絡在 ImageNet 上預訓練，保證了特徵的泛化能力。

Lift 步驟的可視化如圖 3 所示：

[BEV] 學習筆記之Lift, Splat, Shoot_#BEV 語義分割_27

左：像素的深度分佈

$\alpha$

；左上：上下文向量
；右：通過外積
$\alpha_d \cdot c$
得到的各深度特徵。

4.3 Splat：柱體池化的多視圖特徵融合

Splat 步驟的核心是將所有相機的視錐體點雲融合到統一的 BEV 網格中，通過柱體池化（Pillar Pooling）實現高效的特徵聚合，並滿足排列不變性與等變性要求。

4.3.1 柱體定義與點雲映射

BEV 網格的尺寸為

$200 \times 200$

（範圍 -50m 到 50m，網格分辨率 0.5m × 0.5m）。定義 “柱體（Pillar）” 為 BEV 網格中沿高度方向無限延伸的立方體（即忽略 3D 點的高度信息，僅保留水平座標

[BEV] 學習筆記之Lift, Splat, Shoot_#自動駕駛_32

）。利用相機內參

[BEV] 學習筆記之Lift, Splat, Shoot_#自動駕駛_33

和外參

[BEV] 學習筆記之Lift, Splat, Shoot_#自動駕駛_34

，將每個相機視錐體中的 3D 點

[BEV] 學習筆記之Lift, Splat, Shoot_#自動駕駛_17

映射到 BEV 座標系的

[BEV] 學習筆記之Lift, Splat, Shoot_#自動駕駛_32

位置，進而分配到對應的柱體中。

4.3.2 高效柱體求和池化

為解決大規模點雲的池化效率問題，論文采用 “累積和技巧（Cumulative Sum Trick）” 替代傳統的填充 - 池化操作，步驟如下：

按柱體 ID 對所有點雲特徵排序；
對特徵進行累積和計算；
通過柱體邊界的累積和差值得到每個柱體的求和特徵。

該方法的優勢在於：

避免填充導致的內存浪費；
可推導解析梯度，訓練速度提升 2 倍；
求和池化天然滿足排列不變性（相機順序不影響求和結果）。

最終，Splat 步驟輸出 BEV 特徵圖（尺寸為

$C \times X \times Y$

），可直接輸入 BEV CNN 進行語義推理。

4.4 Shoot：基於軌跡模板的端到端運動規劃

Shoot 步驟的核心是利用 BEV 特徵圖學習空間代價函數，通過 “投射軌跡模板” 實現可解釋的端到端運動規劃，將感知與規劃緊密結合。

4.4.1 軌跡模板生成

通過對大規模專家軌跡進行 K-Means 聚類（

[BEV] 學習筆記之Lift, Splat, Shoot_#數據驅動_38

），生成 1000 個軌跡模板

$\mathcal{T} = \{\tau_i\}_{K}$

，每個模板

$\tau_i = \{(x_j, y_j, t_j)\}_T$

表示一條 5 秒長（時間步長 0.25s）的 ego 車運動軌跡，如圖 5 所示：

[BEV] 學習筆記之Lift, Splat, Shoot_#BEV 語義分割_41

訓練與測試階段均使用該模板集合，通過代價函數選擇最優軌跡。

4.4.2 代價函數與概率建模

將規劃問題轉化為軌跡模板的分類任務：給定 BEV 特徵圖預測的代價圖

[BEV] 學習筆記之Lift, Splat, Shoot_#可解釋的端到端軌跡規劃_42

（

[BEV] 學習筆記之Lift, Splat, Shoot_#自動駕駛_32

位置的通行代價），每條軌跡

$\tau_i$

的代價為其路徑上所有 BEV 網格的代價之和。軌跡的概率分佈定義為：

[BEV] 學習筆記之Lift, Splat, Shoot_#自動駕駛_45

訓練目標為最大化專家軌跡的對數概率：

對於每個樣本，找到與 ground-truth 軌跡 L2 距離最近的模板作為正樣本；
使用交叉熵損失優化模型，使網絡學習到符合駕駛規則的代價函數（如車道邊界代價高、障礙物區域代價高）。

該設計的優勢在於：

可解釋性：最優軌跡來自明確的模板集合，便於調試與安全驗證；
端到端訓練：代價圖與軌跡選擇共享梯度，感知與規劃協同優化；
無需手動設計代價函數：通過數據驅動自動學習駕駛規則。

4.5 網絡架構細節

整個模型的網絡結構分為兩部分：

圖像骨幹網絡：EfficientNet-B0（預訓練於 ImageNet），輸出每個像素的上下文向量和深度分佈；
BEV 骨幹網絡：基於 ResNet-18 改進，流程為：

7×7 卷積（步長 2）+ BatchNorm + ReLU；
ResNet-18 的前 3 個元層，得到 3 個不同分辨率的 BEV 特徵圖；
上採樣 4 倍，與拼接後通過 ResNet 塊；
最終上採樣 2 倍，輸出與原始 BEV 網格尺寸一致的特徵圖。

模型總參數量為 14.3M，在 Titan V GPU 上的前向推理速度為 35Hz，滿足自動駕駛實時性要求。

五、實驗與結果分析

論文在 nuScenes 和 Lyft Level 5 兩個大型自動駕駛數據集上進行了全面實驗，驗證了模型在 BEV 語義分割、魯棒性、泛化性和運動規劃任務上的性能。

5.1 實驗設置

數據集：

nuScenes：1000 個場景（每個 20 秒），6 個相機（前、前左、前右、後左、後右、後），包含 3D 邊界框和地圖標註；
Lyft Level 5：無標準訓練 / 驗證分割，手動劃分 48 個場景作為驗證集（6048 個樣本），相機配置與 nuScenes 不同。

任務定義：

目標分割：車輛分割（nuScenes 包含 car 類；Lyft 包含 car、truck 等）、汽車分割（僅 car 類）；
地圖分割：可行駛區域分割、車道線分割；
運動規劃：預測與 ground-truth 軌跡 L2 距離最近的模板（Top-5/10/20 準確率）。

訓練細節：Adam 優化器（學習率 1e-3，權重衰減 1e-7），訓練 300k 步，二元交叉熵損失（車道線分割正樣本權重 5.0，其餘為 1.0）。

5.2 BEV 語義分割結果

5.2.1 目標分割性能

表 1 展示了不同模型在 nuScenes 和 Lyft 數據集上的目標分割 IOU 結果：

[BEV] 學習筆記之Lift, Splat, Shoot_#可解釋的端到端軌跡規劃_46

注：* 表示併發工作，Lyft 數據集的分割定義與本文不同，僅作參考。

關鍵結論：

本文模型在所有任務上超越 CNN 基線、凍結編碼器和 OFT，驗證了 “隱式深度分佈 + 幾何融合” 的有效性；
相比 OFT，本文模型通過深度分佈加權解決了 “像素特徵與深度無關” 的缺陷，提升顯著；
併發工作 PON 和 FISHING 的性能低於本文模型，證明了架構設計的優越性。

5.2.2 地圖分割性能

表 2 展示了地圖分割任務的 IOU 結果：

[BEV] 學習筆記之Lift, Splat, Shoot_#BEV 語義分割_47

關鍵結論：

本文模型在可行駛區域分割（72.94）和車道線分割（19.96）上均達到最優；
車道線分割任務的絕對 IOU 較低，原因是車道線在 BEV 中佔比小（長細結構），但本文模型相比基線仍有 3.45 個百分點的提升，證明了特徵融合的有效性。

5.3 魯棒性分析

5.3.1 傳感器噪聲與 dropout 魯棒性

論文通過兩個實驗驗證模型的魯棒性：

外參噪聲：訓練時為相機外參添加不同程度的高斯噪聲，測試時評估性能變化（圖 6a）；
相機 dropout：訓練時隨機丟棄 1 個相機，測試時評估不同數量相機缺失的性能（圖 6b）。

[BEV] 學習筆記之Lift, Splat, Shoot_#自動駕駛_48

左：外參噪聲魯棒性；右：相機 dropout 魯棒性。

關鍵結論：

訓練時添加外參噪聲的模型（藍色曲線）在測試時面對高噪聲時性能下降更少，證明模型可通過數據增強提升對校準誤差的魯棒性；
訓練時隨機丟棄相機的模型（紅色曲線）在測試時相機缺失的情況下性能更優，類似 Dropout 正則化，強制模型學習跨相機特徵相關性。

5.3.2 相機重要性分析

圖 7 展示了單個相機缺失時汽車分割 IOU 的變化：

[BEV] 學習筆記之Lift, Splat, Shoot_#純視覺BEV感知_49

右側 “full” 表示所有相機正常工作的性能，其餘為單個相機缺失的性能。

關鍵結論：

後向相機（Backwards）缺失導致性能下降最顯著，原因是其視野最廣，覆蓋 ego 車後方大範圍區域；
前向相機（Forward）缺失後，模型可通過其他相機（如前左、前右）的部分視野 extrapolate 車道線和障礙物，性能下降相對較小（圖 8 定性結果）。

[BEV] 學習筆記之Lift, Splat, Shoot_#可解釋的端到端軌跡規劃_50

從上到下：正常情況、前向相機缺失、後向相機缺失、前左相機缺失。缺失相機覆蓋區域的預測結果變得模糊，但模型仍能部分補全。

5.4 泛化性分析

5.4.1 零樣本相機 rig 遷移

實驗 1：訓練時僅使用 nuScenes 6 個相機中的 4 個，測試時添加未見過的相機（前左 / 後左），結果如表 3 所示：

[BEV] 學習筆記之Lift, Splat, Shoot_#數據驅動_51

關鍵結論：添加未訓練過的相機後，性能持續提升，證明模型可零樣本利用新增傳感器的信息，無需重新訓練。

實驗 2：在 nuScenes 上訓練，直接遷移到 Lyft 相機 rig（相機配置完全不同），結果如表 4 所示：

[BEV] 學習筆記之Lift, Splat, Shoot_#BEV 語義分割_52

關鍵結論：

所有模型遷移後性能均下降，但本文模型的下降幅度最小，且領先基線的優勢進一步擴大；
證明模型學習到的是相機幾何與場景語義的通用關係，而非特定相機 rig 的特徵，泛化性更強。

5.5 與激光雷達 Oracle 深度的對比

將本文模型與使用激光雷達真實深度的 PointPillars 模型對比，結果如表 5 所示：

[BEV] 學習筆記之Lift, Splat, Shoot_#BEV 語義分割_53

關鍵結論：

本文模型（純視覺）在可行駛區域分割上接近激光雷達模型（70.81 vs 74.91），證明視覺融合可提取高精度的道路結構信息；
在目標分割上仍有差距（32.06 vs 40.26），原因是激光雷達提供精確的 3D 位置，而視覺深度分佈存在不確定性；
多幀激光雷達的性能進一步提升，暗示未來可通過多幀視覺序列建模縮小差距。

5.5.1 性能隨距離與天氣的變化

圖 10 展示了汽車分割 IOU 隨目標距離和天氣的變化：

[BEV] 學習筆記之Lift, Splat, Shoot_#BEV 語義分割_54

左：距離 ego 車的距離；右：天氣條件（晴朗 / 多雲 / 雨天 / 夜晚）。

關鍵結論：

隨目標距離增加，本文模型與激光雷達模型的性能均線性下降，但本文模型下降更快，原因是遠距離像素的深度歧義性更強；
夜晚場景中，本文模型性能下降顯著（IOU 約 25），而激光雷達不受光照影響（IOU 約 35），證明光照是純視覺感知的主要瓶頸。

5.6 運動規劃結果

表 6 展示了運動規劃任務的 Top-5/10/20 準確率：

[BEV] 學習筆記之Lift, Splat, Shoot_#數據驅動_55

關鍵結論：

本文模型性能低於激光雷達模型，但已能學習到基本的駕駛規則（如沿車道行駛、避讓障礙物）；
多幀激光雷達的性能提升顯著，證明時序信息對規劃至關重要，未來可通過多幀視覺融合進一步優化。

定性結果如圖 11 所示：

[BEV] 學習筆記之Lift, Splat, Shoot_#數據驅動_56

紅色為 Top-1 軌跡，藍色為 Top-10 軌跡。模型能預測低速通過人行橫道、跟隨前車等合理軌跡。

六、結論與未來工作

6.1 核心貢獻總結

Lift, Splat, Shoot 架構的核心貢獻在於：

提出了 “Lift-Splat-Shoot” 三步流程，實現了從多視圖相機到 BEV 語義表示的端到端可微分映射，天然滿足多視圖感知的三大對稱性；
通過隱式深度分佈（）解決了單目相機的深度歧義性，允許模型根據場景自適應調整深度聚焦或分散策略；
設計了高效的柱體池化與累積和技巧，保證了模型的實時性；
首次將純視覺 BEV 表示用於可解釋的端到端運動規劃，實現了感知與規劃的協同優化。

6.2 侷限性與未來方向

論文指出的侷限性及未來改進方向：

純視覺深度估計的精度不足，導致遠距離目標分割性能落後於激光雷達，未來可融合多幀視覺序列提升深度估計精度；
夜晚等惡劣光照條件下性能下降顯著，需結合夜視增強、多傳感器融合（如毫米波雷達）解決；
運動規劃依賴固定軌跡模板，靈活性不足，未來可探索動態軌跡生成與模板自適應更新。

6.3 行業影響

該論文為自動駕駛純視覺感知提供了重要的技術範式，其核心思想已被後續眾多工作借鑑（如 BEVFormer、PETR 等），推動了純視覺 BEV 感知的快速發展。特別是在激光雷達成本較高的場景下，該架構為低成本自動駕駛方案提供了可行的技術路徑。

七、附錄：關鍵術語與公式彙總

7.1 關鍵術語

BEV（Bird's-Eye-View）：鳥瞰圖座標系，以 ego 車為中心的俯視圖網格；
視錐體（Frustum）：相機可觀測的 3D 空間區域，由相機內參和外參定義；
柱體（Pillar）：BEV 網格中沿高度方向無限延伸的立方體，用於聚合 3D 點雲特徵；
深度分佈（Depth Distribution）：每個像素的深度概率分佈 $\alpha$，用於加權生成 3D 特徵。

7.2 核心公式

3D 點特徵計算：
軌跡概率分佈：

Lift, Splat, Shoot 論文在自動駕駛純視覺 BEV 感知領域做出了突破性貢獻。其架構設計既考慮了多視圖幾何約束，又通過端到端訓練充分利用了數據驅動的優勢，為後續相關研究提供了堅實的基礎與豐富的啓發。

本文章為轉載內容，我們尊重原作者對文章享有的著作權。如有內容錯誤或侵權問題，歡迎原作者聯繫我們進行內容更正或刪除文章。

博客 / 詳情