DiffusionDrive引入了一種用於端到端自動駕駛的截斷擴散模型,通過解決計算開銷和模式崩潰問題,實現了實時多模態軌跡生成。該系統在NAVSIM數據集上創造了新的性能記錄,以45 FPS達到88.1 PDMS,同時生成多樣化且合理的駕駛動作。

引言

DiffusionDrive 引入了一種通過將擴散模型應用於端到端軌跡規劃來解決自動駕駛問題的新穎方法。該研究旨在解決當前自動駕駛系統中存在的根本侷限性,這些系統通常難以處理駕駛決策的多模態性質。傳統方法要麼預測單一軌跡,可能無法捕捉到所有合理的動作範圍,要麼依賴於預定義軌跡的固定詞彙表,這在面對新穎場景時可能會失效。

本文提出了兩項關鍵創新:一種截斷擴散策略,可在保持多樣化軌跡生成的同時減少計算開銷;以及一種高效的級聯擴散解碼器,可以更好地整合上下文場景信息。這些貢獻使得模型能夠實現實時性能,並在具有挑戰性的基準測試中達到最先進的結果。

研究背景與動機

自動駕駛系統面臨的挑戰是在複雜、多模態環境中做出決策,在任何給定場景下都可能存在多種合理的動作。當前端到端的方法分為兩類:預測一個最優軌跡的單模態迴歸方法,以及從預定義軌跡集中選擇的固定詞彙表方法。

Transfuser、UniAD 和 VAD 等單模態迴歸方法直接從傳感器輸入預測軌跡,但在多模態決策場景中存在根本性困難。當存在多個有效動作時(例如變道與保持車道),這些方法可能會遭受模式坍縮或產生次優的平均行為。

VADv2 和 Hydra-MDP 等固定詞彙表方法試圖通過將動作空間離散化為大量錨定軌跡集來解決多模態問題。雖然提供了更多多樣性,但這些方法計算成本高昂,並受其預定義詞彙表的限制,可能在詞彙表外場景中失效。

擴散模型在計算機視覺和機器人技術中生成多樣化、高質量樣本方面取得了顯著成功。然而,它們直接應用於自動駕駛面臨兩個關鍵挑戰:多重去噪步驟帶來的計算開銷(在原始實現中通常超過20步)和動態交通場景中的模式坍縮。

核心方法

DiffusionDrive 通過兩項專為自動駕駛應用設計的核心創新,解決了標準擴散模型的侷限性。

截斷擴散策略

截斷擴散策略從根本上重新構想了擴散模型如何應用於軌跡生成。該方法不再從純高斯噪聲開始,而是從以從數據中學習到的多模態駕駛模式為中心的“錨定高斯分佈”進行初始化。

該方法首先使用 K-means 對訓練數據集中的真實軌跡進行聚類,以識別常見的駕駛模式。這些聚類中心充當代表典型駕駛行為的錨點。在訓練期間,擴散過程被截斷——只向這些錨點添加少量噪聲,而不是遵循完整的噪聲調度直到純高斯噪聲。

這種截斷具有兩個關鍵優勢。首先,它為軌跡生成提供了更明智的起點,從一開始就引導模型走向合理的駕駛行為。其次,它顯著減少了推理所需的去噪步驟數,使得模型能夠以低至2個去噪步驟(而原始擴散模型需要20個以上)實現實時性能。

其數學公式涉及修改標準擴散正向過程:

$$
q(x_t | x_0) = \mathcal{N}(x_t; \sqrt{\bar{\alpha}_t} x_0, (1 - \bar{\alpha}_t) I)
$$

其中,該過程在時間步 $T_{trunc} << T$ 處被截斷,$x_0$ 表示來自錨定分佈而非任意數據點的軌跡。

高效級聯擴散解碼器

級聯擴散解碼器在保持計算效率的同時,增強了模型利用上下文場景信息的能力。解碼器架構融合了多種形式的注意力機制,以整合不同類型的環境信息。

空間交叉注意力使用基於軌跡座標的可變形注意力機制,實現了與鳥瞰圖(BEV)和透視圖(PV)特徵的交互。這使得模型能夠在生成軌跡時聚焦於相關的空間區域。

智能體和地圖交叉注意力機制使解碼器能夠考慮動態智能體和靜態道路基礎設施。解碼器在軌跡特徵與從感知模塊派生的智能體/地圖查詢之間執行交叉注意力,確保生成的軌跡考慮交通參與者和道路幾何形狀。

級聯機制代表了一項關鍵創新,其中一個解碼器層的輸出作為後續層的輸入。這種迭代細化發生在每個去噪步驟中,並且參數在時間步長之間共享。該方法能夠在保持計算效率的同時,逐步改進軌跡。

時間步長調製層編碼擴散時間步長信息,然後由MLP預測置信度分數和座標偏移。最終的軌跡選擇基於生成候選中最高的置信度分數。

訓練和實現細節

訓練目標結合了軌跡重建和分類組件。模型學習預測去噪軌跡和分類分數,這些分數基於與真實值的接近程度指示軌跡質量。

損失函數結合了軌跡座標的L1重建損失和分類的二元交叉熵:

$$
\mathcal{L} = \mathcal{L}_{L1}(x_0, \hat{x}_0) + \lambda \mathcal{L}_{BCE}(s, \hat{s})
$$

其中 $x_0$ 表示真實軌跡,$\hat{x}_0$ 是預測軌跡,$s$ 是真實分類標籤,$\hat{s}$ 是預測分數。

一個顯著的特點是推理靈活性——儘管模型在訓練時使用固定數量的錨點,但它可以通過調整採樣過程來適應推理期間任意數量的軌跡樣本。

實驗結果與性能

DiffusionDrive 在多個指標和數據集上均表現出顯著提升。在極具挑戰性的NAVSIM數據集上,該方法實現了88.1的PDMS(規劃多樣性度量分數),大幅優於之前的SOTA方法,包括UniAD(83.4)、PARA-Drive(84.0)以及挑戰賽冠軍Hydra-MDP(86.5)。

考慮到計算效率,性能提升尤為顯著。DiffusionDrive 在 NVIDIA 4090 上以 45 FPS 運行,滿足實時要求,而香草擴散(vanilla diffusion)適應僅能達到 7 FPS。

從基線Transfuser到DiffusionDrive的演進揭示了每個組件的貢獻:

  • Transfuser基線:84.0 PDMS,60 FPS
  • 香草擴散適應:84.6 PDMS,7 FPS(20個去噪步驟)
  • 截斷擴散:85.7 PDMS,27 FPS(2個去噪步驟)
  • 完整DiffusionDrive:88.1 PDMS,45 FPS

模式多樣性的提升同樣令人印象深刻,DiffusionDrive實現了74%的多樣性,而香草擴散為11%,單模式基線則基本為0%。

在nuScenes數據集上,DiffusionDrive實現了最低的L2誤差(0.57m)和碰撞率(0.08%),同時運行速度比同類方法快1.8倍。這些結果表明了在不同評估範式下的一致性能。

意義和未來影響

DiffusionDrive 代表着生成模型在安全關鍵型實時應用方面的一個重大進步。這項工作表明,複雜的生成模型可以成功地應用於自動駕駛,而不會犧牲性能或安全要求。

生成真正多樣化軌跡的能力解決了當前自動駕駛系統的一個根本侷限性。這種能力對於處理存在多種有效操作的模糊場景至關重要,可能導致更魯棒和更像人類的駕駛行為。

通過截斷擴散和級聯解碼實現的計算效率,使得該方法在計算資源有限的真實自動駕駛平台上部署成為可能。在保持或提高質量的同時,去噪步驟減少了10倍,這代表了一項重大的工程成就。

從固定詞彙到連續生成規劃的範式轉變,為新穎場景提供了更大的靈活性和適應性。與受預定義行動空間限制的現有方法相比,這種方法可能被證明更具可擴展性和通用性。

這項研究為機器人和自主系統生成規劃的未來工作奠定了基礎。截斷擴散和高效級聯架構的概念可以啓發自動駕駛之外的應用,拓展到其他需要實時、多樣化策略生成的領域。