一、引言 在自動駕駛領域,感知系統的核心目標是從多傳感器數據中提取語義信息,並將其融合到統一的 “鳥瞰圖(Bird's-Eye-View, BEV)” 座標系中,為後續的運動規劃模塊提供決策依據。傳統計算機視覺算法要麼輸出與座標系無關的分類結果,要麼在輸入圖像的同一座標系中進行預測(如目標檢測、語義分割等),這與自動駕駛中 “多傳感器輸入 - 統一