REF:多模態融合下家居機器人高精度SLAM 與區域分割方法研究
1. 人工智能基礎概念
- 人工神經網絡(Artificial Neural Network,ANN):理論基礎建立在生物神經系統的數學抽象與非線性函數逼近能力之上,目標是通過非線性變換逼近複雜函數關係,數學框架可視為一個參數化函數的優化問題,網絡通過層級化的非線性映射構建從輸入到輸出的預測模型,其層級結構可視為特徵空間的逐層變換,每一層將輸入數據映射到新的表徵空間,最終通過線性分類器或迴歸器完成預測。
- 損失函數:為網絡提供了明確的優化目標,將預測結果與真實值之間的差異量化為標量指標,網絡參數通過最小化損失函數優化,常見損失函數包括均方誤差和交叉熵:
- 均方誤差(MSE):通過平方差衡量回歸任務的誤差
- 交叉熵(Cross-Entropy):通過概率分佈差異評估分類性能
- 反向傳播算法:通過鏈式法則計算損失對參數的梯度,將損失函數的梯度從輸出層逐層反向傳播至輸入層:
- 計算前向傳播計算輸出層誤差:
- 反向傳播誤差至隱藏層:
- 計算參數梯度:
- 卷積神經網絡(Convolutional Neural Network, CNN):是一種專為處理網格結構數據(如圖像、語音)設計的深度學習模型,其核心創新在於突破傳統全連接網絡的侷限性。不同於人工神經網絡的全連接結構,CNN 受生物視覺系統啓發,通過局部感受野將每個神經元的連接範圍限制在輸入數據的局部區域大幅減少參數數量
- 層次化特徵學習:是 CNN 區別於傳統機器學習模型的本質特徵,淺層卷積核捕獲的低級特徵(如邊緣、角點)通過深層網絡的逐級組合,逐漸抽象為高級語義模式(如車輪、人臉輪廓),當特徵傳遞至末端的全連接層時,空間信息被壓縮為向量表示,並通過 Softmax 等函數映射到類別概率空間,完成從像素到語義的跨越。
- 稀疏梯度傳遞:最大池化層在反向傳播時,僅將梯度回傳至前向傳播中取最大值的位置,這種稀疏梯度傳遞方式保留了池化操作的特性
- Dropout 技術:針對過擬合問題,通過隨機屏蔽神經元輸出,強制網絡發展冗餘的特徵提升泛化能力,這些訓練細節的優化與模型結構設計共同作用,使得 CNN 在 ImageNet 等大規模圖像數據集上展現出超越傳統方法的性能。
- 注意力機制(Attention Mechanism):一種模擬人類認知過程中選擇性關注重要信息的計算模型,理論框架圍繞信息選擇與動態聚焦展開,核心在於突破傳統神經網絡對輸入數據的平等處理方式,模仿人類認知過程中對關鍵信息的選擇性強化,通過數學建模將輸入元素的重要性差異轉化為可學習的權重分配,從而在複雜數據中自動捕捉有意義的關聯模式:
- 注意力打分:計算所有鍵的相似度
- 確定分佈:使用 Softmax 函數將相似度轉換為概率分佈,歸一化的權重矩陣如同一個動態濾波器,決定哪些值向量需要被放大或抑制
- 加權求和:計算得到的上下文向量,既包含原始值信息,又融入了跨元素的關聯強度
- 自注意力機制:通過讓查詢、鍵、值均來自同一輸入序列,將動態權重分配的能力擴展到序列內部的長距離依賴建模,這種特性使得自注意力成為Transformer 模型的核心組件,通過參數矩陣實現輸入到查詢、鍵、值的可學習映射
- 多頭注意力機制:並行執行多組獨立的注意力計算,每組使用不同的線性變換矩陣,相當於在多個子空間中探索特徵關聯,最後通過注意力頭輸出來拼接結果增強模型對不同抽象層次特徵的捕獲能力
- Transformer架構:一種基於自注意力機制的序列建模架構,通過自注意力機制的統一視角,將序列元素間的所有交互建模為可並行計算的矩陣運算,從而同時解決了效率與長程建模的難題,具體採用編碼器-解碼器結構作為基礎架構,通過堆疊多層相同模塊實現特徵的層次化提煉,編碼器的每一層本質上是“自注意力+前饋網絡”的複合函數
其中:
- X:輸入
- MultiHead:多頭注意力機制對輸入進行並行注意力計算
- FFN:前饋神經網絡,對Z進行非線性變換
2. SLAM建圖
- FAST-LIVO 系列(包括 FAST LIVO 與 FAST-LIVO2)基於激光-視覺-慣性緊耦合架構,通過稀疏直接法實現高精度位姿估計與地圖構建,基於迭代誤差卡爾曼濾波(IEKF),通過不同的優化技術改進:
- Fast-LIVO1 直接法視覺觀測,從激光雷達掃描點雲中篩選出部分點作為視覺特徵點
- Fast-LIVO2:使用概率體素地圖VoxelMap替換原先的 IKD-Tree ,並擴展了視覺觀測模型優化 VoxelMap
- 改進直接法視覺觀測模型:通過光流法提供全局運動初值約束,結合直接法細化局部對齊,形成幾何-光度雙重校驗機制,顯著提升視覺觀測的魯棒性
3. 目標檢測
- 傳統YOLOv7:作為 YOLO 系列中集大成,在速度與精度方面(檢測精度與推理速度)取得了較好的平衡,適合純檢測任務,架構圍繞特徵高效提取-多尺度融合-動態預測的遞進式流程展開,包含三大模塊:
- 骨幹網絡(Backbone):負責基礎特徵捕獲
- 特徵融合模塊(Neck):雙向跨尺度信息交互網絡,強化跨層級信息交互
- 檢測頭(Head):目標定位與分類的精準輸出
- 改進YOLOv7
- 骨幹網絡優化:採用了 CNN-Transformer 混合增強特徵模塊(CTHEFM),增強模型的特徵提取能力
- 檢測頭優化:在檢測頭前引入檢測增強注意力模塊(DEAM),提升通道敏感性、空間上下文建模能力及多尺度特徵適應性