視頻演示
基於深度學習的遙感地面物體檢測系統
1. 前言
遙感地面物體檢測在城市規劃、交通監控、環境監測及農業管理等領域具有重要應用價值。傳統基於人工解譯或經典圖像處理的方法,面對高分辨率遙感影像中目標尺度多變、背景複雜、分佈密集等挑戰,往往存在效率低、漏檢率高、定位精度受限等問題。近年來,以 YOLO 系列為代表的單階段目標檢測算法,憑藉端到端推理、較高檢測速度與優良的多尺度特徵學習能力,在遙感影像目標檢測任務中得到廣泛關注,並逐步由通用場景向交通設施、港口、運動場、道路交叉口等細粒度地面物體檢測延伸。
現有研究多側重於模型結構的改進,如引入注意力機制、特徵金字塔增強或輕量化設計,以提升特定場景下的檢測性能。然而,面向實際工程應用仍需在多模型橫向對比、交互可視化、批量與實時檢測支持、用户管理及訓練流程自動化等方面形成完整解決方案,以滿足從實驗驗證到業務落地的閉環需求。此外,不同目標類別在遙感影像中的出現頻率與形態特徵差異顯著,數據集的規模、質量與標註一致性直接影響模型的泛化與穩定性,因此需建立標準化的數據組織、訓練評估與結果分析體系。
本文實現並評估了一套基於 YOLO 的遙感地面物體檢測系統,覆蓋從數據準備、模型訓練到推理部署的全流程:系統集成 YOLOv5、YOLOv8、YOLOv11、YOLOv12 四種模型,支持同一界面下快速切換與性能對比;採用 PyQt5 構建桌面應用,提供圖片、視頻、文件夾批量及攝像頭實時檢測功能,具備置信度與 IoU 閾值調節、檢測耗時與目標統計、檢測結果列表與類別過濾、目標詳細信息展示等交互特性;基於 SQLite 實現用户註冊、登錄與個人中心管理,支持資料與頭像更新;配套獨立腳本工具,可實現命令行模式的圖片、視頻及攝像頭快速檢測。訓練方面,代碼支持對四個模型依次訓練,數據集按訓練/驗證/測試劃分,訓練結果保存在 runs目錄,包含最佳權重(best.pt)、F1 曲線、混淆矩陣、樣本預測與數據增強效果圖等,便於復現與橫向分析。
本研究面向遙感影像智能解譯、交通設施監測、港口與場地管理等應用場景,兼顧檢測精度、推理速度與系統易用性,為地面物體檢測技術的科研實驗與工程落地提供了一體化參考方案。
2. 項目演示
2.1 用户登錄界面
登錄界面佈局簡潔清晰,左側展示系統主題,用户需輸入用户名、密碼及驗證碼完成身份驗證後登錄系統。

2.2 新用户註冊
註冊時可自定義用户名與密碼,支持上傳個人頭像;如未上傳,系統將自動使用默認頭像完成賬號創建。

2.3 主界面佈局
主界面採用三欄結構,左側為功能操作區,中間用於展示檢測畫面,右側呈現目標詳細信息,佈局合理,交互流暢。

2.4 個人信息管理
用户可在此模塊中修改密碼或更換頭像,個人信息支持隨時更新與保存。

2.5 多模態檢測展示
系統支持圖片、視頻及攝像頭實時畫面的目標檢測。識別結果將在畫面中標註顯示,並在下方列表中逐項列出。點擊具體目標可查看其類別、置信度及位置座標等詳細信息。

2.6 多模型切換
系統內置多種已訓練模型,用户可根據實際需求靈活切換,以適應不同檢測場景或對比識別效果。

3.模型訓練核心代碼
本腳本是YOLO模型批量訓練工具,可自動修正數據集路徑為絕對路徑,從pretrained文件夾加載預訓練模型,按設定參數(100輪/640尺寸/批次8)一鍵批量訓練YOLOv5nu/v8n/v11n/v12n模型。
4. 技術棧
-
語言:Python 3.10
-
前端界面:PyQt5
-
數據庫:SQLite(存儲用户信息)
-
模型:YOLOv5、YOLOv8、YOLOv11、YOLOv12
5. YOLO模型對比與識別效果解析
5.1 YOLOv5/YOLOv8/YOLOv11/YOLOv12模型對比
基於Ultralytics官方COCO數據集訓練結果:
|
模型 |
尺寸(像素) |
mAPval 50-95 |
速度(CPU ONNX/毫秒) |
參數(M) |
FLOPs(B) |
|---|---|---|---|---|---|
|
YOLO12n |
640 |
40.6 |
- |
2.6 |
6.5 |
|
YOLO11n |
640 |
39.5 |
56.1 ± 0.8 |
2.6 |
6.5 |
|
YOLOv8n |
640 |
37.3 |
80.4 |
3.2 |
8.7 |
|
YOLOv5nu |
640 |
34.3 |
73.6 |
2.6 |
7.7 |
關鍵結論:
-
精度最高:YOLO12n(mAP 40.6%),顯著領先其他模型(較YOLOv5nu高約6.3個百分點);
-
速度最優:YOLO11n(CPU推理56.1ms),比YOLOv8n快42%,適合實時輕量部署;
-
效率均衡:YOLO12n/YOLO11n/YOLOv8n/YOLOv5nu參數量均為2.6M,FLOPs較低(YOLO12n/11n僅6.5B);YOLOv8n參數量(3.2M)與計算量(8.7B)最高,但精度優勢不明顯。
綜合推薦:
-
追求高精度:優先選YOLO12n(精度與效率兼顧);
-
需高速低耗:選YOLO11n(速度最快且精度接近YOLO12n);
-
YOLOv5nu/YOLOv8n因性能劣勢,無特殊需求時不建議首選。
5.2 數據集分析

數據集中訓練集和驗證集一共4000多張圖片,數據集目標類別11種:T型路口,飛機,棒球場,籃球場,橋樑,十字路口,田徑運動場,港口,停車場,船隻,車輛,數據集配置代碼如下:


上面的圖片就是部分樣本集訓練中經過數據增強後的效果標註。
5.3 訓練結果

混淆矩陣顯示中識別精準度顯示是一條對角線,方塊顏色越深代表對應的類別識別的精準度越高了,圖像顯示識別精準度非常高。

F1指數(F1 Score)是統計學和機器學習中用於評估分類模型性能的核心指標,綜合了模型的精確率(Precision)和召回率(Recall),通過調和平均數平衡兩者的表現。
當置信度為0406時,所有類別的綜合F1值達到了0.81(藍色曲線)。

mAP@0.5:是目標檢測任務中常用的評估指標,表示在交併比(IoU)閾值為0.5時計算的平均精度均值(mAP)。其核心含義是:只有當預測框與真實框的重疊面積(IoU)≥50%時,才認為檢測結果正確。
圖中可以看到綜合mAP@0.5達到了0.849(84.9%),準確率非常高。
6. 源碼獲取方式
源碼獲取方式:https://www.bilibili.com/video/BV1AjUsBbEHX