一、PyIRSTDMetrics

Infrared Small Target Detection, IRSTD

2025論文拷問紅外小目標檢測評估標準

今天我們不聊新模型,不説又刷了幾個點的SOTA,咱們來聊點更根本的:我們衡量SOTA的方式,真的對嗎?

在計算機視覺裏,有個領域叫“紅外小目標檢測”(Infrared Small Target Detection, IRSTD),説白了就是在紅外圖像裏找那些又小又暗的目標,比如天上的無人機、遠處的船隻等等。這幾年,深度學習模型在這個任務上可以説是“高歌猛進”,榜單上的分數越來越高。但問題是,這些高分真的代表模型在現實世界裏也一樣好用嗎?

來自大連理工大學、耶魯大學和南洋理工大學的研究者們在他們被NeurIPS 2025錄用的論文《Rethinking Evaluation of Infrared Small Target Detection》中,就對這個問題提出了靈魂拷問。他們認為,當前IRSTD領域的評估方法存在三大“病症”,可能正在引導大家走上一條“虛假繁榮”的內卷之路。

  • 論文標題: Rethinking Evaluation of Infrared Small Target Detection
  • 作者: Youwei Pang, Xiaoqi Zhao, Lihe Zhang, Huchuan Lu, Georges El Fakhri, Xiaofeng Liu, Shijian Lu
  • 機構: 大連理工大學, 耶魯大學, 南洋理工大學
  • 論文地址: https://arxiv.org/abs/2509.16888
  • 項目/工具包地址: https://github.com/lartpang/PyIRSTDMetrics
  • 錄用信息: NeurIPS 2025

病症一:指標“碎片化”,只看局部不看整體

目前的評估,要麼用像素級的指標(比如IoU),要麼用目標級的指標(比如檢測概率Pd、虛警率Fa)。這兩種指標各看各的,就像體檢只量了身高和體重,但沒看心率和血壓,根本無法全面瞭解一個模型的“健康狀況”。

研究者們舉了個例子,有些模型可能像素級分割做得很好(IoU高),但實際上卻漏掉了很多目標(Pd低),或者反之。單一的指標很容易產生誤導。

上圖就展示了不同指標可能會給出完全不同的“排名”,這説明現有的指標體系並不可靠。

病症二:唯“分數”論,不問對錯只問高低

現在的論文,大家都在比誰的最終得分高,但很少有人去深入分析模型到底“錯在哪”。一個模型95%的檢測率聽起來很棒,但那5%的錯誤是什麼?是目標定位不準?是把背景當成了目標?還是壓根沒看見目標?

不搞清楚這些失敗模式(failure modes),就很難在實際應用中真正地改進系統。xxx覺得這點説得太對了,做研究不是為了刷分,而是為了解決實際問題。只看總分,就像考試只看總成績,不看錯題本,下次可能還在同一個地方摔跤。

病症三:閉門造車,只會“應試”不會“實戰”

這是最嚴重的一個問題。目前IRSTD領域普遍採用“數據集特定”的評估範式,也就是在哪個數據集上訓練,就在哪個數據集的測試集上測試。這就像備考時做的模擬卷和期末考試是同一套題,考高分不奇怪,但這能證明你真的學得好嗎?

一旦把這些模型放到一個全新的、沒見過的數據集上(跨數據集評估),性能往往會“大跳水”。這説明模型只是學會了“擬合”特定數據集的“套路”,而沒有學到真正的泛化能力和魯棒性。

上表清晰地展示了跨數據集評估的結果,一個在某個數據集上表現頂尖的模型,換個數據集可能就排到後面去了,這無疑是對當前評估方式的巨大諷刺。

對症下藥:一個更科學的評估框架

針對這三大病症,研究者們開出了一劑“良方”,提出了一個全新的分層分析框架。

1. 混合級別度量 (Hybrid-Level Metric)

他們提出了一個新的核心指標 hIoU (hierarchical IoU),這個指標巧妙地將目標級的定位性能和像素級的分割性能結合在了一起。簡單來説,就是hIoU = 定位準確率 × 分割準確率。這種乘法關係意味着,模型在定位和分割兩個方面都必須做得好,才能獲得高分,任何一個短板都會嚴重影響最終得分,從而更全面地反映模型的綜合能力。

2. 系統化的錯誤分析

這是本次研究的一大亮點。他們建立了一套系統的錯誤分析方法,將檢測錯誤分為幾大類,比如:

  • 定位錯誤 (Localization errors) :包括把多個目標看成一個(多對一)、一個目標看成多個(一對多)、干擾導致的虛警等。
  • 分割錯誤 (Segmentation errors) :包括把鄰近目標錯誤地合併了、受背景干擾導致分割不準等。

通過量化這些不同類型的錯誤,研究者可以像醫生看CT報告一樣,精確診斷出模型到底得了什麼“病”,從而對症下藥。

3. 強調跨數據集評估

論文大力倡導並實踐了跨數據集評估的重要性,認為這才是檢驗模型“真才實學”的唯一標準。只有在各種未知場景下都能保持良好性能的模型,才稱得上是真正魯棒的模型。

開源工具包:授人以漁

更棒的是,研究者們不僅提出了理論框架,還發布了一個名為 PyIRSTDMetrics 的開源評估工具包。這個工具包實現了他們提出的所有新指標和分析方法,可以幫助整個社區進行更標準、更公平、更深入的基準測試。

總結

這篇NeurIPS論文像一聲警鐘,提醒着IRSTD領域的研究者們:是時候從“唯分數論”的內卷中跳出來,重新思考我們追求的目標了。它提出的新評估框架和開源工具,無疑將推動該領域從追求“榜單上的SOTA”轉向研發“現實中真正好用的SOTA”。

大家在自己的研究領域,是否也觀察到了類似的“唯分數論”現象?你認為什麼樣的評估標準才能真正促進技術的發展?歡迎在評論區一起交流!


....




























三、HDNet

山東大學×提出HDNet:融合多尺度高頻信息增強的混合域紅外小目標檢測網絡

HDNet 提出了一種創新的混合域網絡架構,通過協同利用空間域的多尺度空洞對比卷積(MAC)與頻率域的動態高通濾波器(DHPF),實現了對可變尺寸微小目標的精準感知及低頻背景干擾的自適應抑制 。該方法有效解決了紅外圖像信噪比低的難題,在三個主流數據集上對比 26 種先進方法均取得了 SOTA 性能,同時保持了優異的計算效率 。

  • 論文題目:《HDNet: A Hybrid Domain Network with Multi-Scale High-Frequency Information Enhancement for Infrared Small Target Detection》
  • 作者:Mingzhu Xu, Chenglong Yu, Zexuan Li, Haoyu Tang, Yupeng Hu
  • 作者單位:山東大學
  • 論文鏈接https://ieeexplore.ieee.org/document/11017756
  • 代碼鏈接https://github.com/xumingzhu989/HDNet-TGRS

01 動機

紅外小目標檢測(IRSTD)面臨着目標尺寸細小多變且信噪比低,極易被複雜背景雜波(如雲層、霧氣等低頻背景)淹沒的難題 。標準的空間域卷積神經網絡(CNN)往往充當低通濾波器,導致包含豐富細節的高頻小目標信息丟失,且受限於局部感受野,難以捕捉全局光譜分佈以區分目標與背景 。此外,現有的結合頻率域的方法通常依賴固定閾值或簡單的卷積來分離頻率,無法自適應地處理紅外圖像中複雜且動態變化的低頻背景干擾 。為了克服這些侷限性,作者旨在提出一種混合域網絡(HDNet),通過在空間域引入多尺度空洞對比度卷積來增強對可變尺寸目標的感知,同時在頻率域設計動態高通濾波器以自適應地抑制緩慢變化的背景噪聲,從而顯著提升檢測性能 。

51c~視覺~紅外小目標檢測~合集1_目標檢測

02 概述

本文提出了一個混合域網絡(HDNet),旨在結合空間域的多尺度感知能力與頻率域的背景抑制能力,以解決紅外小目標檢測中目標尺寸多變及背景干擾嚴重的問題 。為實現這一目標,作者設計了兩個核心模塊:其一是位於空間域的多尺度空洞對比度卷積(MAC)模塊,通過利用多個不同核尺寸的並行空洞對比度卷積,增強了網絡對尺寸微小且多變目標的感知能力並提升了目標與背景的對比度 ;其二是位於頻率域的動態高通濾波器(DHPF)模塊,該模塊通過分層計算低頻信號能量並根據圖像內容動態剔除特定比例的低頻成分,有效保留了圖像的高頻細節並抑制了緩慢變化的背景干擾 。此外,該網絡將空間域與頻率域的特徵進行融合,並在三個公開數據集上對比26種先進方法驗證了其有效性 。

51c~視覺~紅外小目標檢測~合集1_目標檢測_02

03 模塊介紹3.1 多尺度空洞對比卷積(MAC)

多尺度空洞對比卷積(MAC)模塊是專門針對紅外小目標尺寸多變(從單像素到數十像素不等)以及信噪比低、外觀模糊的挑戰而設計的。為了克服傳統CNN方法在處理紋理信息貧乏的小目標時容易丟失信息的缺陷,MAC模塊在空間域編碼器中引入了創新性的並行結構。該模塊首先通過卷積擴展輸入特徵圖的通道維度,並將其分為四組:一組作為直接連接以保留原始信息,其餘三組則分別輸入到三個具有不同核大小和空洞率的空洞對比度卷積(ACC)分支中進行並行處理。

MAC模塊的核心機制在於其獨特的對比度計算與多尺度感知能力。三個並行分支()分別針對不同特性的目標進行了定製化設計:採用較小的核尺寸,專注於感知極微小的像素級目標;引入空洞率以擴大感受野,用於捕捉稍大的目標;則擴大了中心區域範圍,專門用於在低信噪比環境下有效提取模糊目標。這些ACC核通過計算中心區域(目標)像素均值與周圍區域(背景)像素均值的差值,直接強化了局部對比度,從而在特徵提取階段顯著增強了目標與背景的區分度。

最終,這些來自不同尺度的對比度特徵在通道維度上進行拼接,並通過卷積進行融合,最後經由殘差塊輸出。通過這種設計,MAC模塊能夠在不降低特徵圖分辨率的情況下顯著擴大感受野,實現對多尺度目標的全面感知。實驗結果表明,MAC模塊不僅有效提升了模型對微小及可變尺寸目標的捕捉能力,還通過增強局部對比度顯著抑制了複雜背景的干擾,大幅降低了漏檢率。

51c~視覺~紅外小目標檢測~合集1_紅外_03

3.2 動態高通濾波器(DHPF)

動態高通濾波器(DHPF)模塊是 HDNet 頻率域分支的核心組件,旨在解決現有頻率域方法依賴固定閾值或簡單卷積,難以適應紅外圖像中複雜多變的低頻背景這一問題。紅外圖像通常包含大面積緩慢變化的低頻背景(如雲層、路面)和稀疏的高頻目標細節。DHPF 不使用靜態濾波器,而是根據圖像內容的頻率能量分佈,動態地生成濾波掩膜,從而實現自適應的背景抑制。

具體而言,DHPF 的處理流程:首先利用空間域解碼器生成的預測圖  對原始紅外圖像  進行初步增強,公式為 ,以此凸顯目標區域並轉化為頻率特徵圖 ;接着,模塊計算頻率圖的總能量 ,並根據預設的能量去除比例 ,動態計算出一箇中心遮擋區域的半徑 。該半徑  需滿足被遮擋的低頻能量不超過總能量的  倍,即 。通過這種方式,模塊生成一個動態掩膜 ,將中心區域的低頻分量置為0,保留外部的高頻分量;最後經由逆快速傅里葉變換(iFFT)還原為空間特徵。

為了實現漸進式的背景抑制,HDNet 在頻率域分支的不同階段級聯了多個 DHPF 模塊。隨着網絡層級的加深,預設的能量去除比例  逐漸降低(例如從  遞減)。這一策略使得網絡能夠先濾除大部分粗糙的低頻背景,再逐步精細化地剔除殘留的低頻干擾,最終保留清晰的高頻目標信息。實驗證明,這種動態且分層的濾波機制能有效應對不同場景下的能量分佈差異,顯著增強小目標與背景的對比度。

51c~視覺~紅外小目標檢測~合集1_目標檢測_04

04 對比實驗結果

在三個公開數據集上的綜合實驗表明,HDNet 在多項關鍵指標上超越了現有的 26 種先進方法,尤其是在抑制虛警方面表現突出。其創新的 MAC 與 DHPF 模塊的有效性得到了充分驗證,顯著提升了模型對多尺度、低信噪比小目標的檢測能力與魯棒性。

51c~視覺~紅外小目標檢測~合集1_視覺_05

HDNet 在多個數據集上的關鍵指標顯著領先,在 NUAA-SIRST 數據集上實現了 100% 的目標檢出率,並在所有數據集上保持了最低的虛警率,驗證了其在複雜背景下準確檢測多尺度小目標的強大能力。

51c~視覺~紅外小目標檢測~合集1_視覺_06

在極具挑戰性的場景(如目標極小、形狀不規則、與背景相似或存在亮噪聲干擾)中,HDNet 生成的預測圖能最清晰地凸顯目標輪廓,幾乎無背景殘留,而其他先進方法則普遍存在明顯的漏檢或誤檢現象,直觀證明了其卓越的泛化性與魯棒性。

05 消融實驗結果

消融實驗系統性地驗證了HDNet中每個核心模塊的有效性與必要性。實驗表明,單獨的MAC模塊顯著提升了對多尺度小目標的感知能力,單獨的DHPF模塊有效抑制了低頻背景干擾;而當兩者結合構成完整HDNet時,各項性能指標達到最優。模塊內部的對比實驗進一步證實,多尺度空洞對比設計、動態漸進濾波策略以及尺度位置敏感損失函數均為提升模型整體性能的關鍵創新點。

51c~視覺~紅外小目標檢測~合集1_視覺_07

51c~視覺~紅外小目標檢測~合集1_視覺_08

51c~視覺~紅外小目標檢測~合集1_視覺_09

06 寫到最後

HDNet的完整代碼已在GitHub上開源(https://github.com/xumingzhu989/HDNet-TGRS),歡迎大家對比討論!


.....






























四、MSDA-Net

中科院×國防科技大學×南開大學提出MSDA-Net: 基於紅外小目標檢測的多尺度方向感知網絡

MSDA-Net 首次將高頻方向特徵作為領域先驗引入紅外小目標檢測網絡,通過促進多方向高頻響應有效增強弱小目標特徵並抑制雜亂背景干擾。該方法在多個公開數據集以及多種數據劃分設置下均取得了 SOTA。此外,MSDA-Net 在多幀和單點監督等不同應用任務上均表現出良好的魯棒性與泛化性。

論文題目:《Multi-Scale Direction-Aware Network for Infrared Small Target Detection》

作者:Jinmiao Zhao, Zelin Shi✉, Chuang Yu, Yunpeng Liu, Xinyi Ying and Yimian Dai

作者單位:中國科學院大學, 國防科技大學, 南開大學

論文鏈接:https://arxiv.org/abs/2406.02037

代碼鏈接:https://github.com/YuChuang1205/MSDA-Net

01 動機

紅外小目標檢測面臨着難以有效分離背景和目標的問題。現有的基於深度學習的方法側重於邊緣和形狀特徵,但忽略了更豐富的結構差異以及嵌入在不同方向的高頻分量中的細節信息,因此未能充分利用高頻方向特徵在目標感知中的價值。為了解決這一侷限性,作者提出了一個多尺度方向感知網絡(MSDA-Net)。

51c~視覺~紅外小目標檢測~合集1_紅外_10

02 概述

本文提出了一個多尺度方向感知網絡(MSDA-Net),首次將高頻方向特徵作為領域先驗引入紅外小目標檢測網絡。為充分挖掘這類特徵,該團隊設計了兩個關鍵模塊:其一是無參數的高頻方向注入(HFDI)模塊,用於將原始圖像的高頻方向信息直接嵌入特徵提取的早期階段;其二是多尺度方向感知(MSDA)模塊,用於促進不同尺度下局部關係的充分提取和不同方向上關鍵特徵的充分感知。此外,針對紅外小目標“尺寸小、信號弱”的固有難點,作者引入了特徵聚合(FA)結構,用於解決高層特徵圖中目標消失的問題,並構建了特徵校準融合(FCF)模塊,以緩解多層特徵融合過程中的像素偏移現象。

51c~視覺~紅外小目標檢測~合集1_目標檢測_11

03 模塊介紹


3.1 高頻方向注入(HFDI)模塊

紅外小目標檢測所需的大量關鍵信息,例如目標邊緣、形狀和紋理,都反映在圖像的高頻部分。為了在網絡初始階段充分突出小目標的細節信息並抑制背景雜波,作者提出了一個高頻數據注入(HFDI)模塊。值得注意的是,HFDI模塊是一個基於先驗知識的處理模塊,本身不涉及任何學習參數。在特徵提取的早期,為網絡注入來自原始圖像的多方向高頻信息,使潛在的小目標能夠被突出且背景雜波則被有效抑制。換句話説,該模塊從不同角度提供原始圖像中小目標的結構和位置信息,從而有助於網絡更好地理解圖像中的目標結構和背景環境。

51c~視覺~紅外小目標檢測~合集1_視覺_12

3.2 多方向特徵提取(MDFA)模塊

在特徵提取部分,為了使網絡能夠同時關注圖像尺度空間中的方向特徵和整體特徵,作者設計了一個多方向特徵提取(MDFA)模塊。該模塊在空間維度上關注高頻方向特徵和低頻整體特徵(零方向),從而使網絡能夠更加全面、準確地感知紅外小目標。具體來説,關注多方向的高頻信息有利於精細提取紅外小目標的結構和位置。

儘管圖像背景複雜,且存在亮度與目標相同甚至更高的區域,但大多數局部區域的背景雜波變化相對緩慢。因此,關注不同方向的高頻信息可以有效抑制背景雜波對小目標檢測任務的影響。從視覺系統的角度來看,這種結構模擬了對頻繁出現的一致響應的抑制以及對各方向特徵中出現的異常值的強調。關注低頻整體信息有助於突出圖像的整體特徵,從而提升網絡對整體特徵的提取能力。低頻信息包括圖像的整體結構和高層語義信息。通過關注低頻信息,網絡可以更好地理解整體特徵,從而聚焦於關鍵信息。從視覺系統的角度來看,這種結構模擬了視覺系統對整體場景的關注。

51c~視覺~紅外小目標檢測~合集1_紅外_13

3.3 多尺度方向感知(MSDA)模塊

考慮到在紅外圖像中,物體的温度差異會產生對比度差異,這對於目標的定位和識別至關重要。為了充分利用紅外圖像中局部區域之間的關係(包括對比度信息),併合理建模特徵圖各通道的重要程度,作者提出了MSDA模塊。該模塊包含三個子部分: MLRL 模塊、 MDFA 模塊和SE注意力模塊。

其中,MLRL 模塊是基於作者之前的研究MLCL-Net,ALCL-Net,其核心思想是通過多尺度卷積與空洞卷積的協同建模,有效捕獲不同尺度局部區域之間的關係。 

在此基礎上,為了進一步增強高頻方向特徵的提取和對多通道特徵圖的合理關注,在MLRL模塊之後引入了MDFA 模塊和SE注意力模塊。MDFA模塊通過聚焦方向敏感的高頻信息,引導網絡更準確地定位小目標區域,同時抑制噪聲與冗餘背景。同時,SE注意力模塊可以動態調整通道之間的權重,使網絡能夠專注於當前任務中更具價值的特徵,從而進一步提高網絡的檢測性能。綜上所述,MSDA模塊可以促進不同尺度下局部關係的充分提取和不同方向上關鍵特徵的充分感知。

51c~視覺~紅外小目標檢測~合集1_視覺_14

3.4 特徵校準融合(FCF)模塊

與一般目標分割任務不同,紅外小目標檢測任務中的目標尺寸較小,即使是微小的像素偏移也會對檢測性能產生顯著影響。在深度網絡中,圖像通常需要經過多輪下采樣與上採樣,這一過程容易導致目標位置在不同層級特徵圖中出現偏移,從而影響跨層特徵融合效果。為了解決這一問題,作者提出了一個輕量級的FCF模塊。其核心思想是在正式融合之前進行預融合。具體來説,該模塊使底層特徵引導高層特徵學習其局部區域內的相對偏移,從而實現跨層特徵的精細校準。

51c~視覺~紅外小目標檢測~合集1_目標檢測_15

04 消融實驗結果

在多個公開數據集上開展的消融實驗充分驗證了,所提出的各個模塊均能在紅外小目標檢測任務上帶來穩定的性能增益。

51c~視覺~紅外小目標檢測~合集1_視覺_16

51c~視覺~紅外小目標檢測~合集1_紅外_17

51c~視覺~紅外小目標檢測~合集1_紅外_18

05 對比實驗結果

在三個公開數據集的多種數據劃分方案下,研究團隊對MSDA-Net與多種先進的紅外小目標檢測方法進行了系統性對比。實驗結果顯示,無論面對何種場景,MSDA-Net均取得了顯著的性能優勢,展現出良好的穩健性與廣泛的適應能力。

51c~視覺~紅外小目標檢測~合集1_目標檢測_19

51c~視覺~紅外小目標檢測~合集1_目標檢測_20

51c~視覺~紅外小目標檢測~合集1_紅外_21

51c~視覺~紅外小目標檢測~合集1_目標檢測_22

06 應用


6.1 應用到多幀紅外小目標檢測任務

在實際部署場景中,紅外小目標通常出現在連續的視頻流或時間序列中。為了評估MSDA-Net在多幀條件下的時間一致性和持續檢測性能,作者將三階段的MSDA-Net集成到RFR框架中。RFR是一個近期提出的通用多幀檢測框架,該框架可以靈活地集成 SIRST 檢測網絡,並通過遞歸機制增強目標的時間感知和保持能力,從而實現多幀檢測。在IRSATVideo-LEO數據集上的實驗結果顯示,相較於其他方法,配備RFR框架的MSDA-Net在Pd指標上提升了0.87%~11.88%,在AUC指標上提升了1.81%~7.28%。

51c~視覺~紅外小目標檢測~合集1_視覺_23

6.2 應用到單點監督下的紅外小目標檢測任務

紅外小目標檢測在實際應用中普遍面臨像素級標註困難的問題。因此,研究單點監督下的紅外小目標檢測任務具有顯著的工程價值和研究意義。基於該動機,在該團隊的另一項工作中,他們將MSDA-Net嵌入到所提出的單點監督通用框架(https://github.com/YuChuang1205/PAL )中,以解決更具挑戰性的弱監督紅外小目標檢測任務。

PAL框架可以適配現有的全監督紅外小目標檢測網絡並將其直接應用到單點監督任務中。PAL框架通過漸進式學習策略,有效緩解弱監督場景中的監督缺失問題。在PAL框架下,MSDA-Net依舊展現出顯著的性能優勢,相比多種優秀的現有方法均取得更優檢測結果。上述結果説明,MSDA-Net 所引入的多尺度方向特徵建模與高頻方向增強機制不僅適用於全監督場景,更能夠在監督不足的條件下保持穩定的特徵表達能力與強魯棒性。

51c~視覺~紅外小目標檢測~合集1_視覺_24

07 寫在最後

MSDA-Net的完整代碼已在GitHub上開源(https://github.com/YuChuang1205/MSDA-Net),歡迎大家對比討論!

同時,也向大家推薦該團隊的另一項最新成果—《From Easy to Hard: Progressive Active Learning Framework for Infrared Small Target Detection with Single Point Supervision》。

這項工作(PAL框架)已被ICCV 2025正式錄用,相關代碼及完整的環境配置細節也已同步開放(https://github.com/YuChuang1205/PAL )。


....

































五、PAL

中科院×港中文×清華提出PAL Framework:搭建全監督與單點監督紅外小目標檢測間高效穩定的橋樑

伴隨着全監督紅外小目標檢測模型不斷升級,單點監督任務是否也能同步受益?受生物體逐步適應環境並持續積累知識的啓發,本文提出了一種漸進式主動學習(PAL)框架,其搭建了全監督與單點監督紅外小目標檢測間高效且穩定的橋樑,實現當更高性能的全監督模型被提出時,其性能優勢能夠自然傳遞至單點監督場景,從而實現性能的穩定提升。

  • 論文題目:From Easy to Hard: Progressive Active Learning Framework for Infrared Small Target Detection with Single Point Supervision
  • 作者:Chuang Yu, Jinmiao Zhao, Yunpeng Liu*, Sicheng Zhao, Yimian Dai, Xiangyu Yue*.
  • 作者單位:中國科學院大學, 香港中文大學,清華大學,南開大學
  • 論文鏈接https://arxiv.org/abs/2412.11154
  • 代碼鏈接https://github.com/YuChuang1205/PAL
01 動機

近年來,基於單點監督的單幀紅外小目標(SIRST)檢測引起了廣泛關注。然而,現有的單點監督標籤演化框架存在着性能不穩定標籤區域易演化過度以及難以發揮所嵌入網絡性能等問題。為了解決上述挑戰,作者希望能夠構建一個框架,該框架可以在全監督與單點監督任務間建立一個高效且穩定的橋樑。具體來説,該框架能夠兼容現有的全監督紅外小目標檢測網絡,並能將其穩定遷移至單點監督任務中且充分挖掘所嵌入網絡的潛在性能。當更高性能的全監督模型被提出時,其優勢能夠自然傳遞至單點監督場景,實現性能的穩定提升。

受生物逐漸適應環境、不斷積累知識的啓發,該團隊提出了一個想法:模型的學習過程是否也應當遵循“由簡到難”的認知規律?基於這一思考,該團隊認為,一個優秀的學習進程應該是由簡到難的,並考慮到當前學習者(模型)的學習能力,而不是直接平等對待所有任務(樣本)。為了將這一相對抽象的理念具體化,他們進一步借鑑了人類學習與成長的過程。以專業技能的習得為例,人的學習過程大致可以劃分為四個階段:嬰兒階段、學生(孩童)階段、畢業生階段以及專家階段。每一階段所具備的認知能力與學習重點均存在顯著差異。基於上述觀察,該團隊嘗試通過程序化建模的方式對這種學習過程進行模擬,從而構建更符合認知規律的單點監督學習框架。

51c~視覺~紅外小目標檢測~合集1_目標檢測_25

02 貢獻
  • 一個漸進式主動學習(Progressive Active Learning, PAL)框架被構建,其可以轉化現有的紅外小目標檢測網絡到單點監督任務上並驅動它們不斷主動認識並學習更困難樣本以實現性能的漸進式增強。
  • 為了避免早期的低性能模型導致對困難樣本的錯誤選擇,一個模型預啓動概念被提出。不同於現有方法直接利用所有點標籤進行訓練,其專注於在早期階段自動選擇部分簡單樣本去幫助模型具備基本的特定任務學習能力。
  • 不同於現有方法僅對模型進行標籤自演化,一個精細雙更新策略被提出,去促進更困難樣本的合理學習以及偽標籤的持續精細化。
  • 為了緩解標籤演化過度的風險,一個衰減因子被合理引入,去實現偽標籤中目標區域擴張與收縮的動態平衡。
  • 所提的PAL框架在全監督任務與單點監督任務之間構建了一個高效且穩定的橋樑,且在多個公開的單點監督數據集上均取得了顯著性能提升
03 方法

該研究團隊提出了一個漸進式主動學習(Progressive Active Learning, PAL)框架,其可以分為三個訓練階段、四種狀態以及兩個外部條件。具體來説,從訓練流程上看,PAL 框架可劃分為三個階段:模型預啓動階段、模型強化階段和模型精細化階段; 從模型能力演化角度看,其對應地刻畫了四種狀態:嬰兒、學生(孩童)、畢業生和專家; 此外,在不同階段中,框架還引入了兩種外部條件去分別對應“母親”與“老師”的引導作用,用以模擬外部知識與經驗在學習過程中的調控與促進。

51c~視覺~紅外小目標檢測~合集1_視覺_26

3.1. 抽象解讀PAL框架

模型預啓動階段(嬰兒模型與“母親”引導):在 PAL 框架中,初始模型被視為一個剛誕生的“嬰兒模型”。在這一階段,模型尚不具備有效的任務判別能力,因此需要強約束、低難度的外部引導。 在此過程中,“母親”角色承擔了基礎能力啓蒙的功能。與直接向模型灌輸高難度知識不同,該階段更強調從簡單樣本入手,逐步建立基礎認知能力。基於此,該研究團隊結合領域知識與已知信息,採用模型驅動的簡化策略與預設規則,對預備池中的樣本進行難度劃分:簡單樣本與困難樣本。 其中,簡單樣本被優先從預備池轉移至訓練池,並對初始模型進行全監督訓練。通過這一過程,模型能夠快速建立起對特定任務的基礎感知與判別能力。完成模型預啓動階段訓練後,模型將由“嬰兒狀態”進階為具備基礎的特定任務學習能力的“學生模型”。

模型強化階段(學生模型的主動學習與“老師”調控):進入模型強化階段後,“學生模型“已經具備基礎的特定任務學習和判別能力。在這一階段,預啓動後的模型被用來對預備池中的困難樣本進行推理評估,並結合預設規則,使模型能夠主動識別部分滿足當前學習能力的困難樣本,並將其逐步轉移到訓練池中參與後續學習。

隨着困難樣本的持續加入,模型在學習的過程中將會強化自身對困難樣本的認識和學習能力,且不會對簡單樣本進行災難性遺忘。 因此,通過合理設定循環程序可以讓模型自身隨着epoch的變化去逐漸地主動認識並學習更困難樣本。然而,僅依賴模型自身的主動學習,可能會導致少部分高難度樣本長期無法被納入訓練過程,從而影響模型在極端或複雜場景下的性能。為此,受啓發於老師在學生學習能力成長中的指導作用,PAL 框架進一步引入了“老師”角色,從而引入額外的超預期指導。

在學生持續學習的過程中,老師將能夠根據學生的學習進度適當加大待學習任務的難度係數,以促進學生能力快速提高以及待學習內容的按時完成。在這一機制下,隨着模型能力的持續提升,訓練過程中將逐步提高可進入訓練池樣本的難度閾值,以激發模型的學習潛力,並確保所有樣本最終均能夠被充分學習。另外,考慮到模型在持續學習過程中會不斷修正自身認知偏差,該階段還對訓練池中的偽標籤進行週期性更新,以進一步提升訓練穩定性與標籤質量。

模型精細化階段(畢業生模型邁向專家模型):完成模型強化階段後,模型可被視為具備系統性認知能力的“畢業生模型“。此時,模型已經掌握了任務所需的核心知識,並具備較強的判別與泛化能力。為了最終演化為能夠穩定應對複雜場景的“專家模型”,PAL 框架在最後階段引入了模型精細化訓練策略。該階段基於已學習的全部樣本,對訓練池中的偽標籤進行週期性更新與精細化學習,促使模型對不同難度樣本形成更加穩健、精確的表徵。

51c~視覺~紅外小目標檢測~合集1_紅外_27

3.2. PAL框架的實現細節

簡單樣本偽標籤生成(EPG)策略:綜合考慮檢測場景、成像特性以及目標屬性,紅外小目標通常呈現出尺寸小、亮度高,且與周圍環境缺乏強語義關聯等特點。在實際應用中,雖然部分目標區域可以通過模型驅動的方法進行檢測,但此類方法往往魯棒性有限,且容易引入誤檢,難以作為穩定的訓練依據。為此,該團隊在模型預啓動階段設計了一種 EPG 策略,其用於實現對簡單樣本的有效篩選以及對應精細偽標籤生成。

相比於直接處理整幅圖像,圍繞目標區域提取局部圖像塊將更有助於降低複雜背景帶來的干擾。基於這一考慮,研究中以訓練集給定的點標籤作為中心,截取包含目標的局部圖像塊,用於後續處理與分析。

在此基礎上,為篩選簡單樣本並優化對應偽標籤,EPG 策略充分利用給定的點標籤和分割結果。具體而言,首先通過給定點標籤評估分割結果中的連通區域:若連通區域被點標籤擊中且面積小於設定閾值,則判定為真實目標區域;不符合條件的連通區域則視為誤檢區域並予以剔除。隨後,引入目標級召回率作為判據:當召回率不低於 0.8 時,該樣本被判定為簡單樣本;否則,則歸為難樣本。

最後,將簡單樣本的每個分割圖像塊與原始圖像尺寸的純黑色背景疊加生成偽標籤,並將給定點標籤添加至偽標籤中以標註漏檢目標,從而生成相對精細的偽標籤。通過上述 EPG 策略,部分簡單樣本被自動選取並用於模型的初始全監督訓練,為後續漸進式學習過程奠定穩定基礎。

51c~視覺~紅外小目標檢測~合集1_目標檢測_28

精細雙更新策略:在弱監督學習過程中,偽標籤的質量對最終模型性能具有決定性影響。不同於現有方法對所有點標籤直接進行統一迭代更新,該研究團隊提出了一種精細雙更新策略以提升生成偽標籤的可靠性與穩定性。該策略包含粗糙外更新(COU)和精細內更新(FIU):

   1)粗糙外更新(COU):基於預啓動階段獲得的基礎 SIRST 檢測能力,作者將模型對預備池中剩餘的困難樣本進行推理評估,並依據預設的選擇規則,篩選符合選擇規則的簡單樣本納入訓練池。在具體實現上,COU 策略由三個核心步驟構成:識別簡單樣本、剔除錯誤目標、補充遺漏目標。具體如下: 首先,需要確定當前模型在預備池(困難樣本)中能夠識別的“簡單樣本”:

其次,針對已篩選出的候選簡單樣本,自動執行虛假目標消除過程。在該過程中,所有與任何給定點標籤不存在空間交集的預測目標區域均會被將被直接移除,從而進一步提升引入偽標籤的可靠性:

最後,通過整合給定的標註點標籤,以補充可能遺漏的目標區域,從而確保後續學習過程對小目標的有效檢測。此外,考慮到模型在學習困難樣本後將具備更強的認知與學習能力,該框架在模型增強階段週期執行COU,以實現持續優化。這一機制促使模型逐步、主動地識別並學習更高難度的樣本,同時有效避免對已學習簡單樣本的災難性遺忘。

51c~視覺~紅外小目標檢測~合集1_視覺_29

   2)精細內更新(FIU):無論是模型預啓動階段進入訓練池的簡單樣本,還是模型增強階段持續加入的困難樣本,它們最初生成的偽標籤都需要進行優化。為解決這一問題,該團隊構建了FIU策略,用於對訓練池中的偽標籤進行精細化。具體而言,FIU 策略由三個步驟構成:候選區域提取、虛假區域剔除及偽標籤更新。具體如下:

對於候選區域提取,首先獲取第n次迭代偽標籤的二值標籤。基於該標籤,提取偽標籤中每個目標連通區域的質心,並裁剪偽標籤中對應的d×d局部區域及預測結果。最後,為突出目標區域並減少累積誤差,該框架採用自適應閾值法從預測結果中提取局部候選區域:

對於虛假區域消除,通過利用偽標籤中目標區域的質心來檢查與候選區域的交集。若某一候選區域與任一真實目標質心不存在空間交集,則該區域將被判定為虛假候選並予以剔除。

對於偽標籤更新過程,首先存儲所有精細候選區域的位置,隨後採用最大值融合策略對這些區域進行組合,形成完整的候選目標區域,最後完成偽標籤的更新。

其中為衰退因子。 隨着模型能力的提升和各類約束條件的優化,目標標註區域的演化在擴張與收縮之間實現了動態平衡,並生成了更精細的偽標籤。

51c~視覺~紅外小目標檢測~合集1_視覺_30

EEDM損失函數:在 SIRST 檢測任務中,由於紅外小目標通常缺乏顯著的固有特徵,目標區域的精確定位始終面臨較大挑戰。針對這一問題,該研究團隊在訓練過程中引入了一個邊緣增強困難像素挖掘(EEDM)損失函數 ( https://github.com/YuChuang1205/FEST-Framework),以對網絡優化過程進行有效約束。該損失函數能夠有效地引導網絡在訓練過程中更加關注邊緣特徵和具有挑戰性的目標區域,從而增強模型的邊界感知能力,並提高其從具有挑戰性的樣本中學習的能力。一方面, EEDM 損失通過為目標邊界區域分配更高權重,利用邊緣信息作為額外約束,從而增強模型對目標邊界的敏感度。另一方面,它通過困難像素挖掘動態丟棄一定比例的簡單樣本,使網絡能夠更多地關注具有挑戰性的區域,促進網絡學習更具區分性的特徵。

51c~視覺~紅外小目標檢測~合集1_目標檢測_31

更多的PAL實現細節,歡迎大家查看原文https://github.com/YuChuang1205/PAL

04 實驗結果

在 SIRST3 數據集上的實驗:在實驗驗證方面,該研究團隊在多場景、多目標類型的 SIRST3 數據集(混合NUAA-SIRST,NUDT-SIRST,IRSTD-1K)上對所提出的方法進行了系統評估。基於綜合測試集SIRST3-Test的實驗結果表明,相比於LESPS框架,使用PAL框架在IoU上可提升9.68%-24.04%、nIoU上提升14.53%-31.06%、Pd上提升1.99%-12.03%。另外,相比於全監督任務,PAL框架在IoU上基本能夠達到其79.33%-86.94%, 在nIoU上能夠達到其81.72%-90.30% ,以及在Pd有着相當的性能。更多,通過觀察在三個分解的測試子集上分別測試的結果,所提出的 PAL 框架在各測試場景下均表現出穩定且優越的性能,並與全監督方法的性能趨勢高度一致。

51c~視覺~紅外小目標檢測~合集1_視覺_32

51c~視覺~紅外小目標檢測~合集1_視覺_33

在三個獨立數據集上的實驗:為進一步驗證PAL 框架在訓練樣本數量受限條件下的穩定性,該研究團隊在三個不同數據集上分別開展了獨立的訓練與測試實驗。實驗結果表明,在少樣本場景下,PAL 框架在檢測性能上顯著優於 LESPS 框架,同時表現出更為穩定的訓練與推理特性。綜合分析可見,即使在訓練樣本極為有限的情況下,PAL 框架仍能夠有效完成單點監督下的紅外小目標檢測任務。進一步的定量結果顯示,與 LESPS 框架相比,PAL 框架在 IoU 指標上提升了 7.41%–57.28% ,在 nIoU 上提升了 8.36%–62.37% ,在 Pd 上提升了 0.76%–70.72% 。

51c~視覺~紅外小目標檢測~合集1_紅外_34

消融實驗:該工作開展了系統且充分的消融實驗,包括Break-Down、衰退因子、Epoch劃分、損失函數、更新週期、學習率、漏檢率閾值等等。詳細請查看ICCV2025錄用版本的正文以及補充材料。

討論“從簡單到困難”的學習策略:為了進一步探究PAL 框架中“從簡單到困難”的學習策略,詳細的實驗被執行。從下表中的 S1 - S6,無論是否加入 FIU(精細內更新),初始階段所有樣本進入訓練池生成的最終模型均遠差於初始階段僅使用簡單樣本。這現象驗證了所提出的“模型預啓動”思想(即在初始階段僅學習簡單樣本)的有效性。其就像嬰兒應先進行發音練習,而不是被強迫學習“量子力學”一樣。 此外,通過觀察下表中的 S4 和 S7可以發現,相較於只使用簡單樣本,基於當前模型能力逐步將困難樣本引入訓練池,能夠再次帶來顯著的性能提升。 這進一步驗證了“從簡單到困難”學習思想的有效性。

51c~視覺~紅外小目標檢測~合集1_目標檢測_35

05 寫在最後

感謝大家讀到這裏!PAL框架的完整代碼已在 GitHub 上開源 (https://github.com/YuChuang1205/PAL )。該項目代碼完整,上手方便,訓練資源消耗少(單GPU),歡迎大家對比討論!

最後,向大家推薦該團隊最新的另一項針對全監督紅外小目標檢測任務的通用檢測框架--FDEP框架 (https://arxiv.org/abs/2512.05511) 。該工作首次將視覺基礎模型(VFMs)系統性地引入到紅外小目標檢測任務並提出了一個FDEP通用框架,其能無縫適配現有基於編碼器–解碼器架構的SIRST檢測網絡,並在不引入額外推理開銷的同時實現檢測精度的顯著提升。詳細請查看論文:Rethinking Infrared Small Target Detection: A Foundation-Driven Efficient Paradigm【https://arxiv.org/abs/2512.05511


...




























六、xxx



....
























六、GSFANet

浙大提出GSFANet:融合空間與頻率注意力,提升紅外小目標檢測精度

  • 論文標題: GSFANet: Global Spatial–Frequency Attention Network for Infrared Small Target Detection
  • 作者: Chuiyi Deng, Zhuoyi Zhao, Xiang Xu, Yixin Xia, Junwei Li, Antonio Plaza
  • 機構: 浙江大學,電子科技大學,西班牙埃斯特雷馬杜拉大學
  • 論文地址: https://ieeexplore.ieee.org/abstract/document/11133697
  • 代碼倉庫: https://github.com/dengfa02/GSFANet_IRSTD
  • 錄用期刊: IEEE Transactions on Geoscience and Remote Sensing (TGRS) 2025

前言

大家好!今天想和大家聊一篇關於紅外小目標檢測(Infrared Small Target Detection, IRSTD)的新工作。在自動駕駛、海上搜救、精確制導等領域,精準地從複雜的紅外圖像中“揪出”那些又小又暗的目標,一直是個棘手的難題。傳統方法往往只在空間域上做文章,但當目標和背景噪聲長得很像時,就很容易“看走眼”。

最近,來自浙江大學等機構的研究者們另闢蹊徑,從頻率域的視角出發,提出了一種名為GSFANet的全新網絡架構。這篇發表在TGRS 2025上的論文,通過巧妙地融合空間和頻率信息,不僅顯著提升了檢測精度,還在多個基準數據集上達到了新的SOTA水平。

研究動機:為什麼要在頻域做文章?

我們知道,單幀紅外圖像提供的信息非常有限。目標小、信噪比低,而且形狀模糊,這些都給檢測帶來了巨大挑戰。以往的方法大多致力於在空間維度上設計更復雜的網絡來區分目標和噪聲,但效果總有瓶頸。

作者敏鋭地發現,目標和噪聲在空間域上可能看起來差不多,但在頻率域上卻可能“判若兩人”。

通過上圖的統計分析可以看到,目標T1、T2與噪聲N在空間域的分佈差異極小(Jensen-Shannon散度很低),但在頻域中,它們的分佈差異被顯著放大了(平均增益達到4.63倍)。這就像給了我們一副“火眼金睛”,能夠從一個全新的維度來識別目標。理論上,小波變換(Wavelet Transform, WT)可以看作是在多個尺度和方向上存儲空間對比度信息,這使得它在頻域中搜尋目標變得更直接、更高效。

基於這一洞察,作者認為,將空間學習和頻率分析結合起來,可以更魯棒地解決IRSTD難題。GSFANet的核心思想便是在此基礎上構建一個聯合學習框架。

GSFANet:模型架構全解析

GSFANet的整體架構如下圖所示,是一個精心設計的編碼器-解碼器結構。它通過一個頻率下采樣編碼過程和一個自適應頻率融合解碼過程,實現了空間與頻率的聯合學習。

整個網絡主要由三大核心模塊和一大損失函數組成:

參數化小波下采樣(PWD)

在深度網絡中,下采樣是提取多尺度特徵的關鍵步驟。但傳統的最大池化或步進卷積等方法,在處理紅外小目標時,很容易丟失關鍵的細節信息,導致目標特徵“支離破碎”。

為了解決這個問題,作者設計了參數化小波下采樣(Parametric Wavelet Downsampling, PWD)模塊。

PWD模塊非常巧妙,它包含兩條分支:一條是固定的哈爾小波變換(Haar WT)分支,用於提供可解釋的頻域分解;另一條是分組卷積分支,模擬小波引導的局部對比度,並補充空間細節。兩條分支的輸出通過通道注意力進行自適應融合。這種設計使得網絡能夠在下采樣過程中,以一種可學習的方式調整目標的分解頻率,既保留了頻域的判別性,又補充了空間細節,防止了特徵的丟失。

分層門控核注意力(HGKA)

為了在網絡的不同層級之間有效地融合頻率和語義信息,作者提出了分層門控核注意力(Hierarchical Gated Kernel Attention, HGKA)模塊。

HGKA模塊是GSFANet的交互核心,它包含兩個子組件:

  • 跨通道核注意力 (Cross-Channel Kernel Attention, C2K): 傳統的注意力機制計算量大,且線性點積操作難以捕捉高維非線性關係。C2K創新地引入了高斯核函數來代替點積運算。高斯核能夠隱式地將特徵映射到無窮維空間,極大地增強了特徵的可辨別性,同時計算上更高效。它通過計算特徵向量之間的距離來衡量相似性,這與紅外小目標通常呈現高斯狀分佈的特性天然契合。
  • 跨空間門控注意力 (Cross-Spatial Gate Attention, CSG): 為了確保深層網絡提取的強語義信息能夠準確地傳遞到淺層,指導淺層特徵聚焦於目標區域,CSG設計了一種全局門控機制。它為所有層級生成一個統一的空間注意力門,強制網絡在不同尺度上關注共同的目標區域,從而保證了小目標語義的全局一致性。

如上圖所示,加入全局一致的空間注意力後(第一行),深層語義(E2)能夠被有效傳播到淺層特徵(F0),使得網絡在各個尺度上都能準確聚焦目標。

自適應頻率解耦融合(AdaFD)

在解碼階段,如何將編碼器提取的空間-頻率混合特徵有效地還原成最終的分割圖,是另一個關鍵。傳統的固定逆小波變換顯然無法充分利用豐富的頻率信息。

為此,作者設計了自適應頻率解耦融合(Adaptive Frequency-Decoupled Fusion, AdaFD)模塊。

AdaFD模塊將特徵解碼過程看作一個可學習的濾波器生成任務。它能夠根據高分辨率特徵的頻率重要性,動態地生成自適應的高通和低通濾波器。高通濾波器用於鋭化淺層特徵中的目標細節和邊界,而低通濾波器則用於從深層特徵中提取精確的目標語義。這種動態調整截止頻率和過渡帶寬的能力,使得模型能更好地適應不同場景下小目標的頻率特性,實現了對目標細節和全局語義的兼顧。

自適應焦點損失(AdaFL)

IRSTD任務中存在嚴重的樣本不平衡問題,尤其是大、小目標對損失的貢獻差異巨大。現有的SoftIoU Loss等方法在這種情況下存在梯度更新不平衡和訓練後期震盪的問題。

作者為此提出了自適應焦點損失(Adaptive Focal Loss, AdaFL)。該損失函數巧妙地將IoU引入Focal Loss的調製因子中,其形式如下:

其中,是一個根據批次內目標尺寸自適應調整的縮放因子。

從上圖的分析可以看出,AdaFL能夠:

  1. 自動平衡不同尺寸目標的損失貢獻,小目標獲得更大的損失權重。
  2. 根據訓練階段(由IoU反映)動態調整梯度,訓練初期IoU較低時,梯度較大促進收斂;後期IoU較高時,梯度平滑減小,保證訓練穩定。

實驗結果:性能卓越,效果顯著

作者在SIRST、NUDT-SIRST和IRSTD-1k三個公開數據集上進行了詳盡的實驗,並將GSFANet與多種SOTA方法進行了比較。

定量分析

從上表的主要結果可以看出,GSFANet在各項關鍵指標上(IoU, F1, Pd, Fa)都取得了全面的領先,尤其是在SIRST和NUDT-SIRST數據集上,性能優勢明顯。這證明了其在區分目標與噪聲以及精確提取目標形狀方面的強大能力。

在模型複雜度方面,GSFANet在參數量(Params)和計算量(FLOPs)上都保持了較低的水平,同時推理速度(FPS)也滿足實時性要求,展現了優異的性能和效率的平衡。

ROC曲線進一步證實了GSFANet的優越性,在三個數據集上,它的曲線都最接近左上角,表明在所有閾值下都具有最高的真陽性率和最低的假陽性率。

定性分析

話不多説,直接看圖。

上圖展示了在各種複雜場景下的檢測結果。無論是面對密集目標(a)、強噪聲干擾(b, d, g),還是需要精確分割輪廓的大目標(c, e, f),GSFANet都表現出了驚人的魯棒性和準確性。許多其他方法會產生的漏檢和虛警,GSFANet都能成功避免。

通過3D顯著性圖對比可以更直觀地看到,GSFANet生成的響應熱圖(d)中,目標的峯值響應遠高於噪聲,背景抑制得非常乾淨,而其他方法(b, c)則容易將噪聲誤判為目標。

寫在最後

GSFANet通過引入頻率域的視角,為紅外小目標檢測問題提供了一個全新的、高效的解決方案。它巧妙地設計了PWD、HGKA和AdaFD等模塊,實現了空間信息和頻率信息的深度融合與協同工作,並輔以AdaFL損失函數穩定訓練過程。大量的實驗證明,這種聯合學習框架能夠顯著放大目標與噪聲的差異,在複雜背景下實現更準確、更魯棒的檢測。


.....





















七、L-RPCANet

輕量、魯棒、可解釋,紅外小目標檢測迎來新框架

紅外小目標檢測(Infrared Small Target Detection, ISTD)是國防安全、自動駕駛和遙感等領域的關鍵技術。近年來,深度展開網絡(Deep Unfolding Networks, DUNs)因其巧妙地將傳統優化算法(如魯棒主成分分析RPCA)的“白盒”可解釋性與深度學習的“黑盒”強大擬合能力相結合,在ISTD任務中展現出巨大潛力。然而,現有的DUNs方法普遍面臨兩大挑戰:模型參數量大,難以在資源受限的設備上實時運行;對複雜噪聲的魯棒性不足,容易產生虛警和漏檢。

為了應對這些挑戰,來自上海大學和中山大學的研究者們提出了一種名為 L-RPCANet 的新型框架。該框架基於RPCA,通過引入分層瓶頸結構降噪模塊通道注意力機制,成功地在保持高檢測性能的同時,實現了模型的極致輕量化和強大的噪聲魯棒性。實驗表明,L-RPCANet在性能、參數量和推理速度的綜合考量上,全面優於RPCANet、DRPCANet等現有先進方法。

  • 論文標題: Lightweight Deep Unfolding Networks with Enhanced Robustness for Infrared Small Target Detection
  • 作者: Jingjing Liu, Yinchao Han, Xianchao Xiu, Jianhua Zhang, Wanquan Liu
  • 機構: 上海大學、中山大學
  • 論文地址: https://arxiv.org/abs/2509.08205
  • 項目地址: https://github.com/xianchaoxiu/L-RPCANet

研究背景與意義

紅外圖像中的小目標通常像素數量極少、信噪比低、缺乏紋理信息,使得檢測極為困難。傳統方法(如IPI、MPCM)雖然有一定效果,但泛化能力和魯棒性差。純數據驅動的深度學習方法(如AGPCNet、UIUNet)雖然性能強大,但通常是“黑盒”模型,可解釋性差,且需要大量數據,模型也較為龐大。

深度展開網絡(DUNs)作為一種模型-數據混合驅動的方法,為解決這一問題提供了新思路。它將一個經典的迭代優化算法(如RPCA)的每一步“展開”成一個神經網絡的一層,從而使得整個網絡既有傳統方法的物理解釋性,又能通過數據學習來自適應地調整參數。例如,RPCANet [15] 就是將RPCA的優化過程展開成一個深度網絡。然而,這些方法仍未能在輕量化魯棒性這兩個關鍵指標上取得理想的平衡。

xxx認為,在許多實際應用場景,尤其是在無人機、便攜式光電吊艙等邊緣計算平台上,對ISTD算法的輕量化和魯棒性要求極為苛刻。L-RPCANet正是瞄準了這一痛點,其研究具有非常重要的現實意義。

L-RPCANet:輕量化與魯棒性的協同設計

L-RPCANet的整體思想是,在RPCA的展開框架內,通過精巧的網絡結構設計,實現參數量的大幅削減和抗噪聲能力的顯著增強。

整體架構

如下圖所示,L-RPCANet由K個級聯的階段(Stage)組成,每個階段都模擬了RPCA的一次迭代過程,旨在將輸入的紅外圖像 D 分解為背景 B、目標 T 和噪聲 N。每個階段內部包含四個核心模塊:

  1. 帶SENet的背景估計模塊 (SEBEM)
  2. 帶SENet的目標提取模塊 (SETEM)
  3. 帶SENet的噪聲抑制模塊 (SENRM)
  4. 帶SENet的圖像重建模塊 (SEIRM)

51c~視覺~紅外小目標檢測~合集1_紅外_36

核心創新點

  1. 分層瓶頸結構 (Hierarchical Bottleneck Structure)這是實現輕量化的關鍵。對於單通道的紅外輸入圖像,傳統的DUNs在處理時通道數較多。L-RPCANet在每個模塊(如SEBEM)內部設計了“壓縮-擴展”的瓶頸層。具體來説,它首先通過卷積將單通道特徵圖的通道數增加到一個較小的中間維度(例如BC=4),在這些低維度的特徵空間中進行核心的特徵提取,然後再恢復到所需的通道數。這種設計極大地減少了特徵提取過程中的計算量和參數量。
  2. 降噪模塊 (Noise Reduction Module)與以往的RPCA框架不同,L-RPCANet顯式地引入了一個噪聲項N,並設計了專門的SENRM模塊來學習和抑制噪聲。這使得模型能夠更好地處理真實世界中複雜的、非高斯分佈的噪聲,從而增強了模型的魯棒性。
  3. Squeeze-and-Excitation (SE) 注意力機制作者將輕量級的通道注意力機制SENet集成到上述的每一個模塊中。SENet能夠自適應地學習不同特徵通道的重要性,並對它們進行重新加權——即“擠壓(Squeeze)”全局空間信息,“激勵(Excitation)”有用的通道特徵。這使得模型能夠更關注於對小目標檢測和背景抑制有益的特徵,同時抑制無關或噪聲特徵,在幾乎不增加計算成本的情況下提升性能。

實驗結果與分析

作者在NUDT-SIRST、SIRST-Aug和IRSTD-1k三個公開數據集上進行了廣泛的實驗,驗證了L-RPCANet的有效性。

性能、參數與速度的權衡

下圖的“氣泡圖”非常直觀地展示了L-RPCANet的核心優勢。圖中,氣泡大小代表模型參數量,橫軸是GPU推理時間,縱軸是檢測性能(mIoU)。可以看到,L-RPCANet的氣泡最小(參數量僅 0.216M),推理時間最短(約 0.0052s),同時mIoU達到了最高水平(64.68%)。這表明L-RPCANet在性能、輕量化和效率之間取得了最佳的平衡。

51c~視覺~紅外小目標檢測~合集1_目標檢測_37

定量性能對比

從下表的詳細數據可以看出,L-RPCANet在三個數據集上的mIoU、F1-score、檢測概率(Pd)和虛警率(Fa)等關鍵指標上,全面超越或持平於包括RPCANet、DRPCANet、RPCANet++在內的所有基線模型。

51c~視覺~紅外小目標檢測~合集1_視覺_38

在ROC曲線下面積(AUC)這一衡量模型跨域魯棒性的指標上,L-RPCANet同樣表現出色,在絕大多數數據集上都保持了很高的AUC值。

51c~視覺~紅外小目標檢測~合集1_紅外_39

噪聲魯棒性驗證

為了驗證模型的魯棒性,作者在測試圖像中加入了不同強度的高斯噪聲。如下圖所示,隨着噪聲方差的增加,所有模型的性能都出現下降,但L-RPCANet的性能下降曲線最為平緩,展現出最強的抗噪聲干擾能力。

51c~視覺~紅外小目標檢測~合集1_紅外_40

定性結果可視化

下圖展示了在不同數據集上的可視化檢測結果。其中藍色、黃色和紅色框分別代表真陽性(正確檢測)、假陽性(虛警)和假陰性(漏檢)。可以清晰地看到,相比其他方法,L-RPCANet能夠更準確地檢測出小目標,同時具有更低的虛警和漏檢。

51c~視覺~紅外小目標檢測~合集1_目標檢測_41

51c~視覺~紅外小目標檢測~合集1_視覺_42

51c~視覺~紅外小目標檢測~合集1_視覺_43

論文貢獻與價值

本文的主要貢獻可以概括為:

  1. 提出L-RPCANet框架:設計了一個新穎的、基於深度展開的紅外小目標檢測框架,該框架在模型可解釋性的基礎上,實現了極高的輕量化和魯棒性。
  2. 創新的輕量化結構:通過分層瓶頸結構,有效減少了網絡參數和計算量,為在資源受限設備上部署高性能ISTD算法提供了可行方案。
  3. 增強的魯棒性設計:通過顯式地引入降噪模塊和利用通道注意力機制,顯著提升了模型在複雜背景和噪聲干擾下的檢測性能。
  4. SOTA的性能:在多個公開數據集上,以遠小於同類方法的參數量,取得了當前最先進的檢測性能,為ISTD領域設立了新的性能標杆。

總而言之,L-RPCANet為紅外小目標檢測領域提供了一個優雅且高效的解決方案,它在模型的可解釋性、輕量化、魯棒性和高性能之間取得了出色的平衡,對該技術的工程化和產品化落地具有重要推動作用。


....























八、xxx



....