打開手機的人像模式拍攝照片,背景被自然虛化;醫院裏,CT影像中的腫瘤區域被精準標記;自動駕駛汽車實時識別道路、行人與障礙物——這些場景背後,都離不開計算機視覺領域的核心技術:圖像分割。作為連接"圖像感知"與"語義理解"的關鍵橋樑,圖像分割實現了從"看到像素"到"看懂內容"的跨越,其技術演進更是人工智能發展的生動縮影。本文將帶你全面梳理圖像分割技術的發展脈絡,解析核心算法原理,並探討其在實際場景中的應用價值。

一、核心認知:什麼是圖像分割?

圖像分割本質上是一項像素級的細粒度分類任務,核心目標是根據像素的特徵差異(如灰度、顏色、紋理等),將圖像分解為多個具有語義意義的獨立區域,每個區域對應現實世界中的特定物體或場景部件。與圖像分類(僅判斷整體類別)、目標檢測(僅定位目標邊界框)不同,圖像分割需要精準到每一個像素的歸屬判斷,這也是其技術難度與價值所在。

根據任務目標的不同,圖像分割主要分為三大類,覆蓋從基礎到複雜的視覺理解需求:

分割類型

核心目標

典型場景

語義分割

為每個像素標註類別(如"人""車""道路")

自動駕駛環境感知、遙感地物分類

實例分割

在語義分割基礎上區分同類個體(如不同行人)

智能監控、工業零件計數

全景分割

融合前兩者,同時處理"背景類"與"實例類"

城市安防監控、無人機場景建模

二、技術演進:從手工特徵到智能學習

圖像分割技術的發展大致經歷了三個階段:2000年前的"傳統算法主導階段"、2000-2010年的"圖論與聚類過渡階段",以及2010年後的"深度學習革新階段"。傳統算法依賴人工設計特徵,過渡階段通過圖論(如GrabCut)、聚類改進(如SLIC)探索特徵表達,而深度學習通過數據驅動自動學習層次化特徵,實現了精度與魯棒性的質的飛躍。其中深度學習革新階段可進一步細分為:2010-2015年初期探索階段(如FCN、U-Net)、2016-2020年成熟階段(如DeepLab v3+、HRNet)和2021年至今的前沿階段(如SAM系列、YOLOv9-Seg)。

1. 傳統算法:基於底層特徵的分割探索

傳統算法誕生於深度學習普及之前,核心邏輯是利用圖像的底層視覺特徵構建分割規則,雖無需大規模數據訓練,但在複雜場景下表現受限。主流方法可分為四類:

  • 閾值分割:通過設定灰度閾值區分前景與背景,是最基礎的分割方法。其中Otsu算法可自動計算最優閾值,使前景與背景的類間方差最大,適用於細胞顯微圖像、文檔掃描等灰度分佈簡單的場景;而局部閾值法則針對光照不均圖像分塊設定閾值,提升了航拍圖像等複雜場景的適應性。其侷限性在於僅依賴灰度特徵,無法處理紋理豐富、顏色相近的目標。
  • 邊緣檢測與輪廓分割:利用像素灰度突變的特性定位邊緣,再通過邊緣連接形成目標輪廓。Canny算子因"低誤檢率、高定位精度"成為經典,廣泛應用於工業零件邊緣提取、交通標誌輪廓分割,但易受噪聲干擾,難以處理模糊邊緣。
  • 區域生長與分裂合併:區域生長從種子像素出發,逐步合併相似特徵的相鄰像素,在醫學影像的器官分割中效果顯著;區域分裂合併則先將圖像劃分為小區域,再根據特徵一致性調整,平衡了分割精度與效率,但結果易受種子點選擇影響。
  • 聚類分割:將像素視為高維特徵樣本,通過K-means等算法聚類分組。在彩色圖像分割中,可基於RGB顏色空間距離實現區域劃分,但未充分利用空間上下文信息,易陷入局部最優。

2. 深度學習算法:開啓像素級智能分割時代

2015年以來,深度學習技術的爆發徹底打破了傳統算法的瓶頸。基於卷積神經網絡(CNN)的端到端訓練模式,能夠自動學習圖像的層次化特徵,在複雜場景下實現高精度分割。以下是推動技術落地的核心算法:

(1)FCN:語義分割的"開山之作"

全卷積網絡(FCN)的出現標誌着深度學習進入圖像分割領域,開創了端到端像素級預測的先河。其核心創新在於將傳統CNN的全連接層替換為卷積層,使網絡可接受任意尺寸輸入,並通過轉置卷積(反捲積)將低分辨率特徵圖上採樣至輸入尺寸,實現像素級預測。為解決下采樣導致的細節丟失問題,FCN引入跳躍連接(Skip Connection),通過FCN-8s等改進版本融合深層語義特徵(全局信息)與淺層細節特徵(局部信息),奠定了現代分割網絡的基本框架。但FCN仍存在小目標分割效果差、邊界精度有限的侷限性。

(2)U-Net:醫學影像分割的"標配模型"

針對醫學影像數據稀缺的問題,U-Net採用對稱的"編碼器-解碼器"結構,形似字母"U"而得名。其對輸入圖像尺寸存在一定限制,根源在於池化操作導致的固定分辨率要求。編碼器通過卷積與池化下采樣提取語義特徵,解碼器通過轉置卷積上採樣恢復空間分辨率,中間通過密集跳躍連接融合同尺度的編碼特徵與解碼特徵,最大限度保留細節信息。其參數量約28M,在30-50 FPS的推理速度下,在細胞分割、器官分割等醫學場景表現出色,如在ISIC皮膚病變數據集上Dice係數達93.16%,衍生出U-Net++、U-Net3+等改進版本進一步提升特徵重用能力。但U-Net無法直接處理多模態數據,這一侷限需通過後續模型改進彌補。

(3)DeepLab系列:工業級語義分割解決方案

DeepLab系列通過三大核心技術提升分割性能,成為高精度語義分割的標杆:一是空洞卷積(Atrous Convolution),在不增加參數量的前提下擴大感受野;二是ASPP(空洞空間金字塔池化)模塊,通過多膨脹率空洞卷積並行提取多尺度特徵;三是結合CRF(條件隨機場)優化邊界精度。2018年推出的DeepLab v3+新增解碼器模塊融合高低分辨率特徵,原始版本參數量達54.6M,推理速度10-15 FPS,在Cityscapes數據集表現優異。改進版M-DeepLab通過結構優化將參數量降至8M,同時降低16倍通信數據量,更適配邊緣設備。該系列在自動駕駛、城市安防等工業場景應用廣泛。

(4)Mask R-CNN:實例分割的里程碑

Mask R-CNN在Faster R-CNN目標檢測框架基礎上,新增掩碼(Mask)預測分支,實現"檢測+分割"端到端完成。其核心突破是採用RoI Align替代傳統RoI Pooling,解決了目標對齊的精度損失問題,使實例邊界更精細。該算法不僅能區分"人""車"等類別,還能精準分割同一類別中的不同個體,廣泛應用於行人計數、工業零件缺陷檢測等場景。

(5)Segment Anything(SAM)系列:通用分割的里程碑演進

Meta開源的Segment Anything Model(SAM)系列,標誌着圖像分割進入“通用化、可交互”時代,從SAM1到SAM3的迭代持續突破技術邊界。SAM1作為2023年推出的開山之作,核心創新在於“可提示交互分割”模式,支持點、框、文本等多種提示方式,通過在1100萬張圖像、140億個掩碼上預訓練,實現了對未見過物體的零樣本分割能力,模型參數量達6.3B,成為通用分割領域的基準模型。

SAM2重點強化了視頻分割能力與實時性,引入幀間特徵記憶機制,可高效追蹤動態目標並保持分割一致性,推理速度較SAM1提升3倍,在無人機巡檢、視頻編輯等動態場景中表現突出。2025年發佈的SAM3則實現了從"物體分割"到"概念分割"的跨越,通過可提示概念分割功能,能響應"紅色條紋傘""手持書籍的人"等精細描述,甚至支持通過示例圖像分割同類物體。在LVIS數據集零樣本分割任務中,SAM3準確率達47.0,遠超此前SOTA的38.5,單張H200 GPU上處理含100個物體的圖像僅需30毫秒。作為SAM的輕量化替代方案,FastSAM通過"全實例分割+提示引導選擇"策略,推理速度提升50倍,但小目標分割存在過分割問題,部分數據集IoU比SAM低18.83%,掩碼質量仍有差距。同期推出的SAM3D系列更將能力延伸至3D領域,SAM3D Objects可從單張2D圖像重建精細3D模型,面對遮擋、小物體仍保持高魯棒性,在人類偏好測試中以5:1優勢戰勝現有模型。

(6)Grounding DINO+SAM2:開放世界分割的主流方案

研究社區基於SAM的“二創”方案中,Grounding DINO與SAM2的組合最為經典,形成“檢測-分割”全流程能力。Grounding DINO作為零樣本目標檢測器,可通過文本指令精準定位圖像中任意類別目標並輸出邊界框,解決了SAM依賴先驗提示的侷限;SAM2則接收邊界框提示,快速生成高精度分割掩碼,二者協同實現“文本輸入→目標檢測→像素級分割”的端到端流程。

該方案被整合為Grounded Segment Anything項目,支持單獨調用或組合使用,還可與Stable Diffusion聯動實現可控圖像編輯,例如通過“分割桌布→替換為大理石紋理”完成場景優化。其開放詞彙能力打破了傳統分割模型的固定標籤限制,在智能家居佈局設計、工業定製化檢測等場景中已實現落地,Facebook Market更將其用於“房間視圖”功能,幫助用户預覽傢俱擺放效果。

(7)YOLO系列:實時分割與檢測的融合突破

以快速檢測著稱的YOLO系列,在V8版本正式引入分割能力,形成“YOLOv8-Seg”模型,實現“檢測-分割-分類”三位一體的端到端推理。其核心架構沿用C2f模塊與SPPF空間金字塔池化,新增Segment分支通過動態頭(Dynamic Head)預測目標掩碼,在保持YOLO家族實時性優勢的同時,分割精度接近專用模型——在COCO數據集上,YOLOv8-Seg的mAP@50達55.9,推理速度達32 FPS,遠超Mask R-CNN的12 FPS。

YOLOv9-Seg進一步優化了特徵融合策略,採用自適應混合注意力機制,增強小目標與模糊區域的分割表現。而HRNet作為2020年前後的重要模型,通過並行連接多分辨率子網並反覆融合信息,實現高分辨率特徵表示,參數量約39M,在Cityscapes數據集上mIoU達85%,推理速度105-156 FPS,成為自動駕駛環境感知的優選方案。與SAM系列不同,YOLO分割模型更側重工程化落地,通過模型量化、剪枝等優化,可在嵌入式設備上實現高效推理,而HRNet雖精度優異,但計算資源需求較大,在邊緣設備部署受限。

三、落地價值:千行百業的核心技術

圖像分割技術已從實驗室走向實際應用,在醫療、交通、工業等領域創造巨大價值,成為AI落地的關鍵支撐。

1. 醫療健康:輔助精準診斷與治療

在醫學影像分析中,圖像分割是病灶定位、手術規劃的核心環節。U-Net及其改進版(nnU-Net、DoubleU-Net)通過精準分割CT/MRI圖像中的腫瘤、血管等結構,幫助醫生快速定位病灶。麻省總醫院的臨牀試驗顯示,融合多模態影像的分割模型使早期肺癌病灶檢測召回率提升30%,手術成功率達92%。聯邦學習在此領域已實現實際應用,如COVID-19病灶分割任務中,基於U-Net的聯邦蒸餾算法通過"本地教師-全局學生"框架,將參數量降至8M,通信數據量減少16倍,有效解決數據孤島與隱私保護問題。自監督學習模型MPS-AMS通過動態掩碼策略,在1-shot極端情況下實現DSC達0.76的分割效果,較基線提升3%,大幅降低標註成本。此外,可解釋AI技術(如LIME)的融入,能可視化模型分割決策依據,提升醫生對結果的信任度。

2. 自動駕駛:構建可靠環境感知系統

自動駕駛對環境感知的實時性與精度要求極高,圖像分割需在毫秒級完成道路、行人、車輛、交通標誌的像素級分類。BiSeNetV2作為實時分割標杆,在Cityscapes數據集上推理速度達156 FPS,mIoU表現優異,成為車載系統優選;HRNet則以85%的mIoU精度保障目標識別可靠性。通過LIF-Seg等方案融合攝像頭紋理信息與激光雷達距離數據,經早期特徵融合和時空校準,可顯著提升複雜天氣下的3D分割精度,使自動駕駛系統事故率比單模態系統降低40%。例如特斯拉Autopilot系統通過語義分割實現車道保持,但聯邦學習在該領域尚處研究階段,FedDrive等框架雖已提出,尚未有企業實際部署。

3. 工業質檢:提升生產效率與質量

在工業場景中,圖像分割可實現產品缺陷的自動化檢測。YOLOv4以0.0283秒/圖(約353 FPS)的理論速度刷新檢測效率,而實際應用中受限於相機採集與傳輸速度,"每分鐘千片"是更貼合實際的吞吐量。通過高分辨率相機拍攝產品圖像,利用Mask R-CNN(12-15 FPS)、YOLOv8-Seg(32 FPS)等模型分割微小缺陷區域,替代"每小時百片"的人工檢測模式,不僅效率提升10倍以上,還能避免人為誤判。在半導體制造中,基於注意力機制的分割網絡可精準識別芯片電路的納米級缺陷,保障產品質量。聯邦學習在此領域的應用正處於探索期,可有效解決多工廠數據隱私與異質性問題。

4. 遙感影像:助力國土與災害監測

衞星與無人機遙感圖像的分割分析,為國土規劃、災害評估提供數據支撐。通過分割圖像中的農田、建築、水體等區域,可實現耕地面積統計、城市擴張監測;在地震、洪水等災害發生後,能快速分割受災區域,為救援決策提供精準依據。

四、挑戰與趨勢:未來發展方向展望

儘管圖像分割技術已取得顯著進展,但在實際應用中仍面臨小目標分割難、實時性不足、數據依賴強等挑戰。結合行業發展動態,未來技術將向以下方向突破:

  • 多模態融合:以MM-Former為代表,通過"多分支特徵提取+跨模態注意力融合"策略,融合RGB、深度、紅外等數據,在Cityscapes數據集使mIoU顯著提升,可更準確區分複雜場景目標;遙感領域結合多波段信息提升地物分類精度,但模態對齊仍是核心挑戰。
  • 輕量化與實時化:基於MobileNet、EfficientNet的輕量模型,配合剪枝、量化技術,可使參數量減少70%以上且精度損失控制在5%內。FastSAM-MindSpore在Jetson AGX Xavier邊緣設備上實現7.8 FPS推理,雖未達50ms響應要求,但已適配部分工業場景;移動端模型則可實現毫秒級推理,支撐智能攝像頭應用。
  • 自監督與小樣本學習:2025年最新的UnSAM模型通過"分而治之"管道生成高質量偽掩碼,捕獲多尺度細節;MPS-AMS在1-shot醫學分割任務中DSC達0.76;Multi-Task框架結合深度預測與表面法線估計,提升NY2D數據集泛化能力,有效降低標註依賴。
  • 聯邦學習深耕與拓展:醫療領域已實現COVID-19病灶分割的實際應用,自動駕駛領域處於FedDrive等框架的研究階段,核心突破方向為降低通信開銷與解決數據異質性。
  • 通用分割與3D融合:SAM3、SAM3D推動技術從2D像素級向3D幾何級演進,可提示交互能力在數字孿生、機器人感知領域開闢新場景,SAM3在LVIS數據集47.0的準確率樹立零樣本分割新標杆。

五、總結

從傳統算法的手工特徵到深度學習的自動特徵學習,圖像分割技術實現了從"像素級劃分"到"語義級理解"的跨越,而SAM系列、YOLO分割模型、HRNet等新成果更推動其向"通用化、實時化、3D化"進階。作為計算機視覺的核心任務,它不僅推動了AI對視覺世界的認知深度,更在醫療、交通、工業等領域構建起"感知-決策-執行"的技術閉環。其中,醫療領域的聯邦學習落地、自動駕駛的多模態融合、工業場景的輕量化部署,成為技術落地的關鍵方向;而UnSAM等自監督模型的突破,正逐步解決標註成本高的行業痛點。對於開發者而言,掌握FCN、U-Net等核心算法,同時跟進SAM、YOLO等前沿方案的工程化應用,將在這場視覺智能革命中佔據先機。隨着技術的持續演進,圖像分割將進一步應用到生活的方方面面,成為人工智能賦能實體經濟的關鍵力量。