前言
多目標跟蹤器的性能需要某些指標來進行度量,目前使用比較廣泛的評測指標主要有 Bernardin 等人定義的 CLEAR MOT 指標、Ristani 等人定義的 ID scores 指標以及最新的 Luiten 等人定義的HOTA 指標。
一、基礎的評測指標
1.1 ID Switches (ID Sw.)
被跟蹤目標身份發生錯誤地更改時被稱為身份跳變。在對視頻序列的跟蹤過程當中,ID Sw.表示所有跟蹤目標身份交換的次數。
1.2 Frames Per Second (FPS)
多目標跟蹤器的跟蹤速度。
1.3 False Positives (FP):
在視頻序列中不能與真實軌跡的邊界框相匹配的假設邊界框被稱為假陽性;即本來是假的,預測認為是真的。FP 表示整個視頻序列中假陽性的數量。
1.4 False Negatives (FN):
在視頻序列中不能與假設邊界框相匹配的真實軌跡的邊界框被稱為假陰性;即本來是真的,預測認為是假的。FN 表示整個視頻序列中假陰性的數量。
1.5 Mostly Tracked tracklets (MT)
在跟蹤過程中各個目標至少有 80%的視頻幀都能被正確地跟蹤的跟蹤軌跡數量。
1.6 Mostly Lost tracklets (ML)
在跟蹤過程中各個目標至多有 20%的視頻幀能被正確地跟蹤的跟蹤軌跡數量。
1.7 Fragments (Frag)
真實跟蹤軌跡由於某種原因發生中斷並在後來又繼續被準確跟蹤上被稱為跟蹤碎片。Frag 表示整個視頻序列中碎片的總數。
以上 7 種評測指標主要度量多目標跟蹤器的基礎性能,其中加粗的比較常用;為了進一步評判多目標跟蹤器的綜合性能,出現了其他指標。
二、MOTA 和 MOTP
CLEAR MOT 指標提出了多目標跟蹤精度MOTA和多目標跟蹤準確度MOTP 兩個綜合性的指標,這兩個指標能夠衡量多目標跟蹤器在整體上的性能好壞。
2.1 MOTA:多目標跟蹤準確度
MOTA除了誤報(FP)、丟失目標(FN)、ID異常切換(ID Sw.)情況以外的正確預測樣本佔所有樣本的比率,衡量了跟蹤器在檢測目標和保持軌跡時的性能,與目標位置的估計精度無關。多目標跟蹤準確度的分數 MOTA如下計算:
mt表示整個視頻序列中假陽性的數量(FN),fpt表示整個視頻序列中假陰性的數量(FP),mme t表示跟蹤過程中身份交換的數量(ID Sw.),gt表示整個視頻序列當中真實目標的數量。
這裏 MOTA的分數可能為負數,因為假陰性、假陽性和身份跳變的數量可能會大於視頻序列中真實目標的數量。
2.2 MOTP:多目標跟蹤精度
MOTP默認檢測框重合度閾值下正確預測的目標與預測目標總數之比,衡量檢測器的定位精度。.多目標跟蹤精確度的分數 MOTP 如下計算:
ct 表示為在第 t 幀時候總共匹配的數量,d 表示假設邊界框與真實邊界框之間的距離值。
三、IDP、IDR、IDF
為了判斷多目標跟蹤器是否能夠長時間地對某個目標進行準確地跟蹤,ID scores 指標引入了 IDF (Identification F1) , IDP (Identification Precision) 和 IDR (Identification Recall)指標並添加到多目標跟蹤中,以衡量跟蹤器的身份維持能力。
3.1 IDP:識別精確度
整體評價跟蹤器的好壞,識別精確度 IDP 的分數如下進行計算:
3.2 IDR:識別召回率
它是當IDF1-score最高時正確預測的目標數與真實目標數之比,識別召回率 IDR 的分數如下進行計算:
3.3 IDF1:平均數比率
IDF1是指正確的目標檢測數與真實數和計算檢測數和的平均數比率,這裏, IDF1的分數如下進行計算:
上述公式中,IDTP 可以看作是在整個視頻中檢測目標被正確分配的數量,IDFN 在整個視頻中檢測目標被漏分配的數量,IDFP 在整個視頻中檢測目標被錯誤分配的數量。
四、HOTA 更高維跟蹤精度
基於多目標跟蹤準確度(MOTA)的基礎上,HOTA 指標引入了更高維跟蹤精度指標,能夠更加全面、更加均衡地衡量多目標跟蹤器的性能。
HOTA:更高維跟蹤精度;HOTA的分數計算過程由多個部分組成,更加重視目標檢測和數據關聯精度的平均性衡量。主要計算如下:
A表示數據關聯分數。TP 則表示在整個視頻中檢測目標被正確跟蹤的數量。
五、MOT Challenge 多目標跟蹤
官網地址:https://motchallenge.net/
這裏有多目標跟蹤的競賽,可以看看有哪些評價指標,以及評價指標是如何計算的。這裏有多個數據集,比如MOT2017。
MOT Challenge 是應用在多目標跟蹤中最常見的數據集,它專門用於行人跟蹤的場景,這些數據集目前已公開提供。對於每個數據集都提供了訓練數據和測試數據,其中訓練數據提供了目標檢測結果和真實的跟蹤結果,而測試數據只提供目標檢測的結果。截至目前,MOT Challenge 數據集包含了MOT15,MOT16/MOT17,MOT20等子數據集。
六、KITTI多目標跟蹤
這裏也有多目標跟蹤的競賽,可以看看有哪些評價指標,以及評價指標是如何計算的。
七、綜合評價指標
綜上,融合算法的評價指標可以分為三類,第一類為基本性能,主要為時間複雜度和空間複雜度;第二類為準確性,可分別用MOTA和MOTP表示;第三類為響應速度,為目標出現後發現目標的時間和目標消失後刪除目標的時間,。
從工程應用角度,還有第四類指標,對環境、天氣的適應能力,比如在光線昏暗和下雨時目標跟蹤的性能,以此測評融合算法綜合性能。
八、場景數據集和測試方法
類似KITTI等數據集,MOTA 指標可通過採集數據並標註的方法進行統計分析,但MOTP則必須獲取目標真值數據,需要特定真值設備。考慮到數據採集和標註等具體工作情況,提出如下方法:
8.1 外場數據採集和目標標註
採集典型外場數據,並對數據進行目標級標註,標註內容包括目標出現時間、目標ID、目標數量、目標消失時間等。
考慮到標註工作量,應當選擇多目標場景,目標清晰可分辨且數量有限,覆蓋多種場景和多種天氣。
不同天氣情況下的道路場景
8.2 內場數據採集和真值標註
設計典型場景,可參考iVISTA測評場景,選取合適場地和真值設備,採集內場數據,同時記錄真值數據。將融合結果和真值數據對比可評價跟蹤精度能力。
iVista定義的典型場景