本文摘要:摘要:視頻目標跟蹤是計算機視覺領域的一個重要研究課題。近年來,隨著深度學習在視覺目標跟蹤領域獲得了巨大的成功,一系列優秀的深度跟蹤算法涌現出來。在本篇論文中,我們回顧近年來深度目標跟蹤領域的進展。首先,我們詳細討論了近十年來跟蹤領域數據集
摘要:視頻目標跟蹤是計算機視覺領域的一個重要研究課題。近年來,隨著深度學習在視覺目標跟蹤領域獲得了巨大的成功,一系列優秀的深度跟蹤算法涌現出來。在本篇論文中,我們回顧近年來深度目標跟蹤領域的進展。首先,我們詳細討論了近十年來跟蹤領域數據集的發展趨勢,這些數據集不僅全面地評估了算法性能同時為模型訓練提供了極大的便利。其次,我們分類討論了幾大類經典的深度學習跟蹤框架,包括深度相關濾波器跟蹤、分類式網絡跟蹤、雙路網絡跟蹤、基于梯度的深度跟蹤算法以及基于ransformer的跟蹤算法。最后,我們對全文內容進行總結,并指出未來的發展趨勢。
關鍵字:深度目標跟蹤;跟蹤數據集;相關濾波器;分類式跟蹤網絡;雙路跟蹤網絡;梯度跟蹤網絡
1引言
視覺目標跟蹤是計算機視覺領域的一個基本任務。目標跟蹤旨在基于初始幀中指定的感興趣目標(一般用矩形框表示),在后續幀中對該目標進行持續的定位,如圖所示。目標跟蹤的應用場景非常廣泛,包含視頻監控、人機交互、機器人、無人駕駛等。雖然近二十年來,視覺目標跟蹤取得了極大的進展,但是一些挑戰性因素如目標遮擋、背景雜亂、運動模糊、光照變化等仍是目標跟蹤算法面臨的主要挑戰。傳統的視覺跟蹤算法通常采用手工特征來對目標進行表觀建模,然后通過訓練魯棒的辨別式或生成式模型實現目標跟蹤,典型的方法包括MIL[1]、TLD[2]、SCM[3],STRUCK[4]、KCF[5]等。然而,在新近的比較有挑戰性的數據集如VOT2018[6]或大規模數據集TrackingNet[7]和LaSOT[8]上,這些算法的性能遠遠達不到實際應用的要求。
自從2012年AlexNet[9]在圖像分類任務中大放異彩,深度學習受到了廣泛關注。得益于強大的特征提取能力和端到端的訓練模式,深度學習技術在計算機視覺、機器學習、自然語言處理等領域都廣受關注,并取得了巨大進展。在過去的五六年間,基于深度學習的目標跟蹤算法獲得了巨大突破。一些經典的深度跟蹤算法,如HCF[10]、MDNet[11]、SiamFC[12]、ECO[13]、SiamRPN[14]、ATOM[15]、DiMP[16]等不同程度地挖掘了深度學習的潛能并顯著提高了跟蹤性能。例如,在經典的OTB2015[17]數據集上,這些深度學習的跟蹤算法大幅度超越經典的跟蹤器并不斷刷新最優性能。在每年舉辦的視覺跟蹤的挑戰賽如VOT2018中,排名前10位的算法均不同程度的使用了深度特征。
這些深度學習的跟蹤算法采用了各種各樣的框架,包含相關濾波器、分類式網絡、雙路網絡等。在處理跟蹤任務的角度上,從基于匹配思想的雙路網絡框架到基于二分類思想的辨別式跟蹤器,各種算法框架在性能和效率上各有千秋。 最初的深度跟蹤算法主要聚焦于相關濾波器。通過將傳統相關濾波器中的手工特征替換成深度特征,跟蹤性能得到了大幅度提升。后續研究人員嘗試端到端地結合相關濾波器和深度模型,并進一步引出了一系列的基于梯度優化的方案,如iMP算法16。
通過將跟蹤任務視為模板匹配,基于雙路網絡的跟蹤算法(如iamFC[12])由于其簡潔的框架和高效率而受到了極大的關注。但是該類方法由于忽略了背景信息,因而對相似干擾物的辨別能力較弱,后續工作在雙路網絡中借鑒相關濾波器來提升模型的辨別能力。另一方面,受啟發于目標檢測領域的進展,基于分類式的深度跟蹤框架(如MDNet[11])、雙路網絡結合區域錨點的多尺度回歸14等思路同樣被廣泛研究。近期基于ransformer的深度跟蹤器,使用注意力機制進行跟蹤模型建模,取得了領先的性能。
我們總結了深度跟蹤領域常見的框架及代表性工作。表大致按照各種算法最早出現的順序進行安排。深度相關濾波器大致在2015年左右被提出(如HCF[10),并在近年來持續受到關注。相關濾波器的思想近年來被其他跟蹤框架如雙路網絡和基于梯度的跟蹤器所吸納;诜诸惥W絡(MDNet)和雙路網絡(iamFC)的跟蹤算法幾乎同時期被提出,大致于2016年左右,并獲得了廣泛關注。
但是由于分類網絡需要在線的模型微調,導致效率偏低,因而近年來關注度逐漸降低。雙路網絡通過汲取相關濾波器的優勢(如CFNet)以及融入區域候選網絡(如iamRPN)而持續地演變和進化,目前仍是研究的熱點;谔荻鹊膬灮椒ㄔ2019年左右受到了廣泛關注,其代表性工作包括ATOM和iMP。該類方法受啟發于相關濾波器,通過采用快速梯度下降的方法求解具有前景、背景區分能力的濾波器核。由于利用了背景信息,該類方法相比于雙路網絡具有更好的干擾物辨別能力。
在2021年,同時期出現了數個基于ransformer結構的深度跟蹤算法。該類方法利用注意力機制利用時序信息24,或對跟蹤器建模25[26],取得了十分突出的性能。為了總結歸納深度跟蹤算法的發展趨勢,本文詳細梳理了近年來深度跟蹤領域的相關工作,并按如下的順序進行闡述:跟蹤數據集的發展趨勢、結合深度特征的相關濾波器、基于分類網絡的跟蹤算法、基于雙路網絡的跟蹤算法、基于梯度的深度跟蹤算法、基于ransformer的深度跟蹤等,最后對研究方向進行展望。
跟蹤數據集發展趨勢數據、算法和算力是人工智能的重要的三個要素。在計算機視覺任務中,好的數據集往往能夠帶動相關領域的快速發展。隨著卷積神經網絡的快速發展,更多參數量的網絡往往需要更多的數據去學習得到一個更好的模型。因此,一個良好的標注數據集能快速促進相關算法的發展。近些年來,視頻目標跟蹤領域出現了許多不同大小、不同種類的數據集。這些數據集引領了目標跟蹤算法的進步。因此本節內容將詳細介紹目標跟蹤領域的常見數據集。
OTB:OTB數據集一共包含TB201327]和TB2015[17]兩個版本。其中OTB2013數據集包含51個視頻序列,由Wu等人收集了以往目標跟蹤領域的常用測試視頻。該數據集考慮到很多影響跟蹤性能的因素,比如形變、遮擋、光照變化、快速運動、運動模糊等。同時作者還提出了一系列的評估準則。這些準則與數據集一起為跟蹤算法提供了相對統一的測試與評估環境,有利于不同跟蹤方法之間的比較,極大地促進了早期目標跟蹤任務的發展。OTB2015是OTB2013數據集的擴充,通過引入額外的視頻,該數據集總共包含100個視頻。此外,該數據集還對視頻標出了遮擋、形變、快速運動、模糊等個視頻屬性,便于分析跟蹤器應對不同場景的能力。
3深度跟蹤算法
3.1深度相關濾波器跟蹤
相關濾波器(CorrelationFilter,CF)通過學習一個具有區分力的濾波器來處理待跟蹤的圖片,其輸出結果為一個響應圖,表示目標在后續幀中的不同位置的置信度。相關濾波器通過利用循環樣本和循環矩陣的性質求解嶺回歸問題,得到了頻域上的高效閉合解,計算效率十分高效。傳統的相關濾波器使用手工特征(如HOG、ColorName等)進行學習,較好地兼顧了性能和效率。但由于相關濾波器的學習過程中引入了循環樣本,這些樣本不可避免的帶來了邊界效應,因此傳統的相關濾波器算法在如何抑制邊界效應上開展了大量的研究,典型的工作包括SRDCF[33]、BACF[34]、ASRCF[35]等。
其余的經典工作包含如何自適應調整學習率(如SRDCFdecon[36),如何引入更多的背景信息(如CACF[37])等。隨著深度學習的日益發展,深度學習和相關濾波器的結合受到了廣泛的關注。在早期的工作中,研究人員探索如何將離線訓練好的深度特征(如利用ImageNet預訓練的VGG模型[38])和相關濾波器進行結合。典型的工作HCF10]提出將不同層的深度特征分別訓練相關濾波器并進行由粗到精的融合。高層的語義特征對于目標的抽象表達能力很強,而低層的模型特征擅長于刻畫目標的紋理、形狀等底層信息。通過將不同尺度的特征下的濾波響應圖進行融合,相關濾波器更好地利用了深度模型。
4展望
視覺跟蹤領域的算法層出不窮,并且各類算法框架都處于不斷的發展與完善中。隨著研究的不斷深入,深度學習的潛能也進一步被激發。然而,現有的框架仍存在有待提升的空間。最近的雙路網絡方法(如SiamRPN++)和梯度優化的方法如DiMP)為了追求高性能,均采用了很深的CNN模型如ResNet50。最新的深度模型動輒具有幾十甚至上百兆的模型大小,使得這些算法需要極大的存儲空間,限制了實際應用。如何設計適合他們的輕量級模型,例如使用神經網絡搜索的方式來獲得更優的模型結構,以兼顧低內存消耗和高精度具有重要的研究價值。
此外,隨著CNN網絡越來約深,模型越來約復雜,幾大類深度跟蹤框架無論雙路網絡(SiamRPN++)、分類網絡(如RTMDNet)還是梯度優化的方法(DiMP),都僅能保持GPU設備下勉強實時的速度。視覺跟蹤作為很多應用系統中的底層輔助任務,對于效率有很高的要求。期待未來更多的工作能夠聚焦于跟蹤算法的速度提升。設計硬件友好的模型運算結構,用于特定場景的高效率視覺跟蹤同樣具有巨大的應用前景;趓ansformer的視覺跟蹤算法剛剛起步,未來有巨大的挖掘空間。
首先,目前的ransformer跟蹤算法25][26仍沒有充分利用背景信息,如何將背景信息引入到ransformer結構中提升它的前景、背景區分能力有待探索。其次,設計可更新的ransformer結構,用于適應目標的外觀變化亟需探索。例如,STARK算法26僅僅粗暴地加入一幀歷史樣本,如何更好地利用時序信息以更新ransformer模型將有助于達到更優性能。最后,ransformer的注意力機制擅長于進行多模態信息間的轉換以及融合,該框架的興起為多模態的視覺跟蹤提供了良好的研究契機,如帶有紅外信息(RGBT視頻中)和深度信息(RGBD視頻中)的視覺跟蹤。
計算機方向評職知識:寫機器視覺論文好發表嗎
5結束語
盡管近十年來視覺目標跟蹤技術取得了巨大的進展,但在復雜的實際場景中,計算機跟蹤系統和人類的視覺系統仍有巨大差距。雖然深度學習算法取得了令人矚目的成績,但與此同時帶來的跟蹤效率限制和模型存儲消耗等問題仍需進一步完善。真正意義上的通用、魯棒、準確且高效率的視覺跟蹤研究仍然任重道遠。但是,我們也目睹了近年來的視覺跟蹤領域的快速迭代和不斷突破,相信在眾多研究者的共同努力下,未來的視覺目標跟蹤技術會朝著實用的、高效的、可靠的、通用的跟蹤技術更進一步。
參考文獻
[1]BabenkoB,YangMH,BelongieS.Robustobjecttrackingwithonlinemultipleinstancelearning[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2011,33(8):16191632.
[2]KalalZ,MikolajczykK,MatasJ.Trackinglearningdetection[J].IEEETransactionsonSoftwareEngineering,2011,34(7):14091422.
作者:王寧,席茂,周文罡,李禮,李厚強
轉載請注明來自發表學術論文網:http://www.cnzjbx.cn/dzlw/27177.html