<address id="vfzrl"><nobr id="vfzrl"><progress id="vfzrl"></progress></nobr></address>
    <address id="vfzrl"></address>

    <address id="vfzrl"></address>

    <em id="vfzrl"><form id="vfzrl"><nobr id="vfzrl"></nobr></form></em><address id="vfzrl"></address>
    <address id="vfzrl"></address>

    <noframes id="vfzrl"><form id="vfzrl"><th id="vfzrl"></th></form><form id="vfzrl"><th id="vfzrl"><th id="vfzrl"></th></th></form>

    國內或國外 期刊或論文

    您當前的位置:發表學術論文網電子論文》 基于一致性正則化的在線知識蒸餾> 正文

    基于一致性正則化的在線知識蒸餾

    所屬分類:電子論文 閱讀次 時間:2021-08-31 10:11

    本文摘要:摘要:在線知識蒸餾通過同時訓練兩個或多個模型的集合,并使之相互學習彼此的提取特征,從而實現模型性能的共同提高。已有方法側重于模型間特征的直接對齊,從而忽略了決策邊界特征的獨特性和魯棒性。該算法利用一致性正則化來指導模型學習決策邊界的判別性

      摘要:在線知識蒸餾通過同時訓練兩個或多個模型的集合,并使之相互學習彼此的提取特征,從而實現模型性能的共同提高。已有方法側重于模型間特征的直接對齊,從而忽略了決策邊界特征的獨特性和魯棒性。該算法利用一致性正則化來指導模型學習決策邊界的判別性特征。具體地說,網絡中每個模型由特征提取器和一對任務特定的分類器組成,通過正則化同一模型不同分類器間以及不同模型對應分類器間的分布距離來度量模型內和模型間的一致性,這兩類一致性共同用于更新特征提取器和決策邊界的特征。此外,模型內一致性將作為自適應權重,與每個模型的平均輸出加權生成集成預測值,進而指導所有分類器與之相互學習。在多個公共數據集上,該算法均取得了較好的表現性能。

      關鍵詞:計算機視覺;模型壓縮;在線知識蒸餾;一致性正則化

    計算機視覺

      引言深度神經網絡(Deepneuralnetworks,DNNs)在目標檢測與追蹤[1,2]、語義分割[3,4]、圖像分類[5,6]等多種計算機視覺任務中均取得了顯著的研究成果。然而,性能優越的DNN模型往往依賴于較深的網絡結構和較大的計算量,因此極大地限制了其在存儲空間有限的設備中的廣泛應用。近年來,研究者們對模型壓縮方法進行了廣泛的探索與研究,主要可以分為以下四大類:a)模型剪枝[7,8],b)網絡量化[9,10],c)直接搭建緊湊的網絡模型[11,12],d)知識蒸餾(KnowledgeDistillation,KD)[13,26,27,28]。其中,KD又可以分為離線知識蒸餾(offlineKD)和在線知識蒸餾(onlineKD)兩大類。

      傳統的offlineKD方法分兩階段進行,首先需要預訓練一個性能較強的大網絡模型,這一過程會造成計算成本的額外消耗,然后凍結其參數并進一步指導小模型來學習擬合該大模型的輸出預測分布或中間層特征等知識信息,從而實現小模型的性能提高。為了克服offlineKD分步訓練的缺點和局限性,研究者們近些年提出了onlineKD的思想,即無須大模型的預訓練過程,而是在目標任務的監督下,以協作的方式同時訓練所有對等網絡模型并指導它們相互學習彼此之間的預測分布和特征知識,從而實現對等模型性能的共同提高。

      其中,最具代表性的深度相互學習網絡(DML)[13]即是通過指導對等模型直接學習其他模型的最終預測分布從而實現了在線知識蒸餾與遷移;動態集成網絡(ONE)[14]則是引入了一個門控單元來指導對等模型之間的相互學習;特征融合學習網絡(FFL)[15]提出了融合分類器從而實現與對等模型之間的相互知識學習;Chen等人[16]提出的OKKDip網絡使用兩級蒸餾訓練實現了多個輔助模型與一個主模型之間的相互學習;Guo等人提出的KDCL[17]通過整合較小模型的輸出預測和增強后的輸入圖像從而生成軟化目標作為監督信息,進一步提高模型的性能。盡管這些onlineKD算法已經取得了較好的實驗結果,但它們在每個模型中均采用單個分類器來輸出預測分布,更重要的是,已有方法忽略了決策邊界周圍的模糊特征。

      為了克服該缺點,本文基于一致性正則化設計了一個在線知識蒸餾網絡(OKDCR),實現了兩個或多個對等模型之間模糊特征的識別與對齊,從而進一步提高了模型的表現能力。對于每個對等模型,OKDCR引入了一對任務特定的分類器,并使之共享同一個的特征提取器。給定一個輸入圖像,將其自由變換兩次后輸入給各個模型的特征提取器,從而為每個模型中的不同分類器生成不同的特征。

      通過衡量每個模型的兩個分類器之間以及跨模型的對應分類器之間預測值分布的一致性,即模型內一致性和模型間一致性,以此來更新特征提取器的參數,增強其對模糊特征識別的魯棒性。此外,模型內一致性用來計算自適應權重,并與每個模型的平均輸出共同生成最終的集成預測值,進一步為所有分類器提供額外的監督信息。大量實驗結果表明,OKDCR訓練的對等網絡模型在一致性正則化以及自適應集成預測的指導與監督下,能夠學習到具有更強識別能力的特征,其表現性能和實驗結果始終優于已有的最新水平。這項工作的貢獻可以概括為以下三個方面:

      1)設計了一個新的網絡架構OKDCR,引入模型內一致性和模型間一致性來規范兩個或多個對等模型內和跨模型間的在線協作學習,提高特征提取器的魯棒性。2)其次,根據模型內一致性設計了一個自適應集成預測方案,為對等模型之間的在線知識蒸餾產生額外的監督信息,提高分類器的辨別性和穩定性。3)大量的實驗證明了本文提出的一致性正則化算法的有效性,即OKDCR與現有的onlineKD方法相比,取得了更好的分類結果和表現性能。

      OKDCR在用于研究知識蒸餾的三個公開公共數據集上進行了性能評估與分析。其中,CIFAR10[18]和CIFAR100[19]是應用廣泛的圖像分類數據集,它們分別有10個和100個圖像類別,各自均有50000個訓練圖像和10000個測試圖像,兩個數據集中的所有圖像都是由32×32像素的RGB顏色構成。

      對于圖像增強與變換,實驗部分采用與現有的onlineKD方法[14,20]中相同的操作,即用零將原始輸入填充為40×40圖像并隨機裁剪出32×32區域。第三個數據集ImageNet[21]是由120萬個訓練圖像和50000個驗證圖像組成,共有1000個圖像類別。為了與已有方法進行公平的比較,對于圖像變換,實驗部分采用與[14]相同的操作,即水平翻轉并隨機裁剪出224×224區域。在實驗結果評估中分別使用Top-1/Top-5平均分類準確率(%),其中前者用于CIFAR10/CIFAR100/ImageNet數據集,而后者僅用于ImageNet數據集。

      所有實驗都是在NVIDIAGPU設備上基于PyTorch實現的。在訓練過程中,采用帶Nesterov動量的隨機梯度下降法進行優化,動量衰減和權重衰減分別設置為0.9和10-4。在CIFAR10和CIFAR100數據集上,總訓練次數和批量大小分別設置為300和128,對等網絡的學習率在訓練次數的50%時從0.1下降到0.01,在75%時下降到0.001。在ImageNet數據集上,采用128的最小批量大小,學習速率從0.1開始,每30個訓練周期衰減0.1倍,總共90個周期。

      在CIFAR10和CIFAR100&ImageNet上,式(2)中的平衡參數和分別設置為1和100。與對比方法[22,23]相同,式(3)中的溫度參數T在整個實驗過程中設置為3從而進行公平的比較。為了促使模型更加穩定和高效的學習,式(6)中的加權因子根據訓練步驟按照min(1,1.25(s/S))進行更新的,其中s和S是分別表示當前訓練次數和總訓練次數。

      實驗部分將OKDCR與DualNe[20]、DML[13]、ONE[14]、FFL[15]、AMLN[24]、KDCL[17]、OKKDip[16]等多種onlineKD方法進行了對比。在以下的實驗對比結果表格中,“Avg”和“Ens”分別表示模型1(Net1)和模型2(Net2)的平均分類準確率和集成分類準確率,“vanilla”下的“1C”和“2C”是指模型分別采用一個分類器和兩個分類器并只在交叉熵分類損失函數監督下的單獨訓練結果。

      顯示了在CIFAR10和CIFAR100上使用相同對等網絡模型結構時的最高Top-1分類準確率。在對比的方法中,DML和AMLN致力于提高單個模型的性能,而DualNet的目標是提高集成預測的分類結果。從實驗結果可以觀察到,DML、DualNet、ONE、FFL、AMLN和OKDCR表現性能均優于vanilla基準網絡。

      其中,ONE和FFL在CIFAR10和CIFAR100上的分類準確率相似,而本文所提出的OKDCR在“Avg”和“Ens.”上取得了最高的分類結果。從模型的平均準確率“Avg”來看,ONE、FFL、AMLN和OKDCR在四組網絡模型中均優于DML,在CIFAR10上分別提高了0.87%、1.11%、2.44%和3.40%,在CIFAR100上分別提高了6.56%、4.82%、9.11%和10.22%;從集成準確率“Ens.”來看,ONE、FFL和OKDCR在CIFAR10上比DualNet分別提高了0.32%、0.53%和4.60%,而在CIFAR100分別提高了2.31%、3.61%和10.94%。

      此外,不同方法在CIFAR10上的測試精度變化過程進行了可視化,從中可看出,在學習率變化的訓練節點,各個方法的準確率均發生明顯的提高,且OKDCR訓練的單個模型其性能始終優于已有的對比方法,表現出相對穩定性和一致性。為了驗證該方法是否具有通用性,OKDCR接著在CIFAR10和CIFAR100上使用不同的對等網絡模型對(WRN16-2&ResNet32,WRN-40-2&ResNet56)進行了評估。

      Net1&Net2使用OKDCR方法訓練時,其性能始終優于其他在線蒸餾方法。以在CIFAR100數據集上WRN-16-2&ResNet32的分類結果為例,OKDCR訓練的Net1&Net2比DML、FFL和AMLN訓練的Net1&Net2分別高出2.54%&3.29%、2.02%&2.04%和0.21%&0.33%。OKDCR的優異性能主要歸功于兩個因素:首先,模型內和模型間的一致性正則化有助于模型更好地學習決策邊界附近的特征對齊;其次,自適應集成預測能夠為模型提供良好的監督,并指導對等網絡學習更多的辨別性特征知識。

      圖像論文范例: 通過風格遷移的濃霧天氣條件下無人機圖像目標檢測方法

      本文提出了一種基于一致性正則化的在線知識蒸餾方法(OKDCR),與現有的工作不同,OKDCR在每個模型中引入一個共享的特征提取器和兩個任務特定的分類器;诿總模型內分類器間以及不同模型對應分類器間的分布差異,從而對模型內一致性和模型間一致性進行正則化,并用于特征提取器的參數更新,增強其對模糊特征的提取能力和魯棒性。此外,利用模型內一致性生成自適應權值,并作為每個模型平均預測的權重,從而生成對等模型的最終集成預測,進一步對所有分類器提供額外的監督信息,提高其對模糊特征的辨別能力。

      實驗部分在三個具有挑戰性的圖像分類數據集上進行了廣泛的評估與分析,與現有最新的在線知識蒸餾方法相比,OKDCR表現出明顯的優越性和有效性。在未來的工作中,會進一步探究多個分類器共享特征提取器的模型性能表現,以及不同分類器使用不同任務訓練且彼此相互學習時的表現效果。

      參考文獻:

      [1]PérezgonzálezA,VergaraM,SanchobruJL,etal.Visualizingdatausingt-sne[J].JournalofMachineLearningResearch,2015.

      [2]WangJiang,YangYi,MaoJunhua,etal.CNN-RNN:Aunifiedframeworkformulti-labelimageclassification[C]//InIEEEConferenceonComputerVisionandPatternRecognition,2016:2285-2294.

      [3]ParkSB,LeeJW,SangKK.Content-basedimageclassificationusinganeuralnetwork-ScienceDirect[J].PatternRecognitionLetters,2004,25(3):287-300.

      [4]LiuWei,AnguelovD,ErhanD,etal.SSD:Singleshotmultiboxdetector[C]//InEuropeanConferenceonComputerVision,2016:21-37.

      [5]BelagiannisV,FarshadA,GalassoF.Adversarialnetworkcompression[C]//InEuropeanConferenceonComputerVision,2018:431-449.

      [6]LiuPeiye,LiuWu,MaHuadong,etal.KTAN:Knowledgetransferadversarialnetwork[C]\arXivpreprintarXiv:1810.08126,2018.

      [7]LuoJianhao,WuJianxin,LinWeiyao.ThiNet:Afilterlevelpruningmethodfordeepneuralnetworkcompression[C]//InIEEEInternationalConferenceonComputerVision,2017:5058–5066.

      [8]MolchanovP,TyreeS,KarrasT,etal.Pruningconvolutionalneuralnetworksforresourceefficienttransferlearning[C]//arXivpreprintarXiv:1611.06440,2016.

      [9]CourbariauxM,HubaraI,SoudryD,etal.Binarizedneuralnetworks:Trainingdeepneuralnetworkswithweightsandactivationsconstrainedto+1or-1[C]//arXivpreprintarXiv:1602.02830,2016.

      作者:張曉冰,龔海剛,劉明

    轉載請注明來自發表學術論文網:http://www.cnzjbx.cn/dzlw/27974.html

    五级黄18以上免费看