<address id="vfzrl"><nobr id="vfzrl"><progress id="vfzrl"></progress></nobr></address>
    <address id="vfzrl"></address>

    <address id="vfzrl"></address>

    <em id="vfzrl"><form id="vfzrl"><nobr id="vfzrl"></nobr></form></em><address id="vfzrl"></address>
    <address id="vfzrl"></address>

    <noframes id="vfzrl"><form id="vfzrl"><th id="vfzrl"></th></form><form id="vfzrl"><th id="vfzrl"><th id="vfzrl"></th></th></form>

    國內或國外 期刊或論文

    您當前的位置:發表學術論文網電子論文》 國產化環境下基于強化學習的地空協同作戰仿真> 正文

    國產化環境下基于強化學習的地空協同作戰仿真

    所屬分類:電子論文 閱讀次 時間:2022-03-16 10:36

    本文摘要:摘要:以未來戰場無人地空協同作戰為需求牽引,面對軍事領域實戰場景匱乏、訓練數據不足的實際問題,聚焦仿真環境下的深度強化學習方法,實現地空協同作戰仿真中多智能體決策模型。在飛騰CPU和昆侖K200硬件平臺與麒麟V10操作系統環境下搭建虛擬仿真環境,設置仿真環境

      摘要:以未來戰場無人地空協同作戰為需求牽引,面對軍事領域實戰場景匱乏、訓練數據不足的實際問題,聚焦仿真環境下的深度強化學習方法,實現地空協同作戰仿真中多智能體決策模型。在飛騰CPU和昆侖K200硬件平臺與麒麟V10操作系統環境下搭建虛擬仿真環境,設置仿真環境狀態表征、各智能體動作空間及獎勵機制,構建基于深度確定性策略梯度算法的多智能體模型(MADDPG),通過仿真實驗驗證采用MADDPG算法能夠使獎勵值在地空協同作戰仿真場景中逐漸收斂,從而證明該模型應用于地空協同作戰的決策有效性。

      關鍵詞:地空協同作戰;強化學習;基于深度確定性策略梯度算法的多智能體模型;國產化環境

    強化學習論文

      引言

      隨著未來戰爭環境愈發復雜多變,具有強隱蔽性、高伴隨性、不受時空因素制約無人作戰裝備的重要性日益凸顯[1],甚至將顛覆傳統戰爭理念。在無人化裝備基礎上,為提升作戰效能提出的協同作戰概念也引起了廣泛關注。不論是有人-無人協同,還是無人-無人協同,通過態勢共享、統一決策,形成功能完備、優勢互補的有機整體,達到1+1>2的效果。地空協同作戰是未來協同作戰的重要形式,無人機將是坦克在偵察、火力等方面的強力補充,二者聯合作戰可實現作戰集群整體效能最大化[2]。

      得益于近年來人工智能技術的飛速發展,單一無人裝備的控制方式逐步由遠程遙控向自主控制轉變,已初步具備感知、分析、決策和執行的能力,但協同作戰能力仍有限。接近實際應用場景的無人地空聯合作戰更由于可變因素眾多、環境復雜性高而呈現出異常艱難的特點。

      另一方面,數據稀缺性很大程度上限制著以傳統算法進行的無人協同作戰研究,主要體現在無法通過收集真實的戰場數據調教智控算法。強化學習的興起為無人協同作戰提供了另外一種研究思路,以作戰單元為智能體,通過其自學習優化策略,在無訓練數據的條件下實現復雜戰場環境中的地空力量協同配合。本文針對實戰環境稀缺、作戰數據積累不足等實際問題,聚焦于仿真環境中的強化學習方法。同時考慮到自主可控需求,在國產化飛騰CPU和昆侖K200硬件平臺與麒麟V10操作系統環境上搭建了虛擬仿真環境,構建了一種地空協同作戰場景下的基于深度確定性策略梯度算法的決策模型,通過智能體與環境交互自學習,以實現地面裝備、無人機等智能體的相互協同與配合攻敵。

      1相關研究

      決策模型是作戰仿真模擬的“大腦”,一般可分為基于規則、基于深度學習和基于強化學習的三種方法[3];谝巹t的決策模型是對專家經驗建模,形成具有泛化能力的狀態機,驅動仿真對象的行為,其優勢是可以充分利用先驗知識,但策略空間有限,適用于領域知識完備的軍事博弈對抗;基于深度學習的決策模型是通過學習歷史對抗數據生成決策神經網絡,具有較高的泛化性,但模型依賴于海量數據積累且可解釋性差;基于強化學習的決策模型是利用智能體不斷試錯以學得決策網絡。基于強化學習的方法和基于深度學習的方法類似,雖然都存在可解釋性差的問題,但其優勢是不需要依賴數據積累,因此格外適合軍事領域缺乏訓練數據積累的場景。

      1.1深度強化學習

      強化學習(RL)的要素包括環境、智能體、值函數和策略函數,其核心思想是通過最大化智能體從環境中獲得的獎勵值,以學習到完成目標的最優策略。隨著深度Q網絡(DQN)[4]的提出而興起的深度強化學習(DRL)是強化學習和深度學習的結合。DQN創新性地使用深度神經網絡作為近似表示值函數的方式,以處理視覺圖像為輸入的任務。利用深度神經網絡,一可以更高效地表征環境狀態,二可以使獎勵函數訓練擬合更穩定,三可以提高算法的泛化能力使之適用于不同任務。

      DRL算法大致可分為基于值函數的DRL、基于策略梯度的DRL和基于搜索與監督的DRL三類。以DQN為代表的基于值函數的DRL算法通過更新值函數Q來學習行動策略,但只適用于離散動作空間。在真實場景中,如自動駕駛、無人機控制等,往往需要輸出連續的動作更精確地操控智能體。

      Lillicrap等[5]基于策略梯度優化方法改造DQN,提出基于行動者-評論家(AC)框架的深度確定性策略梯度(DDPG)算法,可用于解決連續動作空間上的DRL問題;谒阉髋c監督的DRL是將監督學習和搜索策略相結合,常應用于游戲博弈中,AlphaGo圍棋算法[6]中利用蒙特卡洛搜索樹結合策略網絡以及值網絡的方法,就是這種DRL策略的典型實踐。

      1.2多智能體強化學習

      在解決真實場景復雜決策問題過程中,往往涉及到多個智能體間的協作配合,因此僅考慮單一智能體的決策模型問題解決能力十分有限,多智能體深度強化學習(MADRL)成為強化學習領域研究的重點和難點。MADRL問題按智能體協作類型可分為完全合作、完全競爭和混合環境。Hernandez-Leal等[7]將MADRL研究分為以下4類內容:

      1)行為分析。把DRL算法直接應用與多智能體環境中,每個智能體獨立學習行為策略并將其他智能體看作環境的一部分[8],適用于完全合作、完全競爭和混合環境,但容易出現非平穩性問題。2)通信學習。著重探索智能體間共享信息的方式,如直接消息通訊或共享內存,可用于處理完全合作和混合環境問題。

      3)協作學習。在智能體間無通信的環境下,將多智能體學習、強化學習的思想擴展到MADRL領域,該類型工作仍然是多智能體學習的主流方向。例如將DDPG算法擴展到多智能體環境的多智能體深度確定性策略梯度算法(MADDPG)[9]。該類型算法實驗環境包括完全合作、完全競爭和混合環境。4)智能體建模。通過對智能體建模,加強智能體間合作、推斷隱藏目標以及解釋其他智能體的學習行為。這類算法通常應用于完全競爭和混合環境。

      1.3軍事應用

      強化學習側重學習解決問題的策略,因此被認為是通向人工智能的重要途徑。目前強化學習已在參數調優[10]、機器人控制[11]、游戲博弈[4,6,12]、自動駕駛[13]等場景中得到了廣泛應用。隨著技術逐步成熟,強化學習在軍事領域也得到了更多的關注。軍事博弈與游戲博弈有著高度相似性,因此AlphaGo、AlphaStar的成功引發了強化學習在指揮決策[14]、作戰任務規劃[15]中應用的探討。

      仿真作戰方面,李航等[3]構建了適用于強化學習的軍事智能博弈對抗系統框架;徐志雄等[16-17]將基于DoubleBP神經網絡的分層強化學習方法、基于MMSarsa的強化學習方法應用于坦克對戰仿真中;盧銳軒等[18]設計并實驗了基于強化學習的1V1空戰仿真;黃曉冬等[19]將DQN算法應用到海戰場船舶路徑規劃仿真中。作為軍事領域戰術優化、決策輔助的重要手段,目前基于強化學習的仿真作戰研究還存在著想定單一、仿真環境設置簡單、未充分考慮實際協同作戰需求的不足,距離實戰應用仍有一定的距離。

      2基于MADDPG的地空協同作戰模型構建

      地空協同作戰是典型的混合環境下多智能體學習問題,其中對智能體的控制是一個連續過程,DDPG算法以及MADDPG算法可實現對各智能體的連續操控。另外,多智能體MADDPG算法全局化學習策略相較每個智能體單獨使用DDPG學習能獲得更平穩地訓練過程。

      因此,本文基于MADDPG算法構建地空協同作戰模型,在不需要訓練樣本的前提下,依托作戰仿真環境對多智能體進行訓練。多智能體深度確定性策略梯度(MADDPG)算法[9]通過改造DDPG算法,使其適用于多智能體環境。MADDPG算法的核心思路是在訓練階段使用觀察全局的Critic網絡獲取其他智能體的策略,而推理階段僅使用有局部觀測的Actor網絡采取行動,即中心化訓練和非中心化執行。這種結構一是使智能體學得更加全局的策略,二是可以緩解由于智能體分別優化策略而導致的環境不穩定問題。

      3實驗設計及結果

      基于國產化軟硬件環境,設計紅藍雙方對抗想定以驗證地空協同作戰中MADDPG算法決策的有效性。

      3.1實驗環境搭建

      實驗環境的搭建分為硬件實驗環境和軟件仿真環境兩個部分。硬件實驗環境設施采用國產化自主可控器件,以應對目前軍事領域對國產化要求;軟件仿真環境同樣采用國產化的深度學習框架與國產仿真推演平臺。

      3.1.1實驗硬件環境

      實驗硬件環境為一臺可插8塊國產昆侖K200高性能計算卡和國產飛騰CPU組成的服務器,運行麒麟V10(SP1)操作系統,封裝有飛槳國產深度學習框架。整機采用2U機架式,基于國產飛騰S2500設計,具有128個處理器核心,采用ARMV8架構,內存為64GBDDR4ECCRDIMM,硬盤采用240GB數據中心級SSD,支持8塊3.5英寸/2.5英寸SATA/SAS6Gb/s熱插拔磁盤,3個PCIE3.0×16和3個PCIE3.0×8插槽。昆侖K200高性能計算卡采用XPU架構,HBM內存達到16GB,單塊計算卡在全精度浮點數情況下能夠提供16TOPS、在半精度浮點數情況下能夠提供64TOPS、在8位整型情況下能夠提供256TOPS的峰值算力,HBM訪問寬帶為512GB/s.硬件環境采用PCIE插槽的方式,昆侖K200高性能計算卡通過PCIE與飛騰CPU進行通信。

      3.1.2軟件仿真環境

      軟件運行環境基于麒麟V10系統搭建,分為仿真環境和決策模型兩部分。仿真環境采用墨子仿真推演平臺,包括可視化界面以及與模型交互的數據接口,決策模型基于飛槳深度學習框架實現MADDPG算法。仿真環境和決策模型之間通過數據接口進行交互,實現模型對仿真環境中智能體的驅動以及仿真環境狀態、行動獎勵對模型的反饋。

      3.2仿真環境

      構建地空協同作戰場景下的仿真作戰任務,紅藍雙方兵力設置分別為紅方坦克2輛,無人機1架;藍方坦克1輛,地空導彈3排。其中,地空導彈僅具有對空擊打能力,固定位置無法移動。無人機具有偵察功能,并攜帶反坦克導彈。藍方坦克攻擊范圍大于紅方坦克。任務以紅方擊毀藍方坦克為勝利,以紅方所有坦克、無人機被摧毀或時間耗盡為失敗。分別設定紅藍雙方各智能體的獎勵機制。

      對紅方坦克,擊毀藍方坦克記100分,擊中但未擊毀時得分與藍方坦克戰損值呈正比;擊毀藍方地空導彈記50分,擊中但未擊毀時得分與導彈戰損值呈正比。紅方坦克被擊毀記-100分,被擊中但未被擊毀得分與戰損值呈反比。紅方無人機被擊毀記-50分,被擊中但未被擊毀得分與戰損值呈反比。對藍方坦克來說,擊毀紅方坦克記100分,擊中但未擊毀時得分與紅方坦克戰損值呈正比;被擊毀記-100分,被擊中但未被擊毀得分與戰損值呈反比。藍方地空導彈擊中紅方無人機記50分,被擊毀記-50分,被擊中但未被擊毀得分與戰損值呈反比。

      3.3參數配置

      本文實驗共訓練20000輪,每輪訓練以紅藍一方勝利或達到單輪最大決策步數結束。每輪最大決策步數為30步,仿真時間每120s進行一步決策,在仿真平臺可視化推演速度設置為30倍加速,即每輪訓練時間上限為實際時間2min,仿真時間60min.一輪訓練結束后,計算雙方得分情況,初始化雙方得分,進入下一輪學習。MADDPG算法中學習率lr=0.001,折扣因子γ=0.95,更新系數τ=0.01.

      4結束語

      本文研究了仿真環境下地空協同作戰決策模型設計與應用,分析了地空協同作戰仿真研究的重點和難點,針對缺乏訓練數據的問題聚焦強化學習方法,針對坦克、無人機連續控制問題選用深度確定性策略梯度算法,針對多智能體協同問題最終確定使用MADDPG算法作為地空協同作戰決策模型。在國產化軟硬件環境下,搭建了地空協同作戰仿真實驗場景并通過模型訓練達到獎勵值收斂,從而驗證了MADDPG算法在地空協同作戰仿真場景下決策的有效性。

      多智能體協同作戰研究作為軍事博弈與人工智能的交叉領域,目前還處于起步階段,未來將在以下方向繼續探索:1)當前僅驗證在單一場景下決策模型有效性,可進一步提高模型泛化能力使其適用于多種場景。2)為簡化計算過程,目前僅選取部分有代表性的參數描述狀態空間與動作空間,存在與真實世界擬合度低的問題,可進一步優化仿真環境狀態空間與智能體動作空間的表征。3)強化學習雖然具有無需訓練數據等優勢,但可解釋性差且無法利用專家經驗,并且智能體行為存在小范圍內抖動的問題,因此可展開強化學習與決策樹等方法相結合的仿真決策模型探索。

      參考文獻(References)

      [1]孟紅,朱森地面無人系統的發展及未來趨勢[J].兵工學報,2014,35(增刊1):17.MENGH,ZHUS.Thedevelopmentandfuturetrendsofunmannedgroundsystems[J].ActaArmamentarii,2014,35(S1):17.(nChinese)

      [2]張宇,張琰,邱綿浩,等地空無人平臺協同作戰應用研究[J].火力與指揮控制,2021,46(5):1,11.ZHANGY,ZHANGY,QIUMH,etal.Researchonthegroundairunmannedplatformcooperativecombatapplication[J].FireControl&CommandControl,2021,46(5):1,11(inChinese)

      [3]李航,劉代金,劉禹軍事智能博弈對抗系統設計框架研究[J].火力與指揮控制,2020,45(9):116121.LIH,LIUDJ,LIUY.Architecturedesignresearchofmilitaryintelligentwargamesystem[J].FireControl&CommandControl,2020,45(9):116121.(inChinese)[4]MNIHV,KAVUKCUOGLUK,SILVERD,etal.PlayingAtariwithdeepreinforcementlearning[J/OL].ComputerScience,2013.arXivpreprintarXiv:1312.5602.

      作者:李理,李旭光,郭凱杰,史超,陳昭文

    轉載請注明來自發表學術論文網:http://www.cnzjbx.cn/dzlw/29784.html

    五级黄18以上免费看