<address id="vfzrl"><nobr id="vfzrl"><progress id="vfzrl"></progress></nobr></address>
    <address id="vfzrl"></address>

    <address id="vfzrl"></address>

    <em id="vfzrl"><form id="vfzrl"><nobr id="vfzrl"></nobr></form></em><address id="vfzrl"></address>
    <address id="vfzrl"></address>

    <noframes id="vfzrl"><form id="vfzrl"><th id="vfzrl"></th></form><form id="vfzrl"><th id="vfzrl"><th id="vfzrl"></th></th></form>

    國內或國外 期刊或論文

    您當前的位置:發表學術論文網電子論文》 基于圖數據庫與機器學習的業務安全風控平臺> 正文

    基于圖數據庫與機器學習的業務安全風控平臺

    所屬分類:電子論文 閱讀次 時間:2020-04-21 11:36

    本文摘要:摘要:研制基于圖數據庫與機器學習的業務安全風控平臺,實現對中國移動電子渠道中的業務安全進行安全風險控制;風控平臺基于圖數據庫和機器學習算法模型對中國移動電子渠道上的業務數據基于圖數據庫和機器學習進行建模分析,通過構建多模型融合的機器學習算法

      摘要:研制基于圖數據庫與機器學習的業務安全風控平臺,實現對中國移動電子渠道中的業務安全進行安全風險控制;風控平臺基于圖數據庫和機器學習算法模型對中國移動電子渠道上的業務數據基于圖數據庫和機器學習進行建模分析,通過構建多模型融合的機器學習算法進行“黑產”行為進行檢測以及基于圖數據庫識別出異常“黑產”群體,以群體的視角發現異常“黑產”,從而能夠很好地對話費類和流量類兩類營銷活動場景進行批量操作、薅羊毛等異常行為進行有效的識別和風險控制。

      關鍵詞:用戶行為分析;大數據;機器學習;圖數據庫

    機器人技術與應用

      1引言

      隨著互聯網服務的快速發展,越來越多的業務服務從傳統的線下渠道遷移到在線、實時的平臺上。業務方為了培育市場,在運營和推廣方投入大量資金,取得巨大的經濟效益和用戶體驗。但是,這也給互聯網“黑色產業”提供了滋生的土壤,各類風險問題層出不窮。不法分子不僅批量在線申請號卡、以團伙形式進行薅羊毛行為,同時利用辦理的號碼進行套利、詐騙等危害社會行為。此類行為對中國移動造成營銷資金的損失,也對企業形象產生不良影響。

      2用戶業務行為數據處理

      首先將對用戶的屬性信息及歷史行為數據,利用規則匹配、統計分析等方法進行用戶業務行為特征刻畫,形成高度概括的自然特征和行為特征,為異常行為識別和基于圖數據庫異常“黑產”群體識別分析提供基礎數據支撐。其次,將用戶行為數據、標簽、特征等數據,輸入到多模型融合的異常識別評分模型中計算用戶風險評分,通過分值將用戶的風險進行量化,為實時風控平臺和業務系統提供風險判斷依據,同時根據風險評分表中的異常用戶,基于圖數據庫異常“黑產”群體識別分析。

      3基于機器學習的異常行為識別

      提取上述所有用戶信息特征,采用算法模型計算各業務行為的異常分值,業務行為分值會遠遠高于正常頁面的分值。分別使用如下算法模型進行計算:GMM(高斯混合模型)、LocalOutlierFactor(局部異常因子算法)、IsolationForest(孤立森林),生成最終異常用戶業務行為分值表。通過添加閾值使每一個算法都有決策權,最終通過組合模型管用的投票機制選擇異常。

      3.1高斯混合模型(GaussianMixedModel,GMM)

      高斯混合模型也是一種常見的聚類算法,與kmeans算法類似,同樣是使用了EM算法進行迭代計算。高斯混合模型假設每個簇的數據都是符合高斯分布(通常稱為正態分布)的當前數據呈現的分布就是各個簇的高斯分布疊加在一起的結果。如果只用一個高斯分布來擬合圖中的數據,就會出現一個橢圓(二倍標準差的高斯分布)。但是可以直觀的來看,數據明顯分為兩簇,因此只用一個高斯分布來擬合是不合理的,需要推廣到多個高斯分布的疊加來對數據進行擬合。

      3.2局部異常因子檢測(LocalOutlierFactor)

      局部離群因子通過計算一個數值score來反映一個樣本的異常程度。一個樣本點周圍的樣本點所處位置的平均密度比上該樣本點所在位置的密度。(1)設定k值,對指定點A找到最鄰近k個點;(2)計算A點到這些點的歐式距離記為𝑁𝑘(𝐴),其中最大距離為A點可探測距離;(3)求出局部可達密度;(4)同樣的方法對其他點的進行計算,算出局部異常因子:𝐿𝐿𝐹𝑘(𝐴)=∑𝑙𝑙𝑙(𝐵)𝐵𝑟𝑟(𝐴)∈𝑁𝑘(𝐴)|𝑁𝑘(𝐴)|=∑𝐵∈𝑁𝑙𝑙𝑙(𝐵)𝑘(𝐴)|𝑁𝑘(𝐴)|/𝑙𝑙𝑙(𝐴)(3)(5)最終設定閾值,輸出異常點。

      3.3IsolationForest(孤立森林算法模型)

      孤立森林屬于一種無參數的非監督算法,他是一種偵測異常十分有效的組合算法,底層用的是決策樹。(1)建立n個決策樹模型;(2)隨機抽取樣本數據輸入這n個模型進行訓練(隨機按最大最小切割),切到指定異常數據比例為止;(3)利用n個決策樹進行投票,求出異常系數。

      3.4多模型融合機器學習算法利用上面三個模型做組合模型處理

      通過GMM、LocalOutlierFactor、IsolationForest算法構建多模型融合的一種無監督機器學習模型。這種多模型融合的機器學習算法,綜合了GMM、LocalOutlierFactor、IsolationForest算法模型之間的優點,具有以下優點:首先,從統計的方面來看,由于學習任務的假設空間往往很大,可能有多個假設在訓練集上達到同等性能,此時若使用單學習器可能因誤選而導致泛化性能不佳,結合多個學習器則會減小這一風險。

      第二,從計算的方面來看,GMM算法往往會陷入局部極小,有的局部極小點所對應的泛化性能可能很糟糕,而通過GMM、LocalOutlierFactor、IsolationForest多次運行之后進行結合,可降低陷入糟糕局部極小點的風險,特別是IsolationForest對內存要求低,且處理速度快,具有線性時間復雜度,因為是ensemble的方法,所以可以用在含有海量數據的數據集上面;第三,從表示的方面來看,某些學習任務的真實假設可能不在當前學習算法所考慮的假設空間中,此時若使用單學習器則肯定無效,而通過結合多個學習器,由于相應的假設空間有所擴大,有可能學得更好的近似。本文通過GMM、LocalOutlierFactor、IsolationForest算法構建多模型融合。

      4基于圖數據庫的群體識別模型

      基于某次注冊業務推廣活動的相關數據,注冊推廣頁面,出現多個賬號推廣注冊并獲取積分成功后,向同一手機號碼兌換積分的現象,疑似出現黑產薅羊毛現象。為了明確目前面臨的安全風險,并在此基礎上,尋求整體、可靠和完善的解決方案,基礎架構組對注冊頁面進行了安全檢測,并根據電子渠道后臺的數據信息進行多維度分析,同時利用外部黑產情報庫進行數據比對,發現此次活動推廣,存在明顯的黑產“薅羊毛”特征:攻擊者利用(或者偽造)大量終端和代理IP,在活動中注冊大量的賬號,借此獲取積分后兌換優惠券;诖舜巫詷I務推廣活動的相關數據,我們發現本次營銷活動,存在明顯的黑產薅羊毛特征:攻擊者利用(或者偽造)大量終端(利用IMEI標識)和代理IP,在活動注冊大量的賬號,然后獲取積分后兌換優惠券。設計圖數據庫的Schema與數據導入。

      5總結

      本文分析了電子渠道存在的業務安全風險問題,尤其是從事“黑產”活動的用戶行為,不僅損害了電子渠道本身的利益,同時也危害了正常用戶的業務活動體驗以及正常市場秩序。就上述問題,本文創新性地提出一種基于圖數據庫與機器學習的業務安全風控平臺,可以很好地保障電子渠道中的業務安全,一方面通過使用GMM、LocalOutlierFactor、IsolationForest算法構建多模型融合的一種無監督機器學習模型,有效識別電子渠道中存在的異常“黑產”行為用戶;另一方面,基于圖數據庫識別出異常“黑產”群體,以群體的視角發現異常“黑產”,可以發現更多從事異常活動的賬戶,做到以點帶面的效果。

      參考文獻:

      [1]周志華.機器學習[J].中國民商,2016.

      [2]中國移動電子渠道運營中心發展戰略研究[D].電子科技大學,2015

      機器方向論文投稿刊物:《機器人技術與應用》(雙月刊)1988年創刊,是公開發行的科技刊物,國際機器人聯合會會員單位,在國內自動化領域享有很高的聲譽,國外亦有一定的影響。本刊主要報道工業自動化和機器人領域的相關理論、技術與應用等方面的最新進展情況,涵蓋面廣,集知識性與趣味性于一體,具有很強的技術性和可讀性。

    轉載請注明來自發表學術論文網:http://www.cnzjbx.cn/dzlw/22514.html

    五级黄18以上免费看