本文摘要:摘 要: 針對智能化綜采管理平臺存在的信息孤島以及子系統割裂等煤礦建設中存在的一系列問 題,提出了智能化綜采管理平臺中的多源異構數據處理系統為主體的智能化煤礦建設體系架構。 通過對大數據的采集、存儲、分析以及系統實現,在井下構建智能化的多源異構
摘 要: 針對智能化綜采管理平臺存在的信息孤島以及子系統割裂等煤礦建設中存在的一系列問 題,提出了智能化綜采管理平臺中的多源異構數據處理系統為主體的智能化煤礦建設體系架構。 通過對大數據的采集、存儲、分析以及系統實現,在井下構建智能化的多源異構大數據平臺,成功建 成了各個子系統之間能夠統一管理、信息之間能夠共享的格局。分析認為,多源異構數據處理系統 可實現各類多源異構數據的高效傳輸和快速處理分析,能消除信息孤島,以及設備持續 開采的周期壽命進行預警預判和自動分析。
關鍵詞: 智能化綜采; 多源異構數據; 數據倉庫; 數據處理
0 引言
煤礦綜采自動化技術對實現煤炭安全、高效的 回采具有非常重要的意義,是國家經濟發展所需煤 炭供應的先決條件。國家“十五”“十一五”期間以來,我國煤炭開采技術及裝備取得重大進步,推動了 煤礦安全高效綠色開采技術的發展,建成了一大批 綜合機械化和高自動化程度的現代化礦井,生產效 率、安全指標和煤炭產量大幅度提高[1-4]。
國內煤 礦企業也在積極探索綜采自動化技術的研究,并進 行了多方面的嘗試,取得了顯著進步。但由于綜采 工作面復雜的生產過程,龐大的綜采設備系統,各設 備作業條件協同復雜,動作繁多,且對動作的邏輯順 序、準確性、響應速度要求高,所以針對其監控和管理面臨著各設備控制方式分散、無法實現快速、準確 的協 作,不 能 充 分 發 揮 設 備 性 能,生 產 效 率 較 低[5-8]。
而且綜采工作面自動化系統以過程化控制 為核心,與生產管理過程脫節,未進行高效實時的實 現信息的集成和互通,不能有效的對綜采關鍵設備 進行管理,無法為生產管理者提供決策和建議。因 此,綜采自動化系統的統一管理平臺應運而生,但對 于智能化綜采管理平臺中多源異構數據的處理仍需 進一步探究。
1 智能化綜采管理平臺應用現狀
現有的安全生產監測監控系統,多是局部性、少 量指標的檢測[9-11]。同時,因為生產廠商以及系統 建設兩者在時期上存在差異,所有子系統在通信協 議和接入技術上不能夠實現統一,子系統之間存在 較大的數據結構差異,同時具有多源性和異構性的 特點。煤礦井下設備( 包含各裝備、機器、儀器等電 子設施) 的數據采集均通過監控系統直接從設備上 采集。
設備廠商對不同專業設備開發對應的監控系 統從設備上實時獲取數據。對煤礦而言,數據只能 在監控系統中查看,不能在其它系統中實時使用; 對 開發商來講,每個監控系統既要負責數據的采集,又要負責數據的校驗、傳輸、共享,大部分功能重復開 發,造成系統臃腫,改動困難。而現有設備數據采集 沒有統一的數據標準、采集標準,在使用采集數據 時,需要根據每種提供的格式進行解析、轉換,增加 了出錯機率與重復工作量。并且,現有設備所生成 的數據格式多樣,包含結構化、半結構化和非結構化 數據。因此,多源異構數據的處理就成為智能化綜 采管理平臺運轉的核心引擎。
2 多源異構大數據處理框架
2. 1 數據采集與 ETL 數據處理系統架構:
智能化綜采管理平臺中數 據來源十分廣泛,例如,運輸三機、采煤機等各種生 產器械、電液控制等器械系統、各種傳感器的安全監 測數 據、用 戶 操 作 行 為 數 據、故 障 及 報 警 數 據 等[12-14]。這些數據通過各自本身的監控系統及各 種終端設備直接傳輸到云端,由于各設備的生產廠 商不同,且暫無統一的數據標準,所以采集的數據格 式多樣,存在結構化、半結構化和非結構化數據,形 成多源異構數據,并存在重復數據的可能[15-17]。
多 源異構數據處理系統架構,如圖 1 所示。用來描述將數據從來源端經過抽取 ( extract) 、轉換 ( transform) 、加載( load) 至目的端的過程,同時也是構建 數據倉庫至關重要的一個環節,用戶通過數據源抽取出自己需要的數據,經過數據清洗,最終將數據按 照預先定義好的數據倉庫模型加載到數據倉庫中 去。其中數據清洗包含: ①對不精確數據的清洗。
首先就是要識別出數據中的異常。在識別數據中的 異常時,最常用的方法就是統計學的方法。給每個 屬性賦予對應的權重是它的核心思想,對每個屬性 字段值的平均值和標準差進行統計,依據此為每一 個屬性建立一個置信區間,通過查看屬性值是否在 置信區間內來判斷屬性是否異常; ②重復數據的清 洗。在數據倉庫中,最常見的數據質量問題就包括 相似重復數據,不同系統的集成一般會導致大量重 復記錄生成,因此需要判斷兩條數據是否相似或相 同,從而對相似重復數據進行集中的清洗。
2. 2 數據存儲
根據數據集不同的特點和用途,采用不同的數 據庫進行存儲操作。 Gbase /Oracle: Gbase 和 Oracle 兩者都是 SQL 數 據庫,都遵從 SQL 語句,語法也差不多。最大的區 別是表結構不同,Oracle 是傳統行列式,小庫比較 快,大庫靠索引提高效率。Gbase 是分布式,數據不 是按行列來排列而是按區塊分布的,所以小庫的速 度一般般,但是大庫比如 TB 級,效率驚人,數據庫 越大 Gbase 優勢越明顯。
因此采用 Gbase 和 Oracle 對高價值密度數據進行存儲及處理。 SQL on Hadoop: 在 SQL on Hadoop 系統中,有兩 種架構,一種是基于某個運行時,框架構建出查詢引 擎,典型案例是 Hive; 另一種是模仿過去關系數據 庫的 MPP 架構,就是依據過去的 MPP 數據庫架構 創建一個專門的系統,于是就有了 Impala,Presto 等 等。Hive 具有高擴展性的特點,能夠將集群的規模 自由擴展,一般不需要重啟服務; 還具有高延展性, 支持用戶自定義函數,用戶可以根據需求來實現自 己的函數; 同時還具備高容錯性,SQL 在節點出現差 錯時仍可完成執行; 將復雜 MR 任務編寫為 SQL 語 句,提高開發效率; 靈活的數據存儲等。
但是也存在 非常明顯的缺點,具有延遲性,性能還有待提升; 索 引功能還不夠完善,效率較低; 不支持事務類操作。 因此將其作為低價值密度數據的數據倉庫。 MapReduce: MapReduce 是一種編程模型,主要 用于大規模數據集( 大于 1TB) 的并行運算。概念 “Map( 映射) ”和“Reduce( 歸約) ”,是它們的主要思 想,它具有從函數式編程語言以及從矢量編程語言 里借來的特性。MapReduce 對不會分布式并行編程 情況下的程序人員提供了極大的便利,并能在分布 式系統上運行自己的程序,是面向大數據并行處理的計算模型、框架和平臺。利用其并行計算的特點 對低價值密度數據進行批量處理分析。
2. 3 數據處理
系統對于數據的處理分為高價值密度數據和低 價值密度數據兩個部分。 低價值密度數據處理: 數據的價值密度與數據 量成反比,數據量越龐大,其價值密度越低。因此對 于低價值密度的龐大數據,利用 MapReduce 對大數 據并行計算的能力,采用分布式隊列流式計算方法, 進行數據管理和分析挖掘。低價值密度數據的數據 管理包括 Hadoop 集群配置管理、應用管理、資源監 控、安全管理、告警管理等。
分析挖掘則是利用分析 挖掘算法庫中的自然語言、分類算法、推薦算法、聚 類算法、關聯分析等算法對數據進行統計分析、效果 監控、反饋學習和系統監控。 高價值密度數據處理: 對于高價值密度數據,由 于其數據量相對較小可以進行更詳細的數據定義、 數據篩選、分析定制和算法管理工作。
2. 4 功能實現
多源異構數據處理系統目前已在智能化綜采管 理平臺實現運行。通過持續數據采集,實現對生產 設備的預警預判; 通過數據的交叉分析,實現對各綜 采自動化生產過程中的事件關聯性分析決策。通過 數據的積累,豐富企業決策依據; 實現數據的保護以 及數據存儲,讓生產數據具有繼承傳遞性。
煤炭論文投稿刊物:《煤炭學報》是中國煤炭學會主辦的煤炭系統最高水平的綜合性學術刊物,現為雙月刊,112頁。主要刊載與煤炭科學技術相關的基礎理論和重大工程研究的理論成果,包括煤田地質學、礦山巖體力學、采礦工程、煤礦安全、環境保護、煤礦機電一體化、煤的加工與利用、煤炭經濟研究等領域的學術論文。
3 結語
多源異構數據處理系統針對煤礦生產的數據特性,可實現各類多源異構數據的高效傳輸,快速處理分析。此外,可以消除信息孤島,建立統一的數據傳 輸網絡與數據處理中心; 針對煤礦綜采的各個環節的數據采集,結合專家經驗進行開采的安全性預判, 進而對設備持續開采的周期壽命進行預警預判和自動分析。
參考文獻:
[1] 王國法. 綜采自動化智能化無人化成套技術與裝 備發展方向[J]. 煤炭科學技術,2014,42( 9) : 30- 34.
[2] 王金華,黃樂亭,李首濱,等. 綜采工作面智能化 技術與裝備的發展[J]. 煤炭學報,2014,39( 8) : 1418-1423.
[3] 高小強,杜福銀,蔡愛國. 變頻驅動刮板輸送機負 載特性及調速的智能控制策略研究[J]. 礦山機械,2011,39( 11) : 12-16.
[4] 王凱. 基于刮板輸送機負載預測的采煤機調速技 術研究[D]. 徐州: 中國礦業大學,2015.
[5] 谷勇. 基于模糊控制的采煤機截割自動調速控制 系統[J]. 煤礦機械,2013,34( 12) : 151-153.
作者:楊 波,吳 寧
轉載請注明來自發表學術論文網:http://www.cnzjbx.cn/jzlw/24091.html