本文摘要:摘要:[目的/意義]實現學術查詢意圖的自動識別,提高學術搜索引擎的效率。[方法/過程]結合已有查詢意圖特征和學術搜索特點,從基本信息、特定關鍵詞、實體和出現頻率4個層面對查詢表達式進行特征構造,運用NaiveBayes、Logistic回歸、SVM、RandomForest四
摘要:[目的/意義]實現學術查詢意圖的自動識別,提高學術搜索引擎的效率。[方法/過程]結合已有查詢意圖特征和學術搜索特點,從基本信息、特定關鍵詞、實體和出現頻率4個層面對查詢表達式進行特征構造,運用NaiveBayes、Logistic回歸、SVM、RandomForest四種分類算法進行查詢意圖自動識別的預實驗,計算不同方法的準確率、召回率和F值。提出了一種將Logistic回歸算法所預測的識別結果擴展到大規模數據集、提取“關鍵詞類”特征的方法構建學術查詢意圖識別的深度學習兩層分類器。[結果/結論]兩層分類器的宏平均F1值為0.651,優于其他算法,能夠有效平衡不同學術查詢意圖的類別準確率與召回率效果。兩層分類器在學術探索類的效果最好,F1值為0.783。
關鍵詞:學術查詢意圖自動識別兩層分類器
1 引言
隨著科學文獻等學術資源的爆炸增長[1],為快速獲取學術信息、方便學習生活、提高科研工作效率,專業學術搜索引擎從面對少量專業用戶發展為面向大量的、不同類型的用戶;從面對單一的科研需求發展為面向復雜的多樣性需求[2]。與此同時,由于學術數據庫(WebofScience、CNKI等)的檢索系統的專業化,各數據庫間不能共享互聯,“一站式”學術搜索引擎如百度學術、谷歌學術成為學術查詢的首選[3-4]。
由于用戶的學術背景和學術能力不同,在進行學術查詢時其需求往往不同。對于使用學術搜索引擎的科研用戶,其需要多樣化的學術信息,了解研究進展、追蹤研究前沿,簡短的查詢表達式并不足以準確表達其學術查詢意圖;對于學術新手或非科研用戶使用學術搜索引擎時,因其對相關學術領域的了解較淺,進行學術查詢時的關鍵詞并不準確,從而不能獲取精準的學術信息。
學術查詢意圖為用戶進行學術搜索時通過查詢表達式所表達的用戶信息需求。現有的學術搜索引擎多為基于關鍵詞匹配的搜索技術,不能識別學術查詢語句的查詢意圖,而通過對學術查詢意圖的識別,可為進一步優化學術搜索結果、提高檢索效率、節約用戶時間,使得用戶的學術搜索體驗得以提高、獲取更精準的學術信息! 〔樵円鈭D自動識別多采用文本分類的算法,研究人員通常針對一個分類算法,通過組合不同的特征,試驗查詢意圖識別的效果。實驗的基礎是查詢意圖的類目體系,而針對學術查詢意圖的分類大多在普通查詢意圖的基礎上展開,缺乏學術查詢意圖的專門類目體系,在此基礎上,本文的前序基礎研究構建了學術查詢意圖類目體系,共分為5類:
(1)學術文獻類:指用戶通過查詢式獲取某篇特定的學術出版文獻,如通過學術文獻的標題構造查詢式進行查詢! (2)學術實體類:指用戶通過查詢獲取學術實體的相關信息,如科研機構實體“山東省農業科學院作物研究所”! (3)學術探索類:指用戶在某個領域進行探索性查詢,需多次交互查詢才可獲取所需的學術資源,如對學術概念詞“神經網絡算法”進行查詢等!(4)知識問答類:指用戶通過查詢獲取某個特定問題的答案,如“亞急性甲狀腺炎治愈后會復發嗎?”等問題。 (5)非學術文獻類:指用戶通過查詢希望獲取一些政策、行業報告等非學術文獻,如查詢“汽車下鄉的政策”等。 為了適度提高學術查詢意圖分類的召回率,本研究構建了基于Logistic回歸算法的兩層分類器來實現學術查詢意圖的自動識別,提出了適用于學術查詢意圖識別的4個特征:基本信息、詞中信息、實體信息和出現頻率,并在百度學術查詢日志數據集進行測試和評價。
2 相關研究
關于學術查詢意圖識別的研究較少,多為面向圖書查詢的意圖識別研究或應用,如胡伶霞[5]將圖書檢索的查詢意圖分為單意圖與多意圖并利用詞典對檢索詞進行分類,李兵[6]借鑒與完善胡伶霞[5]的圖書檢索的查詢意圖體系用以提高圖書分面檢索的效果。針對學術查詢意圖識別研究較少且多聚焦在圖書查詢意圖研究這一現狀,考慮到學術搜索是搜索的一個特定垂直搜索子領域,因此可借鑒綜合搜索引擎中的用戶查詢意圖識別研究。
以綜合搜索引擎中的用戶查詢意圖為研究對象的查詢意圖識別分類方法可分為人工識別方法[7-8]和自 動識別方法[9]。由于查詢意圖人工識別成本較大,多數研究采用自動識別方法,涉及的分類特征以及分類算法歸納如下:
2.1 查詢意圖自動識別的分類特征來源
查詢意圖自動識別的分類特征來源包括“搜索引擎檢索結果的點擊行為、用戶查詢表達式”等。J.Brenes等[10]指出用戶的點擊行為是查詢意圖分類的最有效特征,但點擊行為數據涉及用戶隱私,存在獲取權限的問題,僅有Y.Liu等[11]的實驗中利用了點擊分布作為特征進行查詢意圖識別。研究人員大多通過對查詢表達式進行分析以獲取綜合搜索中查詢意圖的分類特征,可歸納概括為“基本信息、詞中信息和實體信息”三類。
(1)基本信息:指查詢表達式的長度、詞項個數、詞項長度等基本信息,比如N.Belkin[12]通過實驗得出查詢表達式詞長為2以下的意圖大概率為導航類,詞長越長的查詢表達式為信息類查詢的概率越大。 (2)詞中信息:指查詢表達式中所含的詞匯信息。研究者們對該類特征的研究較多,比如B.Jansen[13]和M.Herrera[14]先后總結了英文綜合搜索中關鍵詞特征與查詢意圖的對應情況;張曉娟[15]總結了中文綜合搜索查詢中不同意圖類別查詢的特征詞。針對學術搜索,M.Khabsa等[16]通過對學術搜索引擎CiteseerX的查詢意圖分析,總結了學術搜索中導航類查詢的特征詞,例如是否包含年份、是否包含標點符號、是否包含停用詞等。盡管利用查詢表達式中的詞匯信息作為特征的方法比較簡單,但眾多研究的結果表明該類特征對查詢意圖的識別較為有效。
(3)實體信息:指查詢表達式中所含有的實體信息,比如張曉娟[15]將實體與查詢意圖進行分類對應,總結出導航類查詢中的實體多為人名、地名、機構名,資源類查詢中實體多為游戲名、歌曲名等;Y.Chang等[17]將實體的自然語言處理結果作為分類的特征。
2.2 查詢意圖自動識別算法
查詢意圖自動識別算法采用基于查詢表達式特征的方法對查詢意圖進行識別,其本質上是一種文本分類方法,在進行分類器選擇時,研究者往往會根據實驗數據集、實驗數據特征和具體分類任務的情況選擇不同的分類算法,如SVM、決策樹、PLAS等,例如,Y.Liu等[11]使用典型決策樹算法將nCS、nRS和點擊分布三種特征結合起來執行識別任務;M.Mendoza[18]利用SVM與PLSA對查詢意圖進行歸類;Y.Chang等[17]提出了使用自然語言處理(NLP)的分析結果作為特征進行查詢意圖分類的方法,取得了較好的結果。查詢意圖自動識別的特征與方法大多針對綜合搜索引擎,較少關注學術搜索這一垂直細分領域,由于學術搜索的專業性與特殊性,其特征與方法并不能直接適用于學術查詢意圖的自動識別,需在查詢意圖識別的基礎上進一步擴展,以適應學術查詢意圖的自動識別。
3 特征選擇與分類器構造
3.1 學術查詢意圖的特征提取
綜合搜索中查詢意圖的特征可從查詢詞中獲得[13],可分為基本信息[12]、詞中信息[13-16]和實體信息[15,17]三類,結合學術搜索的特點,可將學術查詢意圖的分類特征擴展為基本信息、詞中信息、實體信息和詞匯出現頻率的統計特征4個方面。由于百度學術中約占30%的查詢表達式為英文,因此學術查詢意圖分類特征時對中英兩種語言進行了綜合考量。
4 實驗
4.1 實驗數據
本研究獲得了由百度學術提供的查詢日志為實驗數據,該日志記錄了用戶在“百度學術”搜索欄中所有的交互信息,每一條數據記錄了用戶的唯一標識符(UID)、查詢時間(Time)、查詢表達式(Query)以及查詢IP地址(IP)。數據總量為5414886條,剔除亂碼數據、重復數據后,數據總量為3449591條,其中1000條數據已由原論文作者按照前序研究的學術查詢意圖類目體系標注了相應的類別,本文將這1000條數據作為測試集!≡谇逑春蟮臄祿校P者隨機抽取與測試集不同的4000條數據作為訓練集,招募了情報學專業研究生一年級,且有相關標注工作經驗的6名同學,將4000條學術查詢數據標注為“學術文獻類”“學術實體類”“學術探索類”“知識問答類”和“非學術文獻類”五個類別。具體過程如下:
(1)為標注者介紹了標注任務背景、實驗邏輯和 其標注的數據集的使用背景! (2)編寫《學術搜索查詢意圖人工標注指南》,介紹學術查詢意圖類目體系,以1000條測試集中實例說明了5種學術查詢意圖的界限,使標注者對查詢意圖的分類有大體感知。
(3)每兩人一組,獨立根據上述要求,對全部分配的數據進行類別標注。前兩組每組分配1340條數據,第三組分配1320條,合計4000條數據。允許標注者在產生標注疑惑時可借助百度的查詢結果頁內容進行判斷! ⊥瓿扇斯俗⑷蝿蘸螅P者采用Kappa系數來衡量標注結果之間的一致性,對上述3組的標注結果進行了一致性檢驗,Kappa值分別為0.776、0.759、0.806。Kappa值均高于0.75,說明標注者之間分類判別的一致性較高。對于標注結果不同的數據,筆者后續召集了所有的標注者對其進行討論,并按照多數性原則最終類別。
5 總結與展望
本研究聚焦學術查詢意圖的分類研究,通過對學術查詢表達式進行分析,基于已有研究對查詢表達式從基本信息、詞中信息詞、實體信息和詞匯出現頻率的統計特征四個方面進行基礎的特征描述,構建了針對學術查詢進行查詢意圖自動識別的兩層分類器,并基于大規模數據的分類特征提取了“關鍵詞類”特征。對比其他單層分類器相比,本研究提出的兩層分類器在宏平均F1值上取得較好結果,能夠有效兼顧不同查詢意圖類別的準確率與召回率。
圖書館論文投稿刊物:《圖書館學研究》(ResearchesInLibraryScience)雜志創刊于1979年,由吉林省文化廳主管,吉林省圖書館主辦的圖書館學刊物,國際刊號:ISSN1001-0424,國內刊號:CN22-1052/G2,郵發代號:12-205,面向國內外公開發行。
本研究的不足之處在于,由于針對學術查詢意圖研究的成果相對較少,缺乏統一的、大規模的評測數據集,因此,本研究的兩層分類器效果難以與其他實驗結果進行橫向對比。下一步將著重推廣學術查詢意圖自動識別的相關數據集,促進不同方法針對學術查詢意圖的自動識別的橫向對比。
參考文獻:
[1]BORNMANNL,RDIGERM.Growthratesofmodernscience:abibliometricanalysisbasedonthenumberofpublicationsandcitedreferences[J].Journaloftheassociationforinformationscienceandtechnology,2015,66(11):2215-2222.
[2]周劍,王艷,XIEI.世代特征,信息環境變遷與大學生信息素養教育創新[J].中國圖書館學報,2015,41(4):25-39.
[3]DONGX,GABRILOVICHE,GEREMYH,etal.Knowledgevault:awebscaleapproachtoprobabilisticknowledgefusion[C]//Proceedingsofthe20thACMSIGKDDinternationalconferenceonknowledgediscoveryanddatamining.NewYork:ACM,2014:601-610.
[4]趙蓉英,陳燁.學術搜索引擎Googlescholar和Microsoftacademicsearch的比較研究[J].情報科學,2014,32(2):3-6,15.
[5]胡伶霞.圖書館OPAC檢索中基于詞典的查詢意圖自動識別[J].圖書館學研究,2016(23):72-76.
作者:王瑞雪1方婧1桂思思2陸偉1,3張顯4
轉載請注明來自發表學術論文網:http://www.cnzjbx.cn/wslw/26231.html