本文摘要:摘要:[研究目的]引文內容分析是圖書情報學科經典的定性研究方法,對引文內容分析的研究與應用現狀進行梳理與總結,為未來的研究提供參考。[研究方法]在Scopus數據庫中,以citationcontentanalysis、contentbasedcitationanalysis、contentcitationanalysis、in-textcitati
摘要:[研究目的]引文內容分析是圖書情報學科經典的定性研究方法,對引文內容分析的研究與應用現狀進行梳理與總結,為未來的研究提供參考。[研究方法]在Scopus數據庫中,以citationcontentanalysis、contentbasedcitationanalysis、contentcitationanalysis、in-textcitationanalysis等關鍵詞進行檢索,在CNKI數據庫中以引文內容分析、引文語境分析、文內引文分析等關鍵詞檢索,采用人工篩選的方式獲得文獻87篇文獻,從引文文內特征、引文語義關系、引文內容本體、應用和研究框架等5個方面對當前研究進行了總結和評述。[研究結論]引文內容分析能夠揭示引文之間深層次的語義關系,并作出客觀、科學的學術評價結論,但引文關系非常復雜,涉及引用目的、引用動機、引用情感、引用功能等多個因素。對于引文間語義關系的研究,在生物醫學領域缺乏具有統一的規范化的界定和框架。從應用角度來看,利用自然語言處理和深度學習技術實現自動引文情感分類,以識別出具有可重復價值的臨床研究文獻進行推薦,區分出不可重復的臨床實驗,從而避免醫學資源浪費是非常有意義的;谥R實體的引文內容分析給學術評價和科研管理帶來了新的活力,將知識圖譜和引文內容分析的有機結合能夠實現智能化知識發現,是值得進一步探索的方向。
關鍵詞:引文內容分析;引文語義關系;引文內容本體;引文分類;學術評價
在科學研究評價中,引文分析是最為重要的一種評價方法,在期刊評價、世界高校排名中引文數據都是重要的參考依據。在文獻計量分析中,對研究論文影響力的測度通常是通過引文進行的,例如文獻被引頻次、期刊影響因子[1]、H指數[2]、g指數[3]等定量計算方法。
引文分析方向投稿知識: 引用率高的論文水平就高嗎
傳統的引文分析方法,只能揭示兩篇文獻之間的引用和被引關系,所有引文均等同視之,沒有根據引文的重要性進行區分,不能說明被引文獻對于施引文獻的具體作用和價值,也沒有考慮到作者在引文文獻時的情感態度,這種評價難以真實反應被引文獻的內容和質量水平。Metron曾提出引文規范性理論[4],他認為引文是用于償還智力債務的一種形式,是對前人智力成果的褒獎或信譽加分,然而隨后有研究發現,存在大量的引文行為并沒有遵循這種規范,其意圖甚至與之相悖[5],Gilbert也質疑莫頓的規范性假說過于理想化,他認為作者引用某篇權威文獻是為了支持自己的觀點和結論[6]。
其實作者在引用文獻時經歷了一個復雜的過程,涉及到引用動機、引用目的和引用情感等多個方面[7],作者往往有多種理由去引用文獻,而不同引文在學術交流的過程中也會發揮不同的功能。引用行為讓施引文獻和被引文獻之間產生了緊密的聯系,但這種關系不僅限于引用和被引,還存在更加復雜的語義關聯,例如Catalini等[8]利用自然語義處理技術對JournalofImmunology期刊中的負面引文進行實證研究,發現了負面引用與高質量論文之間存在聯系。
隨著對引文內容分析研究的深入,研究者正在積極探索將引文內容在學術評價中的作用。引文內容分析能夠深入的挖掘施引文獻和被引文獻之間的語義關聯,因為引文文本是作者在引用文獻時做出的評價和解釋,承載了作者引用該文獻的目的和情感偏向,通過對引用語境或引用內容進行分類分析能夠揭示文獻引用的深層次語義內涵,從而更好地對論文質量進行評價。引文分析是圖書情報學科的經典研究方法之一,因此本文對已有的基于內容的引文分析研究進行梳理總結,重點介紹目前引文內容分析領域的研究進展和研究框架,追蹤新的研究熱點,并分析其存在的問題,以期為學術評價和知識關聯領域提供新的視角。
1數據收集
我們在Scopus數據庫中利用“題名-摘要-關鍵詞冶途徑進行文獻檢索,采用的檢索式如下:TITLEABS-KEY(“citationcontentanalysis冶)ORTITLE-ABS-KEY(“contentbasedcitationanalysis冶)ORTI鄄TLE-ABS-KEY(“contentcitationanalysis冶)ORTI鄄TLE-ABS-KEY(“in-textcitationanalysis冶)ORTI鄄TLE-ABS-KEY(“citationrelation冶),不限定年代,共獲得文獻205篇。
在CNKI數據庫中利用“篇關摘冶途徑進行檢索,檢索式如下:TKA=引文內容分析ORTKA=引文語境分析ORTKA=引文上下文分析ORTKA=文內引文分析ORTKA=引文語義關系ORTKA=引文分類ORTKA=引文本體,不限定年代,共獲得文獻50篇。然后通過人工閱讀題名和摘要,排除引文網絡分析、文獻計量分析等具體應用案例文獻,最終獲得87文獻供進一步分析。
2傳統的引文分析
科學是一個包含研究者、項目和成果的巨大網絡,而引文則是將這些節點聯系起來的連線。為了及時追蹤科學前沿,了解文獻及科學發展動態,1955年,Eu鄄geneGarfield提出了科學引文索引(CitationIndexesforScience)[9],隨后在1963年開始編制和出版科學引文索引,該索引建立之初是用于檢索和追蹤科學文獻信息,但隨后發現引文數據對于文獻和期刊層面的評價起到了重要的促進作用,因此有學者利用文獻獲得的引用次數來評價該文獻的影響力和質量,利用學術期刊的影響因子來評價期刊的重要性。隨著WebofScience、PubMed、Scopus、GoogleScholar、MicrosoftAcademic等電子文獻數據庫的出現,文獻的引用和傳播路徑得到了極大的擴展。
對于個人研究者而言,利用引文分析可以發現更多的相關文獻,提高檢索效率。而對于學科層面,利用引文分析能夠對科學活動和行為進行評價。近些年,替代計量學的出現為彌補了傳統文獻計量的不足,為引文分析提供了更多的統計指標,例如讀者閱讀數量、微博評論數量等。引文分析在科學地圖繪制、識別研究前沿和熱點、學術評價、影響因子、論文質量評價等領域取得了重要的理論和實踐成果,但傳統的引文分析大多依賴于引文數據庫的構建,這種模式存在諸多問題:(1)將所有引用等同視之;(2)僅考慮引文頻次或參考文獻數量;(3)難以揭示施引文獻和被引文獻之間的深層次的語義關系。
3引文文內特征研究
傳統的引文分析從數量上考察引文的影響力,并不把引文文本信息作為研究對象,而引文文本分析則同時考慮定性和定量因素[10]。
引文文本一般是指引文標識所在的句子或與其上下文句子的集合[11],它能提供施引文獻與被引文獻之間關系的重要信息。在引文文本分析中有兩個重要的相似概念:引用語境(cita鄄tioncontext)和引用內容(citationcontent),根據Al鄄jaber[12]的觀點,引用語境是指在施引文獻對被引文獻的描述性和評論性文字,而引用內容則是指對被引文獻內容的描述。ZhuXD[13]也曾提出,當施引文獻中提及一篇參考文獻時,出現在該文獻引文標識附近的文本可當作引用語境。
引文標識是構建引用內容的基礎,引文標識周圍的詞語、語義內容、甚至是隱含內容都是引用內容的一部分[14]。引用內容分析和引用語境分析的目的也是不同的,前者是通過引文標識周圍的語義含義了解和評價被引文獻的內容特征,而后者旨在研究作者的引用過程,包括引用動機和原因[15]。為了在評估學術成果時找到更加準確的文獻計量學方法,越來越多的學者開始關注基于內容的引文分析。從20世紀50年代開始,基于內容的引文分析主要從引文窗、引文分布兩個方面開展。
3.1引文窗的研究
引文內容包含了施引文獻和被引文獻之間關系的重要信息,關于引文內容的范圍界定雖然沒有統一定論,但有很多學者提出了重要的觀點。2008年Ritchie[16]認為位于引文標識附近的詞語是能夠反映被引文獻內容的,并定義了9種引文內容,分別是淤不包含任何引用內容,于僅包含施引句子,盂包含下一句引文之前的1個句子,榆包含施引句子以及該句子的前后兩句,虞包含下一句引文之前的3個句子,愚包含引文標識左右共50個單詞,輿包含引文標識左右共70個單詞,余包含引文標識左右共100個單詞,俞包含完整的施引文獻。后來的研究者發現基于句子的方法比基于單詞數量的方法能更好地識別引文內容。2012年,Athar[17]建議使用四句話作為合適的引文窗,即引用的句子、引用句子前面的1個句子、引用句子后面的2個句子。
較長的引用內容包含了更多的描述性詞語,因此能夠更好地揭示被引文獻的內容。很多學者也將四句話的引文窗作為引文內容分析的金標準[18]。2017年,國內學者章成志等[19]通過對Morgan&Calypool出版的39本學術專著的引文內容進行標注,發現專著中引文及其上下文的平均長度(單詞數)在20-30之間,與學術文獻的結果比較接近。隨著機器學習在文本分析中的應用,引文內容的自動分析有了新的進展,雷聲偉等[20]發現在進行引文上下文識別任務中,用于文本分類的支持向量機(SupportVectorMachine,SVM)比序列標注的條件隨機場(ConditionalRandomField,CRF)方法更加有效。
4引文的語義關系研究
引文內容的語義關系分析主要在引用語境和引用內容的分析的基礎上,從引文的動機、引文的功能、引文的重要性三個方面開展。
4.1引用動機研究
引文動機是作者在引文文獻時的內在心理活動,反應了引用文獻的原因和目的,即為什么要引用文獻。有學者認為引用文獻的主要動機是說服讀者[6],或者通過引用已有成果來增加說服力和提高權威性[27]。學者們希望通過分析和確定文獻被引用的具體原因,從而判斷作者的引用動機和目的。
1964年,EugeneGarfield[28]列舉出了15項作者引用文獻的理由,但是他并沒有深入分析各項理由的出現頻率。該分類體系廣泛而抽象,適用于不同領域,但是分類目之間存在重疊性,如“向先驅者致敬冶和“確認該出版物討論過某種理念或者概念冶,也沒有關于“使用前人研究數據、方法或成果冶的類目,但是該分類標準為后續研究奠定了基礎。
5引文內容本體研究
5.1將引文作為實體類的本體
很多信息學相關的本體都將引文(citation)當作一個重要的實體,通過在Ontobee數據庫檢索,發現有18個本體包含了cita鄄tion實體,并共用一個IRI(http://purl.obolibrary.org/obo/IAO_0000301)。在LinY等[53]發布的InformedConsentOntology本體中,實體citation的定義是“一種用于標識特定出版物的文本實體冶,沒有下位實體,且通過對象屬性isabout與文檔實體(document)產生關聯,同位類還有文檔題目(documenttitle)、表格(ta鄄ble)、書寫名字(writtenname)等,其父類為文本實體(textualentity)。
在SemanticscienceIntegratedOntolo鄄gy本體中,引文類的定義為一種文本實體,它表示在參考文數目或者參考文獻部分中描述的文獻來源。同樣沒有子類,其父類是文檔部分(documentcompo鄄nent)。還有一些本體考慮到了引文的特殊功能,例如在NCIThesaurusOBOEdition本體中,將引文說明(cita鄄tiondescription)定義為一種可接受格式的參考書目。
其子類包括臨床研究引文(ClinicalStudyCitation)、研究結果引用說明(ReferenceToStudyResultsCitationDescription)、研究參考引用說明(StudyReferenceCita鄄tionDescription)。而在Eagle-iresourceontology本體中,定義了引文管理對象(citationmanagementobjec鄄tive)和引文總頻次(globalcitationcount)兩個實體。此外,書目參考文獻本體(BibliographicReferenceOn鄄tology,BiRo)[54]能夠描述單個參考文獻以及它與被引文獻之間的關系,BiRo種定義了“isreferencedby冶和“reference冶兩個對象屬性,但是沒有涉及引用動機或者理由。在以上本體的結構中,雖然涉及到了引文實體,但是沒有進一步深入引文本身,調研中我們還發現了部分本體的構建中,考慮到引文間語義關系、引用行為或引用過程。
6引文內容分析對臨床試驗評價的意義
在生物醫學領域,引文內容分析和情感分析對于臨床試驗價值的判斷具有重要的意義。可重復性和可預測性是科學研究的兩大特質,在過去的十年內,隨著學術文獻的爆發式增長,科學研究的可復現性成為了重要的議題,在很多醫學科學出版物發現存在大量不可重復的研究(Non-reproducibleStudy),美國生物醫藥巨頭安進公司Amgen曾指出,在頂級腫瘤學期刊發表的論文中,有88%的研究結果是不可復現的[59],Io鄄annidis等人估計在生物醫學領域不可重復研究可能占到80%[60,61],而研究中出現的錯誤、行為不當或者欺詐是導致臨床試驗結果不可再現的主要原因,目前有越來越多的研究論文由于實驗不可重復性而被雜志撤回。
FavresseJ等[62]曾警示臨床醫生和醫學實驗人員,參考這些不可重復的研究結果可能會誤導臨床決策。因此,盡可能早地發現和識別更多的可重復性低或者存在缺陷的論文,防止科研資源浪費是非常重要的。引文文本中包含了作者引用該文獻的目的和情感偏向,因此科學研究的可重復性可以通過施引文本中的總體情感來評估和判斷,引用內容和引用情感分析是評價臨床實驗可重復性價值的重要步驟。
7引文內容分析研究框架
從上述研究可以看出,隨著開放科學運動的興起以及自然語義處理技術的迅猛發展,引文內容分析已從語法分析層面不斷地向語義分析層面深化。語法層面的引文內容分析利用文獻的結構和布局來確定引文的位置和數量,基于此對引文影響力進行評估;而語義層面的引文內容分析需要通過解析文本內容制定分類框架,以此對引用行為進行判定。根據已有的引文分析研究體系,并借鑒ZhangGuo[63]的理論框架,我們歸納出了引文內容分析的研究框架。
語法層面的引文內容分析通常關注單句引文,例如引文窗的研究涉及引文內容和引文語境的界定、引文內容的抽取,而在引文影響力的評估中,不同的引用方式反應了作者對引用的重視程度,例如簡單提及、詳細解釋和直接引用這三種方式的引文重要性逐漸提高。但是引文內容的語法分析往往并不涉及引文的具體內容,難以挖掘深層次的語義關聯。事實上引用是一個由主觀因素觸發的內在復雜行為,它是作者通過理性、權衡的形式做出的高性價比選擇。因此,通過預定義的引文分類體系,推斷出引用行為的動機、目的、情感和功能是非常有意義的研究方向。隨著線性判別分析、主題模型、詞向量等技術的應用,文獻之間的語義相關性判別變得更加高效,產生了引文推薦預測、自動引文摘要等重要的研究方向。
8結語
本文對引文分析的發展歷程、引文文內特征、引文語義關系和引文內容本體的研究進行了梳理總結。此外,還提出了引文內容分析的研究框架。傳統的引文內容分析方法將所有引文等同視之,難以揭示引文之間的深層次語義關系并作出客觀、科學的學術評價結論,在二十世紀中葉,得益于數據挖掘和自然語言處理算法的進步,引文內容分析逐步從人工化、小規模、少樣本的模式向半自動化、大規模、海量樣本的模式蛻變。而引文關系非常復雜,涉及引用目的、引用動機、引用情感、引用功能等多個因素,不同學科間存在差異性,單一體系很難詳盡闡釋引文關系的內涵,隨著新媒體時代的發展,引文語義關系呈現出演進與變化趨勢。
對于引文間語義關系的研究,目前學界缺少系統性描述和定義,尤其是生物醫學領域,雖然有從修辭角度研究引用關系的,但尚無引文語義關系與文本分類相關本體,缺乏具有統一的規范化的界定和框架。從應用角度來看,引文內容分析以及廣泛應用于科研行為評價、科研數據管理、信息檢索、自動摘要、引文推薦和預測、學術傳播和知識挖掘等研究方向。
具體來說,在臨床醫學領域,利用自然語言處理和深度學習技術實現自動引文情感分類,以識別出具有可重復價值的臨床研究文獻進行推薦,區分出不可重復的臨床實驗,從而避免醫學資源浪費是非常有意義;此外,文獻是知識的載體,在學術評價和管理過程中,應該將評價對象進一步細粒度化為文獻中包含的知識實體,這些實體包括但不局限于數據集、知識元、方法、工具和理論等,因為這些知識實體是引文內容中的核心,是作者具體的引用對象。
可以預見,基于知識實體的引文內容分析和計量分析將賦予文獻計量分析范式轉移的巨大勢能,而EugeneGarfield的引文索引網絡可以進一步演化為知識實體引用關系網絡,對于開展學術史研究的人員,能夠更細粒度地梳理學科發展歷程中的知識流動和演進;2012年Google提出知識圖譜這一新的知識表示模式,產生了大量的概念驅動或實體驅動的圖譜,而數據集、視頻、網頁、博客等非著作型的引文內容由于具有數字資源可定位性、唯一性,更加適合利用知識圖譜的方式進行引文內容分析,如何更好地將這些實體引文圖譜與其他開放資源產生關聯,并實現智能化知識發現是未來值得進一步探索的方向。
參考文獻
[1]GarfieldE.Citationanalysisasatoolinjournalevaluation[J].Science,1972,178(4060):471-479.
[2]HirschJE.Anindextoquantifyanindividual'sscientificre鄄searchoutput[J].ProceedingsoftheNationalAcademyofSci鄄encesoftheUnitedStatesofAmerica(PNAS),2005,102(46):16569-16572.
[3]EggheL.Theoryandpractiseoftheg-index[J].Scientometrics,2006,69(1):131-152.
[4]MetronR.TheSociologyofScience:TheoreticalandEmpiricalInvestigations[M].UniversityofChicagoPress,1973.
[5]GerasA,SiudemG,GagolewskiM.Shouldweintroduceadis鄄likebuttonforacademicarticles?[J].JournaloftheAssociationforInformationScienceandTechnology,2020,71(2):221-229.
[6]GilbertGN.ReferencingasPersuasion[J].SocialStudiesofSci鄄ence,1977,7(1):113-122.
作者:周志超
轉載請注明來自發表學術論文網:http://www.cnzjbx.cn/wslw/28821.html