本文摘要:摘要目錄是組織與利用古籍資源的重要工具,也是圖書情報學科的重點研究對象;ブc別裁作為古典目錄學中的兩種輔助方法,能在深入剖析文獻內容特征的基礎上,根據內容的多元性將文獻準確、完整地記載于目錄體系中,達到類例既分,學術自明的效果。本文將互著與別裁映
摘要目錄是組織與利用古籍資源的重要工具,也是圖書情報學科的重點研究對象;ブc別裁作為古典目錄學中的兩種輔助方法,能在深入剖析文獻內容特征的基礎上,根據內容的多元性將文獻準確、完整地記載于目錄體系中,達到“類例既分,學術自明”的效果。本文將互著與別裁映射為文本挖掘中的文本分類問題,提出基于機器學習以實現互著與別裁的方法框架,為古籍圖書在目錄體系中的多類目記載貢獻對策。本文首先利用TextCNN與BERT兩種機器學習模型對先秦諸子六家十部典籍文本進行分類訓練,結果顯示BERT優于TextCNN,可以達到91.64%的分類準確率;之后用微調訓練后的BERT模型對《荀子》與《管子》進行篇、章粒度的分類判斷,最終得出這兩部圖書各篇章互著與別裁的結果。本研究展現了在數字人文視域下,數字技術對古典目錄學、古典文獻學以及學術史研究的應用價值。
關鍵詞古籍目錄互著別裁機器學習數字人文
引言
我國古典目錄學歷史悠久,具有“辨章學術,考鏡源流”的學術價值,至今仍是“學中要緊事”[1],對古籍資源的組織與利用、古籍數據庫的設計與開發、古籍聯合目錄的建設與統一等具有重要作用。互著與別裁作為古典目錄學的兩種輔助方法,能在剖析文獻內容的基礎上,根據內容的多元性將文獻準確、完整地記載于目錄體系的多個類目下,達到“類例既分,學術自明”的效果,曾應用于《七略》《文獻通考·經籍考》《澹生堂書目》《直齋書錄解題》《書目例略》《百川書志》《藝文類聚》等書目中[2-4]。
但互著與別裁的傳統實現策略主要依托于人工,這不僅對人力和學術素養有較高要求,而且存在主觀性較強或難以準確判斷的問題,以致無法在海量古籍上得到普遍運用。本文在數字人文視角下引入機器學習方法,為互著與別裁提供新的實現策略。在古籍數字化的基礎上智能化地實現互著與別裁,可以高效處理更多古籍資源與更多類目的對應關系,也可以深入到篇章做出細粒度的分類判斷。這不僅能夠拓展互著與別裁的理論與實踐邊界,而且能夠提高古籍資源的組織與利用效率,為數字環境下的“即類求書,因書究學”提供量化保障。
在新文科背景下,該方法還可以為人文研究提供新的分析維度,助力發現新問題。本文首先提出基于機器學習以實現互著與別裁的方法框架,之后分別利用TextCNN和BERT兩種機器學習模型對先秦諸子六家十部典籍文本進行分類訓練,讓機器學習各家類別與典籍文本的對應關系,再選取訓練后分類效果更好的BERT模型對《荀子》和《管子》分別進行分類判斷,最終依據分類結果提出這兩部典籍的互著與別裁建議。
1研究綜述
互著與別裁的思想早見于明代祁承㸁《澹生堂藏書目錄·庚申整書略例》的“互”與“通”,后于清代章學誠《校讎通義》中正式提出[5,6]。互著與別裁雖然作用對象不同,但二者的原理和方法相通,即在分類編目時,將內容廣泛的或是具有多個主題的圖書及篇章全面、科學地記載于目錄體系內的多個類目中,實現目錄辨考學術和指導文獻檢閱的多重作用,對于實現古典目錄學“辨章學術,考鏡源流”具有重要價值[3,7]。
同時也要辯證認識到,互著與別裁的傳統實現方法具有時代局限性,在客觀性、準確性、效率等方面均存在問題。如徐召勛在1979年就指出:“假如一本書包括甲、乙兩個類的內容,而且各占一半,這究竟是用互著法還是用別裁法呢?還有的書包括兩個類的內容,不是一半對一半,而是一大半對一小半。這樣的書又該如何處理呢?”對此他的回答是“結合具體情況而定”[8]。實際上,在回答這個問題前,首先需要解決的是如何量化書中不同類別所占的比例,即何為“一半”“一大半”“一小半”;谌斯ぶ饔^判定的方法很難回答這個問題,這意味著過去的互著與別裁判斷可能存在錯誤。
然而,這一問題在近三十年并沒有得到學者們的充分重視,近年有關互著與別裁的研究多集中于再論其內涵[9]、追溯其起源[2,3]以及辨析書目應用實例[4],幾乎沒有學者再次審視互著與別裁在實現方法上的問題,也沒有將量化方法引入其中。近五年來,隨著“數字人文”文理交叉融合理念的推廣,有學者逐步意識到可以利用數字技術來完善并豐富古典目錄學的理論體系和實踐方法。在理論方面,陳志新指出,目錄學的未來要依托于大數據和人工智能等技術來創新和進步,實現過去依靠大學問家也無法有效完成的任務[10]。在實踐方面,李瑞龍和李明杰提出利用數字技術實現古典目錄學辨考學術的思想,但其在技術探索時更側重于梳理學術源流,而跳過了更為基礎的分類圖書環節[11]。
相關地,李惠等構造了古籍提要共現網絡并探討了提要推薦對古籍知識發現的潛力[12]。由此,已有數位學者通過理論探討或實踐證明數字技術對古典目錄學的價值。若從技術的角度將互著與別裁理解為文本分類問題,那么國內外已有較為豐富的研究成果可以借鑒。文本分類的核心任務是將文檔自動劃分到預先定義好的類別中,其研究可追溯至1960年代Maron根據受控詞表辨識文檔主題、自動分類文檔并索引科學文獻[13]。
目前機器學習是文本分類的主要方法,并且在英語和現代漢語等語境下有較為成熟的應用,例如用于垃圾郵件識別、網頁主題分類、文本情感分類、文本風格分類等。在圖書與情報領域,一個典型的應用場景是利用主題詞等信息實現圖書自動分類標引,如王昊等利用機器學習模型構建多層次圖書自動分類系統,根據題名、關鍵字和文摘信息自動給出中圖法分類號[14]。隨著數字化建設帶來的古籍數字資源的增長,有學者開始將這一技術運用在古籍文本分類上,例如張馨怡利用詞向量技術表示古詩文本,再通過TextCNN模型將古詩判斷為愛國類別或其他類別[15]。但尚未有研究利用新技術來解決古典目錄學中互著與別裁存在的問題。
2基于機器學習的互著與別裁方法框架
本文提出一套基于機器學習的互著與別裁方法框架。該框架整體邏輯為:在古典目錄學已有研究經驗與成果的基礎上,由互著與別裁的內涵和原則來統領整個方法。根據具體的研究需求或目錄需求確定文獻范圍,通過對多源異構語料的采集、清洗與融合,最終構建成研究所需的語料庫。
利用語料庫內結構化的文本和類別標簽來訓練分類器,再利用分類器來判別待分類文本的類別概率,并根據概率閾值為文本做出分類建議。若文本是以書為單位,則對應于互著標引,若文本是以篇章為單位,則對應于別裁標引。最終結果可應用于目錄補充、學術史研究、圖書編目以及古籍數據庫按類瀏覽和索引等方面。
3分類模型訓練實驗
為檢驗機器學習框架是否可以有效判別古籍類目,本文以四部的子部為對象,以先秦諸子六家為類目,以各家代表典籍為文本訓練分類模型,并分析分類結果的準確性。
3.1實驗數據
代表典籍的選定主要參考《漢書·藝文志》中記載的先秦諸子典籍,并參考梁啟超在《漢書·藝文志·諸子略考釋》中對《漢書·藝文志·諸子略》中學派、學者、著述的存、佚、偽考釋結論[16]。本文在學衡數據網站①下載上述典籍的HTML格式文本,用Python調用bs4中的BeautifulSoup4.4.0解析文件,將其轉換為以類目、書名、篇、章、正文組織的結構化文本存儲。經過數據清洗后,將3220條訓練數據依照8:2的比例隨機劃分訓練集和驗證集。
3.2模型介紹
本文使用TextCNN和BERT兩種模型進行分類實驗。模型基于文本語義建模,將句子、段落向量化地表示,據此訓練神經網絡可以捕捉到豐富的語義及結構信息,是目前常用的文本分類方法。TextCNN模型需要先分詞再訓練詞向量,因古文分詞技術尚不成熟,故本文分別嘗試Jieba和單字兩種分詞方法,然后利用word2vec的CBOW模型訓練詞向量。
BERT模型是采用雙向深度Transformer編碼器的預訓練語言模型[17,18],無需分詞即可將句子或段落向量化表示,本文在BERT-Base-Chinese預訓練模型的基礎上繼續微調訓練。兩種模型分別在原始語料、去標點語料、去標點和停用詞語料上各重復運行5次,每次隨機劃分訓練集與驗證集,取5次中的train-accuracy、val-accuracy、F1的平均值和最優值進行比較。
3.3分類評價
實驗結果表明,在其他超參數相同的情況下,TextCNN與BERT均在不過濾標點和停用詞的原始語料上達到最優分類效果,預處理復雜度的提高反而會帶來準確率和F1值較大幅度的下降,這一特點在利用Jieba分詞訓練TextCNN分類模型時尤為顯著,在過濾掉標點和停用詞后該分類模型平均準確率由61.49%下降到31.64%。
這一現象說明古文的預處理策略會在較大程度上影響分類模型的效果,對于本文選取的先秦諸子語料而言,保留標點與虛詞可以有效提高分類模型訓練效果。這一發現驗證了Uysal和Gunal此前的研究結論,他們利用SVM模型分別在英語和土耳其語語料上訓練分類器,發現保留停用詞的語料預處理策略可以獲得最高的準確率[19]。對比BERT和TextCNN可以發現,BERT的分類效果明顯好于TextCNN的分類效果,在原始語料上BERT的F1值為91.91%,遠高于TextCNN-Jieba的59.52%。
BERT的另一個優勢在于無需分詞,以單字為單元編碼訓練就可以取得較高的分類準確率,規避了目前古文分詞不成熟的問題。綜上,在原始文本上,BERT分類訓練可以達到最優的效果,其平均準確率可以達到91.64%,這說明預訓練語言模型可以基于古籍文本有效分辨先秦不同學派的典籍。下文將進一步利用在這十部典籍上微調訓練后的BERT模型對《荀子》與《管子》做互著與別裁分析。
4互著與別裁實驗
4.1《荀子》實驗與討論
《荀子》位于目錄體系中的儒家類,但其學派歸屬問題始終是重要研究內容。唐代韓愈指出荀子思想“不粹”,宋代二程及朱熹等理學家認為荀子思想“極偏頗”并將其歸為法家,現在也仍有儒家說、法家說、雜家說等觀點并存[20]。本研究利用機器學習方法對《荀子》做互著與別裁探索,可以為該問題的解決提供新的維度。
4.1.1《荀子》互著結果及討論
將《荀子》511個章節文本輸入BERT模型后可以得到各條文本的分類結果,將各條文本劃分到概率最大的類別中。若將各條文本對應于各學派的概率進行統計匯總。
《荀子》最接近法家與儒家,同時也兼及其它學派,這與傳統研究結論相符。對于儒法之爭的問題,分類模型將更多的條目判斷為法家,揭示出《荀子》更接近以《韓非子》和《商君書》代表的法家而非以《論語》和《孟子》代表的儒家。本文以“均值比較”確定互著閾值,即若文本屬于某一類的概率超過平均分類的概率,則可判斷文本屬于該類。經計算,法家與儒家的概率大于16.67%,分別為46.68%和24.95%,故將《荀子》在法家和儒家兩個類目中做互著標記。此互著結果體現了荀子“禮法并施”的思想特征。
荀子在繼承儒家的禮制思想的同時,也由性惡論的觀點出發,認為刑、罰等法家手段是治國所必需,如《荀子·勸學》篇“禮者,法之大分,類之綱紀也”[21]。這一互著結果也呼應了荀子研究中一直存在的儒法之辨。呂思勉在《經子解題》中評價“語其宗旨,實與法家最近,而又蒙儒家之面目者也”[22];趙法生認為荀子屬于受儒家影響的法家,即“儒法”[23];王正提出荀子的“法”同法家的“法”有所不同,是帶有法家因素的儒家,最多稱為“法儒”[24]。本文通過機器學習模型得到的量化結果也如實反映出這一特點。
4.1.2《荀子》別裁結果及討論
本文借助由機器學習模型得到的二維熱力圖分析《荀子》內部篇章所屬學派,由此做出別裁判斷。每一篇對應六個學派的概率和為1,具體對應每個學派的概率等于該篇中各章節對應各學派概率的平均值,顏色越深即概率越大,越接近該類目。在《荀子》的絕大多數篇中,法家對應顏色最深,說明這些篇更接近于法家,而儒家、墨家、道家次之,與互著結果一致。若假定《荀子》互著于法家和儒家,可以為《荀子》三十二篇做出別裁標注。
雖然此前未有學者將《荀子》三十二篇的每一篇都分析思想歸屬,而本文所給出的別裁建議也未必絕對準確,但若將傳統與數字化兩種方法得到的結論相比較,也許可以通過“三角論證”取得一些新的突破。對于本文所列舉的道家篇,趙吉惠在《荀子非儒家辨》中列舉《天論》《勸學》《解蔽》《儒效》《正名》篇文本論述荀子的道家思想傾向[25],李剛興列舉《天論》和《解蔽》論述荀子對道家思想的吸收與改造[26],許倩撰文論述《解蔽》中的道家思想[27],雷震和郭成杰從養生觀的角度論述《修身》篇同老莊的相似之處[28]。
對于本文所列舉的墨家篇,劉寶春指出《大略》《不茍》《榮辱》《富國》《君德》《王霸》《儒效》《強國》《君子》《君道》《臣道》《正論》《勸學》《性惡論》《成相》中或多或少帶有墨子“利民”“貴義”“尚賢”“節用”“所染”思想[29],趙吉惠也指出《榮辱》篇有墨家早期的義利觀體現[25]。對于本文所列舉的兵家篇,《議兵》是荀子軍事思想的主要體現,也是學者們研究荀子軍事思想的主要依據[30,31]。
此外,模型揭示出以《大略》為分界,《荀子》前后文本存在“斷層”,即前二十六篇更側重法家思想,后六篇側重儒家思想!盾髯印泛罅罅恳隹鬃蛹暗茏友哉摚瑑热莺w仁、禮、義、利、孝道等儒家觀念。唐代楊倞指出,《大略》《宥坐》《子道》《法行》《哀公》《堯問》并非荀子本人所作,稱《大略》篇為“弟子雜錄荀卿之語”,《宥坐》《子道》《法行》《哀公》《堯問》五篇“皆荀卿及弟子所引記、傳雜事”[32]。
董志安指出后五篇“與荀卿基本學說不盡相符,而多少帶有其它儒家派別的思想痕跡”,判斷后五篇既不是出自荀子本人,也不是出自荀子傳授[33]。廖名春認為,《荀子》后五篇包括荀子整理和纂集的資料及弟子之作,提出考察荀子思想應主要以前二十七篇為依據[34]。本文模型發現的“斷層”現象揭示出《荀子》文本前后思想的差異,與上述傳統研究結論相符,能對此類研究形成有益補充。
4.2《管子》實驗與討論
《管子》是對管仲學派思想的記載,書中記載的思想較為復雜,涉及多個學派思想,在學術史研究中始終有學派分屬的爭議,并且這種對于《管子》思想的類別爭議也體現在目錄類目的變化中[35]。如《管子》在《漢書·藝文志·諸子略》中記載在道家類目,在《隋書·經籍志》《四庫全書》中列為法家類目,李宗鄴、潘俊杰等人主張《管子》是雜家的匯集[36,37]。因此本文利用機器學習方法對《管子》提出互著與別裁建議,助力于《管子》思想問題的討論。
同樣,雖然此前未有學者對《管子》七十五篇的每一篇都分析思想歸屬,而本文所給出的別裁建議也未必絕對準確,但若將兩種方法得到的結論相比較,也許可以通過“三角論證”取得一些新的突破。對于本文所列舉的儒家篇,馮友蘭指出《弟子職》與《弟子規》實屬一類[38],羅根澤認為《弟子職》的作者疑是漢代儒家[39],張連偉雖不贊同漢代儒家說,但同樣認為《弟子職》體現了儒家所重視的學堂禮儀。
對于本文所列舉的道家篇,《管子》四篇《心術上》《心術下》《白心》《內業》所體現的道家思想已是一種共識[40]。但是,模型也得到了一些不同于人文觀點的結果,如羅賢龍判斷《法法》《仁法》《明法》屬于黃老作品[41],而本文將這幾篇判別為法家類,這種差異值得關注。這種差異同樣存在于《管子》的墨家思想:模型判別《管子》中大量篇章都與墨家思想相近,但是傳統研究對《管子》墨家思想的研究較少。
本文通過機器學習模型揭示出《管子》與《墨子》思想之間的相似性,還值得未來更多的探討。對于本文所列舉的兵家篇,池萬興指出《幼官》《七法》《參患》《地圖》《制分》《九變》《兵法》是兵家文字[42],羅根澤指出《七法》《兵法》《制分》為兵家所出,《幼官》和《勢》為兵陰陽所出(兵家四大流派之一)[39],梁啟超列舉《七法》《九變》《兵法》《霸言》《小匡》中含有軍政思想[43]。由此可知,模型得到的量化結論,既有能與已有研究結論相印證的,也有不同之處,這些正是值得未來更多探討及批判的靶向所在。
5結語
古籍是承載中華優秀傳統文化的重要載體,合理、有效地保護與利用古籍資源是弘揚中華文化、樹立民族自信的重要舉措。本文借助機器學習技術,從古籍資源中挖掘出新的知識,能為古籍研究提供新的方法與論據,讓古籍資源煥發出新的生機,讓古籍“活起來”,并助力于科學研究和社會文化的進步。
本文提出利用機器學習來實現互著與別裁,從全書、篇、章等粒度辨析古籍類別,并對先秦諸子典籍進行了實驗。實驗結果不僅顯示了機器學習對古籍文本分類的潛力,也對《荀子》及《管子》兩本書給出了具體的互著與別裁建議,此外實驗結果展現了在數字人文視域下,數字技術對古典目錄學、古典文獻學以及學術史研究的應用價值。
鑒于時間和語料等方面的限制,本文仍存在一定的不足和局限性,未來的研究可以從以下幾個方面展開:在范圍方面,進一步探究在更大規模的目錄及語料上方法是否適用;在機器學習方法方面,可以讓BERT模型在大規模古籍語料做進一步的預訓練,或結合更準確的分詞策略提高TextCNN的表現,也可以采用更為先進的機器學習模型;在互著與別裁判斷策略上,進一步將此前“視情況而定”的依靠主觀模糊性判斷的慣例和閾值具體化、定量化表示出來,從而制定更合理的判別規則。
參考文獻:
[1]陳曉華.傳統目錄學仍是“學中要緊事”[N].中國社會科學報,2016-08-18(001).(ChenXH.Traditionalbibliographyisstill"themostimportantthinginlearning"[N].ChineseSocialSciencesToday,2016-08-18(001).)
[2]李景文.“互著”、“別裁”起源時間考辨——讀王重民先生《校讎通義通解》[J].圖書情報工作,2012,56(7):140-144.(LiJW.Theoriginsof“exchangeindexing”and“reindexing”:withastudyofWangChongmin’sJiaoChouTongYiTongJie[J].LibraryandInformationService,2012,56(7):140-144.)
[3]王國強.中國古代書目著錄中的互著法和別裁法[J].鄭州大學學報(哲學社會科學版),2002,(4):130-133.(WangGQ.Theinter-recordmethodandanalytic-recordmethodinancientChinesebooklistrecord[J].JournalofZhengzhouUniversity(PhilosophyandSocialSciencesEdition),2002(4):130-133.)
[4]韓建立.《藝文類聚》中的“互著”與“別裁”[J].圖書館學刊,2014,36(4):117-119.(HanJL.InterrecordandanalyticrecordinYiWenLeiJu[J].JournalofLibraryScience,2014,36(4):117-119.)
[5]章學誠.校讎通義[M].北京:古籍出版社,1956.(ZhangXC.JiaoChouTongYi[M].Beijing:ClassicsPublishingHouse,1956.)
[6]羅友松,朱浩.“互著”、“別裁”的理論探討始于誰?——與徐召勛同志商榷[J].圖書館雜志,1982(1):12-13.(LuoYS,ZhuH.Whostartedthetheoreticaldiscussionof"interrecord"and"analyticrecord"?:discussingwithComradeXuZhaoxun[J].LibraryJournal,1982(1):12-13.)
作者:張力元王軍
轉載請注明來自發表學術論文網:http://www.cnzjbx.cn/jjlw/29738.html