本文摘要:摘要:食用植物油是人們日常生活之中不可缺少的膳食結構,目前市場上存在很多食用植物油摻假的情況,極大損害了消費者的利益和身體健康,因此,對現場提取到的食用植物油進行鑒定是法庭科學的重要內容。分子光譜是法庭科學中對物證進行快速無損鑒別的重要方法之一,而
摘要:食用植物油是人們日常生活之中不可缺少的膳食結構,目前市場上存在很多食用植物油摻假的情況,極大損害了消費者的利益和身體健康,因此,對現場提取到的食用植物油進行鑒定是法庭科學的重要內容。分子光譜是法庭科學中對物證進行快速無損鑒別的重要方法之一,而光譜預處理能夠消除分子光譜測量過程中的背景和噪聲干擾,提高識別率。本文收集了日常生活之中常見的5種食用植物油樣本296份,利用徑向基函數神經網絡和隨機森林模型對未經預處理的原始光譜和經過預處理后的光譜進行識別,根據識別率選擇食用植物油預處理最優的方法。實驗結果表明,徑向基函數神經網絡的效果優于隨機森林模型,將分子光譜數據經希爾伯特變換處理后,徑向基函數神經網絡分類的識別率達到100%。所建立的方法準確率高,效果好,對法庭科學之中食用植物油的鑒別具有一定的借鑒意義。
關鍵詞:食用植物油;光譜預處理;徑向基函數神經網絡;隨機森林
1引言
近年來,隨著生活水平的不斷提高,人們對食品安全的重視程度也越來越高,其中,植物油作為人們膳食結構中不可缺少的重要組成部分,是食品安全的重要方面,一些不法商家為謀取暴利,采用虛假的食用植物油調和配方制作不符合標準的植物油,從中牟取暴利。2020年,公安部統一部署全國公安機關開展“昆侖行動”,嚴厲打擊食品領域的犯罪[1],對于在食用植物油制假現場提取到的油痕,檢驗人員可以通過分析比對得到食用植物油的種類以及生產廠家等信息,為公安機關提供案件的調查方向,縮小偵查范圍。
目前,對于植物油的檢驗方法有很多,如氣相色譜-質譜法[2-3]、氣相色譜-離子遷移譜法[4]、高效液相色譜法[5]、電子鼻[6]、拉曼光譜法[7]、熒光光譜法[8]、指紋圖譜法[9]等。分子光譜法主要包括紅外吸收光譜、熒光光譜以及拉曼光譜,以上的三種分子光譜分析方法均可實現對食用植物油的鑒別。
其中,拉曼光譜法存在標準譜庫建立較為困難以及光譜預處理方法較為復雜的缺點;熒光光譜法操作較為復雜,易受到疊加峰的干擾,不利于在公安基層進行開展。紅外光譜法具有分析快速、成本低、操作簡單、無須樣品預處理等優點,且不同種類的植物油具有不同的官能團,因此,在基層公安機關之中,紅外光譜法是用于植物油檢測的良好方法。He等[10]將傅里葉變換紅外光譜(FourierTransforminfraredspectroscopy,FT-IR)與化學計量學相結合,用于山茶油摻假的鑒定,他們采用偏最小二乘判別分析的方法,構建了兩種皂化模型,成功鑒別了與山茶油成分相近以及與山茶油成分不同的摻假山茶油的鑒別。Abassy等[11]利用拉曼光譜法與偏最小二乘法相結合的方法,對初榨橄欖油和葵花籽油摻假的樣品進行分析,結果表明,所建立的方法R2值為0.993,RMSECV為0.0036,能夠對橄欖油中葵花籽油的摻假實現精準的鑒別。
趙靜等[12]使用二極管陣列紅外光譜儀,對7個品種的77份合格植物油、28份不合格植物油以及118份地溝油為研究對象,使用多元方差分析以及貝葉斯判別分析對所采集的樣品數據進行統計學分析,結果表明貝葉斯判別函數模型對原始數據的分類準確率達到96%,交叉驗證的準確率到達95.5%。 在實際的應用過程之中,獲得的分子光譜數據信息會存在噪聲以及背景的干擾,存在的干擾信號會使原始光譜的特征峰出現重疊,信噪比降低,出現基線漂移的情況,因此,在對分子光譜數據進行建模之前,對其進行預處理十分必要。
光譜預處理方法是指利用平滑、希爾伯特變換、小波變換、濾波器、包絡、抽取等方法減少由于儀器自身原因所導致的基線漂移等情況,消除紅外譜圖噪聲和背景的干擾,從而提高模型對紅外光譜的識別準確率,其中,常見的平滑算法包括Savitzky-Golay、相鄰平均法等,常見的小波變換算法包括連續小波、分解和重建小波以及多尺度離散小波等,常見的濾波器算法有FFT濾波器以及IIR濾波器等[13]。
本文采用了7種預處理方法對原始光譜進行處理,應用徑向基函數(RadialBasisFunction,RBF)神經網絡以及隨機森林(RandomForest,RF)模型方法建立預測模型對預處理后的紅外光譜圖進行識別,以對不同植物油的識別率的大小對不同的預處理方法的效果進行比對,以識別的準確率來比較不同預處理方法和不同模型對五種食用植物油分類的效果。
2實驗部分
2.1實驗樣本
結合案件的實際情況,購買了市面上常見的五種植物油,其中,香油100份;花生油79份;玉米油37份;亞麻籽油40份;橄欖油40份,296份樣本。
2.2實驗儀器及設備
實驗采用Nicoletis10型傅里葉變換紅外光譜儀(美國ThermoFisherScientific公司),設備及參數的基本信息。
2.3樣品采集方法
在測量之前,為防止各個樣本之間混亂,在每個植物油樣本上使用標簽注明食用植物油的種類以及品牌,并進行編號。測量時將食用植物油的樣本放入石英樣品杯中,然后放置于樣品池中,蓋上樣品池的蓋子,為盡量減少測量的誤差,所有的測量均取食用植物油樣2mL,每個樣品測量三次取平均值。
2.4實驗預處理
對采集到的紅外光譜進行Savitzky-Golay平滑(S-GSmoothing)、希爾伯特變換濾波器、無限沖激響應(InfiniteImpulseResponse,IIR)濾波器、導數、連續小波變換(ContinueWaveletTransform,CWT)七種方法進行預處理,并將其分為3類,3類預處理方法。
其中,CWT采用基于Haar類型的多尺度離散小波變換;導數處理選擇基于Norris方法的導數處理,分為一階導數微分(firstderivative,FD)和二階導數微分(secondderivative,SD),IIR濾波器采用基于Butterworth方法,分為IIR低通濾波器和IIR高通濾波器。在對圖譜進行預處理之后,將296份食用植物油的紅外光譜圖信息轉化為數據數值,采用Z-score的方法進行標準化處理,采用基于主成分分析為提取方法的因子分析方法對所標準化后的數據進行降維處理,將所得到的特征變量用作后續建模分析。
3實驗建模
3.1RBF神經網絡
RBF神經網絡是一種非線性3層靜態的前饋式神經網絡,通常由三層組成,分別是包含L個節點的輸入層、包含M個神經元的隱藏層以及一個或多個節點的輸出層[14],RBF神經網絡構圖。其中,從隱藏層到輸出層的傳遞函數通常選取高斯函數[15]。
3.2RF模型
RF是由若干個分類回歸樹來進行預測的集成學習方法,是由Breiman等[18]基于Bagging理論首先提出,這些樹是通過替換訓練樣本的子集來創建的,這意味著同一個樣本在同一時間內會被選擇多次,而其余的樣本不會被選擇,在隨機森林算法之中,選擇劃分屬性是從當前節點之中隨機選擇一個子集,然后選擇一個最優的屬性用于選擇劃分。
隨機森林分類器的訓練和分類階段,大約三分之二的樣本(稱為袋內樣本)用于訓練樹,其余三分之一(稱為袋外樣本)用于內部交叉驗證,以此來評估RF模型的表現情況,這種誤差評估被稱為袋外(out-of-bag,OOB)誤差,由于RF模型本身具有交叉驗證的優點,因此當決策樹的數目足夠多的時候,可以有效避免過擬合的現象。在RF模型之中,每個決策樹都屬獨立生成的,最終,RF的分類決策是通過對所有生成的樹計算的分配概率取算術平均值來做出的。
4結果與討論
4.1光譜預處理譜圖的比較
波數在2900cm-1左右的尖強峰為C-H伸縮振動峰,波數在1750cm-1左右的尖強峰為C=O伸縮振動峰,波數在1200cm-1左右的中強峰為食用植物油中甘油三酯的C-O伸縮振動峰,波數在1450cm-1左右的弱尖峰為亞甲基的彎曲振動峰。不同種類的食用植物油具有相同或相似的吸收峰,但是出現了較為嚴重重疊現象,同時,受儀器條件以及采集環境的影響,出現了一定的基線漂移以及較為嚴重的背景干擾。
(B)-(H)為經過不同預處理方法后的紅外光譜圖,經過預處理之后,譜圖的背景噪聲有所降低,基線漂移現象也有所改善,各峰的區分度明顯提高,但是各峰之間仍然存在相互交織的現象,通過肉眼很難進行準確的區分,需要引入機器學習的方法實現對食用植物油紅外譜圖的識別。
4.2RBF建模分析
4.2.1因子分析降維結果
使用RBF神經網絡對因子分析后的特征向量進行分析建模,其中,不同的預處理方法經過降維后,所提取的特征向量個數各不相同。
經過RF分類模型進行分類后,經CWT處理的識別率最高,達到了94%,經平滑處理后的識別率達到89%,經FD處理后的識別率為76%,經SD處理后的識別率為66%,經希爾伯特變換處理后的識別率為85%,經IIR低通濾波器處理后的識別率為88%,顯著高于經IIR高通濾波器處理后的識別率59%。分析原因可知,經IIR低通濾波器處理后的識別率顯著高于經IIR高通濾波器處理后的識別率,可能是樣品中光譜信號主要是高頻分量。
IIR高通濾波器能夠過濾光譜信號的低頻分量而使得高頻分量通過,而IIR低通濾波器能夠抑制光譜信號的高頻分量而使光譜信號的低頻分量通過,因此經過IIR高通濾波器處理后的光譜數據總體上好于經過IIR低通濾波器處理后的光譜數據。而經連續小波處理后的識別率最高,說明經過CWT處理后,光譜數據之中包含了絕大部分與食用植物油種類鑒別相關的信息,且與原始光譜數據相比,過濾了噪聲等無用信息,同時RF算法利用了不同的食用植物油種類之間小波變換中蘊含的變化,因而能夠很好的對食用植物油的種類進行區分。
5結論
本研究利用傅里葉變換紅外光譜技術,采集了五種食用植物油的光譜數據,比較了不同的紅外光譜預處理方法,結合RBF神經網絡和RF建模的方法,開展了食用植物油種類的鑒別,實驗結果表明,RBF神經網絡模型要比RF模型更加適用于食用植物油的分類,在RBF神經網絡的模型之中,對光譜進行希爾伯特變換的預處理方法能夠達到最高的識別率,識別率為100%,是所有預處理方法中的最大值,表明該預處理方法是處理食用植物油光譜數據的最佳預處理方法。本研究為法庭科學領域開展食用植物油種類的鑒定提供了一種快速無損的新方法,該方法操作簡單,準確率高,且無需昂貴的設備,十分利于在公安基層進行推廣,為公安機關檢驗和分析食用植物油的種類提供了一定的參考。
參考文獻
[1]孫一健,王繼芬.太赫茲光譜技術在食品、藥品和環境領域中的應用研究進展[J].激光與光電子學進展,2022,59(16):1600001
[2]王同珍,余林,邱思聰,等.氣相色譜-質譜技術結合化學計量學對6種植物油進行判別分析[J].分析測試學報,2015,34(1):50-55.
[3]鮑曉瑾,倪煒華,沈錫賢.GC-MS法識別二元混合植物油摻混量的方法研究[J].中國油脂,2016,41(12):81-84.
[4]陳通,陸道禮,陳斌.GC-IMS技術結合化學計量學方法在食用植物油分類中的應用[J].分析測試學報,2017,36(10):1235-1239.
作者:孫一健1,王繼芬1,張震1
轉載請注明來自發表學術論文網:http://www.cnzjbx.cn/jjlw/29335.html