
守護(hù)食用油純度:雙利合譜高光譜分選儀賦能紅花籽油摻假檢測(cè)新技術(shù)
背景:紅花籽油因其富含亞油酸等不飽和脂肪酸而具有較高的營(yíng)養(yǎng)價(jià)值和市場(chǎng)價(jià)格,廣泛應(yīng)用于食品、醫(yī)藥及保健品領(lǐng)域。然而,由于其價(jià)格較高,在商業(yè)流通中常被摻雜廉價(jià)植物油(如玉米油、大豆油和葵花籽油),導(dǎo)致食品摻假問題頻發(fā),嚴(yán)重威脅消費(fèi)者權(quán)益與食品**。傳統(tǒng)的摻假檢測(cè)方法如氣相色譜-質(zhì)譜聯(lián)用(GC-MS)雖然準(zhǔn)確性高,但檢測(cè)過程通常需要復(fù)雜的樣品前處理、專業(yè)操作人員和昂貴設(shè)備,難以實(shí)現(xiàn)快速、高通量篩查。
高光譜成像技術(shù)(HSI)作為一種融合圖像與光譜信息的無(wú)損檢測(cè)手段,在農(nóng)產(chǎn)品質(zhì)量、**性檢測(cè)方面表現(xiàn)出良好應(yīng)用前景。因此,開發(fā)一種結(jié)合GC-MS與HSI的高效檢測(cè)方法,以實(shí)現(xiàn)對(duì)紅花籽油摻假的快速識(shí)別和摻假水平的精準(zhǔn)預(yù)測(cè),具有重要的現(xiàn)實(shí)意義和應(yīng)用價(jià)值。
作者信息:許麗佳,四川農(nóng)業(yè)大學(xué)機(jī)電工程學(xué)院,博士生導(dǎo)師
期刊來源:Journal of Food Composition and Analysis
研究?jī)?nèi)容
建立一種結(jié)合GC-MS與HSI的聯(lián)合方法,用于快速、無(wú)損識(shí)別紅花籽油(SSO)中是否摻假及摻假水平的定量預(yù)測(cè),以提升植物油品質(zhì)控制與摻假檢測(cè)的準(zhǔn)確性與效率。在研究方法上,作者首先制備不同摻假比例的紅花籽油樣本,摻假對(duì)象包括玉米油、大豆油和葵花籽油三種常見植物油。同時(shí),使用高光譜成像系統(tǒng)采集樣品在400–1000 nm波段范圍內(nèi)的圖像數(shù)據(jù),并提取反射率光譜特征。為了提升建模效率與準(zhǔn)確性,研究引入多種光譜預(yù)處理方法,*終選用中值濾波(MF)處理高光譜數(shù)據(jù),以顯著降低噪聲并提高模型的魯棒性和泛化能力,在特征波段選擇方面,識(shí)別出440 nm、530 nm 以及 880–950 nm 附近的波段更適合用于建立 SSO 摻假濃度的預(yù)測(cè)模型,同時(shí)也能縮短建模時(shí)間。模型構(gòu)建方面,采用以嶺回歸(Ridge) 和偏*小二乘回歸(PLSR)為基礎(chǔ)模型、LightGBM為元模型的 Stacking 集成學(xué)習(xí)模型,實(shí)現(xiàn)了對(duì) SSO 摻假濃度的高精度預(yù)測(cè)。在此基礎(chǔ)上,進(jìn)一步將 GC-MS 檢測(cè)得到的亞油酸(LA)、油酸(OA)和棕櫚酸(PA)含量與高光譜數(shù)據(jù)共同建模,使模型表現(xiàn)出**的預(yù)測(cè)性能。
實(shí)驗(yàn)設(shè)計(jì)
采用不同比例將葵花籽油、大豆油和玉米油與不同體積的紅花籽油的混合。在混合之前,純油樣先進(jìn)行均質(zhì)化處理。本研究共準(zhǔn)備并分析了350個(gè)樣品,包括50份純油樣和300份摻假油樣。在光譜分析之前,使用漩渦混合器將油品混合均勻,并將其儲(chǔ)存在4℃的黑暗環(huán)境中,以備進(jìn)一步分析。
圖1展示了本研究的整體流程。利用高光譜儀(圖1a)采集油樣的光譜數(shù)據(jù),并通過氣相色譜-質(zhì)譜聯(lián)用(GC-MS)技術(shù)(圖1b)檢測(cè)油樣中亞油酸(LA)、油酸(OA)和棕櫚酸(PA)的含量及濃度。
圖1. 研究整體流程概覽。
本研究的高光譜數(shù)據(jù)由江蘇雙利合譜科技有限公司生產(chǎn)的GaiaSorter高光譜成像儀進(jìn)行采集,該系統(tǒng)的核心部件包括高光譜相機(jī)、光源、電動(dòng)載物臺(tái)、計(jì)算機(jī)、有效光譜范圍為400-1000 nm,光譜分辨率為2.8 nm,共有256個(gè)波段,高光譜相機(jī)透鏡與油樣裝載平臺(tái)的距離設(shè)定為160 mm,電動(dòng)載物臺(tái)速度為4.6 mm/s,高光譜相機(jī)的曝光時(shí)間為8.5 ms。每個(gè)油樣的光譜圖像被單獨(dú)收集,每個(gè)油樣的三次掃描用于計(jì)算平均光譜。總共掃描了350個(gè)樣品,得到89600個(gè)光譜數(shù)據(jù)值,并使用Specview軟件進(jìn)行了黑白標(biāo)定。
研究方法
有效的預(yù)處理可以消除環(huán)境因素和光譜設(shè)備本身非品質(zhì)信息對(duì)高光譜數(shù)據(jù)的影響,為提高黑白白色校正后光譜數(shù)據(jù)的信噪比,采用了3種光譜預(yù)處理方法,即L2范數(shù)歸一化(L2 NN)、乘性散射校正(MSC)、中值濾波(MF)。
本研究構(gòu)建了嶺回歸(Ridge)、LightGBM、隨機(jī)森林(RF)、梯度提升決策樹(GBDT)、CatBoost、偏*小二乘回歸(PLSR)和Stacking回歸模型。其中Stacking是一種“集成學(xué)習(xí)”方法,如圖2a所示。它將多個(gè)基礎(chǔ)模型的預(yù)測(cè)結(jié)果輸入一個(gè)元模型中進(jìn)行再學(xué)習(xí)。將全部數(shù)據(jù)劃分為訓(xùn)練集D_train和測(cè)試集D_test,D_train 又進(jìn)一步劃分為訓(xùn)練折疊和驗(yàn)證折疊?;A(chǔ)學(xué)習(xí)器在訓(xùn)練折疊上訓(xùn)練,并在驗(yàn)證折疊上輸出預(yù)測(cè)結(jié)果,之后這些結(jié)果被送入次級(jí)學(xué)習(xí)器,用于學(xué)習(xí)各基礎(chǔ)模型的權(quán)重。*終模型通過 N 層疊加學(xué)習(xí)器完成迭代學(xué)習(xí)并輸出預(yù)測(cè)結(jié)果。
圖2. 集成學(xué)習(xí)模型算法原理示意圖 (a) "集成學(xué)習(xí)"方法迭代過程示意圖 (b) 由Ridge、PLSR和LightGBM構(gòu)成的多層學(xué)習(xí)系統(tǒng)
采用決定系數(shù)(R2)、均方根誤差(RMSE)和擬合時(shí)間回歸模型的評(píng)價(jià)標(biāo)準(zhǔn)。采用5折交叉驗(yàn)證法對(duì)模型進(jìn)行檢驗(yàn)。
結(jié)果
圖3展示了不同摻假濃度下混合油樣的脂肪酸含量和平均光譜曲線。從圖3(a-c)可以看出,亞油酸(LA)、油酸(OA)和棕櫚酸(PA)的含量存在明顯差異。葵花籽油和大豆油在脂肪酸組成上總體相似,但在棕櫚酸含量上存在一定差距。同時(shí),紅花籽油(SSO)富含亞油酸。在光譜數(shù)據(jù)處理方面,移除了400 nm之前和1000 nm之后的嚴(yán)重干擾波段,主要分析400–1000nm范圍內(nèi)的光譜數(shù)據(jù)。圖3(d-f)展示了使用高光譜成像儀采集的所有混合油樣的平均光譜。紅花籽油(SSO)與其他三種食用油在不同摻假濃度下展現(xiàn)出不同的光譜強(qiáng)度反射變化。
圖3. 不同摻偽濃度混合油樣的脂肪酸含量與光譜曲線 (a)-(c) 分別表示不同摻偽濃度下油樣的亞油酸(LA)、油酸(OA)和棕櫚酸(PA)含量變化;(d)-(f) 分別展示不同摻偽比例下紅花籽油(SFO)、大豆油(SO)和玉米油(CO)的光譜曲線特征。
在回歸分析中,將樣品的光譜曲線數(shù)據(jù)按0.75:1的比例分為訓(xùn)練集與測(cè)試集。基于LightGBM算法對(duì)于不同方法預(yù)處理后的數(shù)據(jù)進(jìn)行建模。在各種預(yù)處理方法中,MF預(yù)處理的效果*好,在測(cè)試集上的R2為0.857,RMSE為0.106,在交叉驗(yàn)證中,R2 cv = 0.815,RMSEcv = 0.111。MF的應(yīng)用有利于數(shù)據(jù)的平滑處理,對(duì)后續(xù)的分析有積極的影響。
之后實(shí)驗(yàn)中使用了Ridge、LightGBM、CatBoost、RF、GBDT、PLSR算法以及Stacking模型對(duì)MF預(yù)處理過的光譜進(jìn)行建模處理。使用全波段信息建模時(shí)可以發(fā)現(xiàn),CatBoost、RF和GBDT三種模型的決定系數(shù) R2 及其交叉驗(yàn)證值 R2cv 均低于 0.8,不適合進(jìn)行后續(xù)回歸分析。而 Ridge 回歸、LightGBM 和 PLSR 三種算法的 R2 與 R2cv 均高于 0.8,適用于后續(xù)的回歸建模。其中,Ridge 模型在單一模型的測(cè)試集中表現(xiàn)*好,其 R2達(dá)到 0.930,交叉驗(yàn)證 R2cv 為 0.852,且建模耗時(shí)較短。本研究中,Stacking 模型以 Ridge 和 PLSR 為基礎(chǔ)模型,LightGBM 為元模型。Stacking 模型在測(cè)試集上的 R2 提升至 0.943,RMSE 降至 0.066;其交叉驗(yàn)證性能也更加理想,R2cv 達(dá)到 0.881,RMSEcv 為 0.089。與單一模型如 Ridge 相比,Stacking 模型充分融合了三種模型的優(yōu)勢(shì),在各項(xiàng)性能指標(biāo)上均實(shí)現(xiàn)了顯著提升。采用 MF 預(yù)處理算法后所建立的模型,有效增強(qiáng)了四種算法的預(yù)測(cè)性能。Ridge、LightGBM、PLSR 及 Stacking 模型在紅花籽油摻假預(yù)測(cè)中的結(jié)果見圖 4。
圖4. 基于MF預(yù)處理的不同算法模型建模結(jié)果對(duì)比 (a)嶺回歸(Ridge)模型建模結(jié)果 (b)輕量梯度提升機(jī)(LightGBM)建模結(jié)果 (c)偏*小二乘回歸(PLSR)建模結(jié)果 (d)Stacking集成模型建模結(jié)果
為了降低建模過程中的復(fù)雜度,實(shí)現(xiàn)高效檢測(cè),采用了特征波段建模方法,本研究選擇 Ridge 回歸模型作為特征提取工具,用于提取具有權(quán)重的前30個(gè)特征波段,其在光譜中的分布如圖 5a 所示。所選波段主要集中在 440 nm、530 nm 以及 880–950 nm 附近。之后研究使用這些篩選出的波段進(jìn)行建模分析。實(shí)驗(yàn)結(jié)果表明,MF-Ridge-Stacking模型的建模性能優(yōu)于MF-LightGBM、MF-CatBoost、MF-RF、MF-GBDT、MF-PLSR、MF-Ridge和MF-Stacking模型, MF-Ridge-Stacking回歸分析模型的R2 cv為0.913,RMSE cv為0.076,R2為0.944,RMSE為0.065,表明了基于特征波段的摻假濃度回歸分析的優(yōu)越性。
圖5. 嶺回歸特征提取結(jié)果可視化(a) 嶺回歸算法篩選的特征波長(zhǎng)分布圖(b) 前30個(gè)特征波長(zhǎng)得分排序圖
為了深入分析每個(gè)特征與每種脂肪酸含量之間的關(guān)系,整合了不同摻假濃度油樣的數(shù)據(jù),并進(jìn)一步探討了亞油酸(LA)、油酸(OA)、棕櫚酸(PA)含量與摻假濃度之間的關(guān)系。結(jié)果顯示,摻假濃度與 LA 含量之間存在較強(qiáng)正相關(guān)關(guān)系(圖 6b),其相關(guān)系數(shù) R 達(dá) 0.75。在特定波段(525 nm、552 nm 和 609 nm)處,光譜數(shù)據(jù)與摻假濃度之間表現(xiàn)出顯著正相關(guān)(圖 6a),偏相關(guān)系數(shù) p ≤ 0.001。此外,LA 與 OA 含量之間呈強(qiáng)負(fù)相關(guān)關(guān)系,相關(guān)系數(shù) R= ?0.87,說明當(dāng) LA 含量升高時(shí),OA 含量也隨之升高。進(jìn)一步地,將三種脂肪酸含量與預(yù)處理后的光譜數(shù)據(jù)(MF)一同輸入多元回歸模型,以探索其內(nèi)在關(guān)系??擅黠@看出在將脂肪酸含量作為建模特征后,整體模型性能顯著提升,所有模型的 R2 值均達(dá)到 0.9 以上,尤其是 Stacking 模型的 R2 達(dá)到 0.976,顯示出**的預(yù)測(cè)性能。隨后,采用 Stacking 算法對(duì)油樣數(shù)據(jù)進(jìn)行測(cè)試,測(cè)試集包括88個(gè)摻假濃度在 0% 至 100% 之間的額外樣本。整體預(yù)測(cè)**誤差較小,*大偏差為 16.64%,*小偏差為 0.01%。結(jié)果表明,Stacking 模型在不同油樣摻假水平預(yù)測(cè)中表現(xiàn)良好,驗(yàn)證了其在實(shí)際應(yīng)用中的可靠性與有效性,為食品行業(yè)中的真實(shí)性檢測(cè)提供了有力技術(shù)支持。
圖6. 光譜特征波段與不同濃度脂肪酸的聯(lián)合分析(a) 不同摻偽濃度下光譜特征波段與脂肪酸含量的相關(guān)性分析(b) 摻偽濃度與脂肪酸含量的相關(guān)性分析(c) 不同模型性能對(duì)比雷達(dá)圖
結(jié)論
本研究提出了一種基于HSI和GC-MS技術(shù)的化學(xué)計(jì)量學(xué)方法,用于檢測(cè)紅花籽油(SSO)的摻假濃度。通過不同的預(yù)處理方法,研究發(fā)現(xiàn)采用MF進(jìn)行預(yù)處理能夠成功降低噪聲信息,并顯著提升模型的穩(wěn)健性和泛化能力。此外,本研究還確定了特定的波長(zhǎng)范圍(接近440nm、530nm以及880nm至950nm),這些波長(zhǎng)范圍能夠在不降低預(yù)測(cè)準(zhǔn)確性的前提下優(yōu)化建模時(shí)間。在開發(fā)模型的過程中,構(gòu)建的集成學(xué)習(xí)模型(包含Ridge、PLSR基礎(chǔ)模型以及LightGBM元模型)在預(yù)測(cè)紅花籽油濃度摻假方面展現(xiàn)出比單一模型更高的準(zhǔn)確率。特別是通過聯(lián)合建模GC-MS測(cè)定的脂肪酸含量和高光譜數(shù)據(jù),模型的決定系數(shù)提升至0.976,進(jìn)一步凸顯了該模型的**性能。因此,MF-Ridge-Stacking模型被確定為預(yù)測(cè)紅花籽油摻假濃度的*佳模型。本研究拓展了紅花籽油及其他食用油摻假的識(shí)別方法,并通過結(jié)合GC-MS和HSI技術(shù)以及機(jī)器學(xué)習(xí),為食品行業(yè)提供了一種實(shí)用且可靠的摻假檢測(cè)方法。
關(guān)于雙利合譜
雙利合譜深耕高光譜技術(shù)領(lǐng)域,憑借自主研發(fā)實(shí)力打造了覆蓋多場(chǎng)景的高光譜產(chǎn)品矩陣——從適配空中作業(yè)的無(wú)人機(jī)高光譜成像系統(tǒng)、機(jī)載高光譜相機(jī),到便于現(xiàn)場(chǎng)檢測(cè)的便攜式高光譜儀、便攜式高光譜分析儀,再到聚焦地面觀測(cè)的地物高光譜成像系統(tǒng),以及針對(duì)特定波段與場(chǎng)景的高光譜相機(jī)、近紅外高光譜相機(jī)、短波紅外高光譜、顯微高光譜成像系統(tǒng),全方位滿足不同領(lǐng)域的精準(zhǔn)光譜探測(cè)需求。
這些高光譜產(chǎn)品廣泛應(yīng)用于農(nóng)業(yè)遙感、環(huán)境監(jiān)測(cè)、地質(zhì)勘探、生物醫(yī)療、工業(yè)質(zhì)檢等場(chǎng)景,以高分辨率、高靈敏度的核心性能,助力用戶高效獲取光譜數(shù)據(jù)、挖掘物質(zhì)成分信息。持續(xù)關(guān)注雙利合譜,獲取更多高光譜產(chǎn)品動(dòng)態(tài)、技術(shù)進(jìn)展與行業(yè)應(yīng)用案例,讓自主研發(fā)的高光譜技術(shù)為您的科研探索與產(chǎn)業(yè)升級(jí)賦能!