123,123

紅茶是世界上最受歡迎的無酒精飲料之一，由茶樹的幼嫩枝葉加工而成。近年來，隨著紅茶的藥用價值和保健作用得到實(shí)驗(yàn)的進(jìn)一步證實(shí)，全球紅茶消費(fèi)量持續(xù)增長。工夫紅茶作為紅茶的主要品類之一，是中國特有的一種茶品。其緊細(xì)的外形和醇厚的口感深受消費(fèi)者的喜愛。一般來說，茶葉的品質(zhì)與特定的感官特征如顏色、香氣、滋味、紋理和形態(tài)特征高度相關(guān)。茶葉按品質(zhì)的差異可以劃分為不同等級，這取決于其生長條件、收獲季節(jié)和加工工藝。在茶產(chǎn)品的實(shí)際流通銷售中，大多數(shù)消費(fèi)者無法準(zhǔn)確評估茶葉的質(zhì)量，這為不法商家提供了銷售假貨或以次充好的可能，給消費(fèi)者帶來了經(jīng)濟(jì)損失，也造成了消費(fèi)者與商家之間的不信任。因此，茶葉質(zhì)量的穩(wěn)定性和規(guī)范化一直受到消費(fèi)者的關(guān)注。

幾十年來，茶葉質(zhì)量評價主要采用兩種傳統(tǒng)方法，即感官品質(zhì)分析法和濕化學(xué)法。感官質(zhì)量分析是依靠訓(xùn)練有素的評茶員的經(jīng)驗(yàn)來實(shí)現(xiàn)的，缺乏客觀的量化。濕化學(xué)分析通過使用精密的儀器，準(zhǔn)確測定茶葉中各種化學(xué)成分的含量。然而，化學(xué)分析具有設(shè)備昂貴、樣品制備復(fù)雜、使用大量化學(xué)試劑、成本較高、耗時較長的局限性，開發(fā)快速、穩(wěn)定、準(zhǔn)確的茶葉品質(zhì)評價技術(shù)勢在必行。

目前，基于單一外形色澤、紋理等特征無創(chuàng)判別茶葉質(zhì)量的評價方法被大量報道。將茶葉色澤和紋理特征進(jìn)行特征數(shù)據(jù)融合，全面衡量祁門工夫紅茶品質(zhì)的方法至今少有文獻(xiàn)報道。因此，有必要建立一套基于紋理和色澤等融合特征的茶葉品質(zhì)快速評價體系與智能感知的新方法。

綜上，探索一種流通過程中工夫紅茶外觀品質(zhì)的快速判別方法，對實(shí)現(xiàn)品質(zhì)等級與外觀質(zhì)量的實(shí)時控制至關(guān)重要。祁門紅茶的紋理與色澤特征是形成其外在品質(zhì)的主要指標(biāo)，也是重要的感官品質(zhì)描述語，直接影響其在貿(mào)易中的銷售價值。而高光譜成像(Hyperspectral imaging， HSI)技術(shù)正適用于不同等級祁門工夫紅茶外觀品質(zhì)指標(biāo)與融合數(shù)據(jù)特征的快速無創(chuàng)檢測。

材料與方法

1、實(shí)驗(yàn)材料

研究以祥源茶業(yè)股份有限公司提供的祁門櫧葉種祁門工夫紅茶的七個等級茶產(chǎn)品標(biāo)準(zhǔn)樣(特級、一級、二級、三級、四級、五級和六級)為研究對象，七個等級工夫型紅茶樣品的主要品質(zhì)成分含量和感官審評結(jié)果分別通過標(biāo)準(zhǔn)方法化驗(yàn)和專業(yè)評茶員把關(guān)。紅茶樣品數(shù)共計700份，每個等級茶樣數(shù)分別為100份。樣品的七個不同等級(特級、一級、二級、三級、四級、五級和六級)分別以T、C1、C2、C3、C4、C5和C6表示。樣品的水分含量控制在7%左右。分析前，將樣品存放在真空壓縮的鋁箔袋中，并在恒溫干燥器中保存待用。

2、高光譜成像信息采集與處理

采集HSI數(shù)據(jù)時，每個樣品稱取15±0.5 g均勻鋪于培養(yǎng)皿(φ×h：9 cm×1 cm)中。為了獲得清晰的圖像，分別設(shè)置輸送帶速度、CCD相機(jī)曝光時間和鏡頭與樣品垂直距離三個調(diào)試參數(shù)為0.98 mm/s、30.01 ms和23.5 cm。將茶葉樣品放置在移動平臺上，通過行掃描的方式進(jìn)行圖像采集。為了去除相機(jī)內(nèi)的噪聲和暗電流等因素的干擾，在進(jìn)行HSI數(shù)據(jù)分析前，需對原始圖像進(jìn)行黑白校正，校正公式如下：

其中Ic是校正后的圖像，Iraw是原始圖像，Idark是通過完全覆蓋攝像頭鏡頭獲得的暗參考圖像(幾乎為0%的反射率)，Iwhite是通過反射一個標(biāo)準(zhǔn)的特氟龍白瓷磚獲得的白色參考圖像(>99.9%的反射率)。

為降低HSI數(shù)據(jù)的空間維度，優(yōu)化茶樣原始圖像，實(shí)現(xiàn)冗余數(shù)據(jù)的消除和數(shù)據(jù)運(yùn)行速度的提升，主成分分析(Principal component analysis， PCA)被引入，用于數(shù)據(jù)降維和特征信息提取。該法將數(shù)據(jù)以線性變化的方式通過求解最大協(xié)方差，由高維度向低維度投影，獲得與原始變量線性組合的新變量。由于新變量間相互獨(dú)立，可消除相鄰波長間存在的數(shù)據(jù)冗余。高光譜特征波長圖像的確定是由前二至三個主成分(Principal component， PC)圖像的方差貢獻(xiàn)率決定，通過選取PCA變量線性組合的最大權(quán)重系數(shù)，進(jìn)而在PC圖像中優(yōu)選出相應(yīng)波長對應(yīng)的圖像。HSI數(shù)據(jù)的校正和PCA均由ENVI 4.7軟件實(shí)現(xiàn)。

3、紋理和色澤特征提取

茶葉的紋理特征和色澤特征能夠直接反映其外觀品質(zhì)。研究采用ENVI 4.7軟件的PCA模塊提取圖像紋理信息?？偟膩碚f，PCA的前幾個PCs對圖像總體信息做出了主要貢獻(xiàn)。首先，計算出前兩、三個PC的累積方差貢獻(xiàn)率，得到總變量貢獻(xiàn)率大于95%的PC對應(yīng)的載荷曲線。然后，將相應(yīng)PC載荷曲線的拐點(diǎn)(即波峰和波谷)作為特征波長，保存特征波長處的灰度圖像。最后，采用灰度統(tǒng)計矩陣(Grey-level gradient co-occurrence matrix， GLGCM)和灰度共生矩陣(Gray-level co-occurrence matrix， GLCM)兩種矩陣統(tǒng)計方法對茶葉圖像的紋理特征進(jìn)行提取和計算。GLCM法提取了指定圖像在特征波長下的六個不同的統(tǒng)計參數(shù)(即平均值、標(biāo)準(zhǔn)差、相關(guān)性、對比度、同質(zhì)性和能量)。GLGCM法基于灰度梯度的二階統(tǒng)計量，計算得到圖像的四個紋理統(tǒng)計值(熵、三階矩、一致性和平滑度)。將獲得的上述八個紋理參數(shù)和兩個統(tǒng)計參數(shù)(平均值和標(biāo)準(zhǔn)差)作為茶葉紋理特征變量，用于建立后續(xù)的紋理數(shù)據(jù)鑒別模型。上述紋理參數(shù)提取均通過MATLAB R2019b軟件實(shí)現(xiàn)。

采用MATLAB R2019b軟件選取樣品高光譜RGB圖像中200×200的像素區(qū)間為該圖像的感興趣區(qū)域(Region of interest， ROI)，通過RGB、CIE Lab和HSV間的顏色模型變換，分別提取該區(qū)域內(nèi)的紅色(R)、綠色(G)和藍(lán)色(B)通道均值，明度(L*)、紅綠度(a*)和黃藍(lán)度(b*)分量均值以及色調(diào)(H)、飽和度(S)和亮度(V)均值九個色澤評價參數(shù)作為樣品的外觀顏色特征值，用于后續(xù)的樣品質(zhì)量評價模型的構(gòu)建。利用HSI系統(tǒng)提取色澤特征示意圖如圖1所示。

2、多元分析方法

為使模型具備良好的泛化性能，采用Kennard-Stone(K-S)方法對樣本集特征進(jìn)行劃分。該算法將所有的樣本作為校正集的候選樣本，計算所有樣本的歐氏距離，選取距離最近和最遠(yuǎn)的兩個樣本劃入校正集。重復(fù)上述步驟，直到獲得滿足要求的樣品數(shù)量。利用該法可優(yōu)選出具有代表性的樣本劃入校正集，余下的樣品劃入預(yù)測集。

在模型構(gòu)建中，研究選用非線性的支持向量機(jī)(Support vector machine， SVM)、兼具線性功能的最小二乘支持向量機(jī)(Least squares support vector machine， LSSVM)和隨機(jī)森林(Random forest， RF)算法進(jìn)行建模，并對判別模型效果進(jìn)行比較，探索出評價茶葉品質(zhì)的最優(yōu)模型。

SVM法是數(shù)據(jù)分析中常用的多分類器。該算法基于結(jié)構(gòu)風(fēng)險最小化原則，試圖提高泛化能力，降低預(yù)期風(fēng)險。SVM鑒別器以徑向基函數(shù)(Radial basis function， RBF)為核函數(shù)，通過優(yōu)化兩個參數(shù)(即懲罰參數(shù)c和核參數(shù)g)獲得良好的預(yù)測。參數(shù)c用于獲得最小訓(xùn)練誤差和簡化模型;核函數(shù)g描述了輸入空間到隨機(jī)高維特征空間的非線性映射。

該方法的具體步驟概述如下：

(1)采用留一法交叉驗(yàn)證來優(yōu)化核心參數(shù)(c和g);

(2)采用網(wǎng)格搜索法確定最佳參數(shù)對(c和g);

(3)根據(jù)預(yù)測集中正確判別率(Correct discriminant rate， CDR)的最高輸出，建立最佳的SVM分類模型。

LSSVM是一種有效的非線性智能學(xué)習(xí)算法，能夠快速解決線性和非線性模式識別問題。該法重點(diǎn)研究了機(jī)器學(xué)習(xí)損失函數(shù)，并將第二范數(shù)應(yīng)用于目標(biāo)函數(shù)的優(yōu)化問題。算法使用等式約束代替不等式約束，將優(yōu)化問題轉(zhuǎn)化為對一組線性方程組的求解。對于任意已知輸入輸出的非線性樣本集，可以通過探索合適的非線性變換來建立LSSVM模型，其表達(dá)式如下：

在LSSVM模型中，核函數(shù)的選擇起著重要的作用。其核心思想是利用核函數(shù)將線性不可分的樣本映射到高維空間，解決維數(shù)的困擾?？紤]特征空間的結(jié)構(gòu)完全由核函數(shù)決定，核函數(shù)選擇對分類器的開發(fā)具有重要意義。在本研究中，RBF是由專家根據(jù)最小誤差和先驗(yàn)知識來選擇的。內(nèi)核函數(shù)的描述公式如下：

其中x為m維輸入向量，xi為第i個徑向基函數(shù)的中心，與x具有相同的維數(shù)。γ為徑向基函數(shù)核函數(shù)的參數(shù)。利用網(wǎng)格搜索法優(yōu)化了RBF的正則化參數(shù)gam(γ)和sig2(σ2)。該方法簡化了SVM優(yōu)化問題的求解，提高了計算效率，促進(jìn)了SVM的應(yīng)用和發(fā)展。

RF算法是基于回歸樹和分類樹的多個決策組合而構(gòu)建的模型集成方法。當(dāng)算法的運(yùn)行，每棵決策樹均進(jìn)行分類。以所有決策樹中分類結(jié)果最多的類別作為最終結(jié)果。算法提出了兩個關(guān)鍵參數(shù)：一是決策樹的數(shù)量(Number of decision trees， nDT);二是用于構(gòu)建決策樹的采樣特征的數(shù)量。RF具有不要求變量服從特定統(tǒng)計分布、訓(xùn)練樣本少、對過擬合靈敏度低、能夠?qū)μ卣鞯闹匾赃M(jìn)行排序等優(yōu)點(diǎn)。

該方法可以簡單概括為如下三個步驟：

(1)使用Bagging方法隨機(jī)生成T個訓(xùn)練數(shù)據(jù)子集;

(2)每個訓(xùn)練樣本被用來生成相應(yīng)的決策樹。在每個子節(jié)點(diǎn)選擇屬性之前，從M個屬性中隨機(jī)選擇m個屬性作為當(dāng)前節(jié)點(diǎn)的拆分屬性集，在M個屬性中以最佳拆分方式拆分節(jié)點(diǎn);

(3)每一棵樹在不修剪的情況下充分生長，用來測試預(yù)測集X中的相應(yīng)類別，利用T決策樹的多數(shù)票，對X進(jìn)行集合分類決策。

為評價判別模型的性能，用校正集和預(yù)測集的CDR來評估模型的預(yù)測能力。一般來說，一個優(yōu)秀的判別模型應(yīng)有較高的CDR值，其計算方法如下：

其中，NCDR為校正/預(yù)測樣本的正確估計數(shù)，Nt為校正/預(yù)測樣本的總數(shù)。上述建模算法均由MATLAB 2019b軟件在Windows 8平臺下自主開發(fā)。

結(jié)果與分析

1、樣品外觀品質(zhì)特征

七個不同等級(即T、C1、C2、C3、C4、C5和C6)的700份祁門工夫紅茶的九個顏色參數(shù)(R、G、B、L*、a*、b*、H、S和V)的變化情況如圖2所示。結(jié)果顯示，隨著樣本等級的降低，其外觀色調(diào)(H)和飽和度(S)值降低，其它七個指標(biāo)值則呈增長的趨勢。結(jié)果表明，茶樣的等級品質(zhì)越低，其色澤越暗，純度越低。

祁門紅茶樣本的紋理特征值的提取過程是利用ENVI軟件中PCA方法提取前兩個PC圖像的累計方差貢獻(xiàn)率達(dá)95.85%(PC1=92.19%，PC2=3.66%)(見圖3)，前兩個PCA載荷曲線的波峰與波谷處的波段被篩選為圖像特征波長。從PC1和PC2中獲得了三個最佳波長(696.74 nm、752.86 nm和975.91 nm)。

因此，基于GLCM和GLGCM法從上述三個最佳波長的圖像ROI中提取圖像紋理特征。GLCM法獲得的紋理參數(shù)包括兩個統(tǒng)計值(均值和標(biāo)準(zhǔn)差)×三個波段+四個紋理指標(biāo)×三個波段×四個方向(0°、45°、90°和135°)，即54個紋理特征。GLGCM方法可得到12個紋理數(shù)據(jù)(四個紋理特征×三個波段)，總計66個紋理值，用于后續(xù)模型構(gòu)建。

2、樣品集劃分與主成分分析

利用K-S方法將校正集和預(yù)測集樣本以2∶1的比例進(jìn)行劃分，得到校正集樣品數(shù)為467，預(yù)測集樣品數(shù)為233。樣品集的二維PC空間分布情況見圖4。結(jié)果顯示，祁紅樣品的單一特征(色澤或紋理)與融合特征的校正集和預(yù)測集樣品的空間分布相對分散，且校正集樣品分布包含了預(yù)測集樣品的分布范圍。表明樣品集的劃分是合理的。

不同等級祁紅樣品的二維PC空間分布情況如圖5所示。不同等級樣本的單一特征(色澤或紋理)與融合特征PC得分分布顯示，不同等級的樣本間重疊性較強(qiáng)，無論是單一特征還是融合特征均無法將不同等級的樣本區(qū)分開，有必要引入線性或非線性的分類算法，以實(shí)現(xiàn)對樣本品質(zhì)等級的準(zhǔn)確判別。

3、外觀品質(zhì)評價模型建立

基于SVM、LSSVM和RF智能算法的祁門紅茶外觀色澤、紋理及特征融合數(shù)據(jù)的等級評判模型結(jié)果見表1。

模型結(jié)果顯示，基于色澤、紋理與特征數(shù)據(jù)融合的祁門紅茶等級最優(yōu)LSSVM分類模型在校正集和預(yù)測集中的CDR分別為70.88%、72.96%、83.51%、86.27%和93.15%、94.85%。使用融合特征建立的最佳判別模型性能優(yōu)于單一紋理與色澤特征所建的模型，且紋理數(shù)據(jù)的建模效果高于色澤數(shù)據(jù)構(gòu)建的模型識別精度。此外，融合數(shù)據(jù)建立的所有模型的CDR均高于使用相同分類算法的紋理或色澤模型。實(shí)驗(yàn)結(jié)果表明，特征融合能夠更為有效地反映祁紅樣本的外觀品質(zhì)屬性，建模精度較基于單一特征(紋理或色澤)的模型更高，對樣本的解析更加有優(yōu)勢。

總結(jié)與討論

研究基于HSI技術(shù)和化學(xué)計量學(xué)算法，開發(fā)出一套快速、無損的工夫紅茶外觀品質(zhì)(色澤、紋理和融合數(shù)據(jù))的評判方法。探討了不同機(jī)器學(xué)習(xí)算法對七個等級的祁門工夫紅茶標(biāo)準(zhǔn)樣單一外觀特征和多信息特征融合的預(yù)測能力，以探求評價模型的最優(yōu)化。

利用HSI技術(shù)獲得祁門紅茶樣品的色澤和紋理特征數(shù)據(jù)，比較了基于SVM、RF和LSSVM算法對上述茶產(chǎn)品標(biāo)準(zhǔn)樣的單一外觀特征和融合特征的等級判別模型性能。結(jié)果表明，基于融合數(shù)據(jù)的建模性能優(yōu)于基于單一特征屬性(色澤或紋理)的模型。由單一外觀特征的模型性能可知，紋理特征模型精度最高，色澤特征數(shù)據(jù)的建模效果最差。利用LSSVM算法構(gòu)建的特征融合評價模型對祁紅樣品的預(yù)測準(zhǔn)確度最高，預(yù)測集判別率達(dá)到94.85%。利用特征融合數(shù)據(jù)所建模型具有更優(yōu)的預(yù)測能力，為工夫紅茶產(chǎn)品外觀品質(zhì)的快速評判提供了一種行之有效的方法。

在所有分類模型中，色澤數(shù)據(jù)模型的預(yù)測性能較差。有可能是對祁門紅茶樣本外觀的等級劃分標(biāo)準(zhǔn)更加側(cè)重于對茶葉嫩度高低的審定。紅茶樣品的持嫩度不同，其紋理差異較大。色澤特征主要與紅茶發(fā)酵程度關(guān)系緊密。在標(biāo)準(zhǔn)化的紅茶加工工藝模式下，發(fā)酵工序具有嚴(yán)格的參數(shù)控制，其品質(zhì)具有較強(qiáng)一致性。因此，不同等級的紅茶產(chǎn)品的色澤變化程度沒有紋理特征的差異性大，進(jìn)而導(dǎo)致色澤數(shù)據(jù)模型的性能較紋理特征差。

從分類算法的角度看，LSSVM模型的預(yù)測效果優(yōu)于SVM模型和RF模型。LSSVM模型的優(yōu)化可以理解為等式約束，解決了基于訓(xùn)練誤差平方的線性方程問題。在SVM算法的基礎(chǔ)上建立和開發(fā)的LSSVM方法，能夠得到一個更為簡單、有效、穩(wěn)健的模型。根據(jù)相關(guān)文獻(xiàn)，LSSVM分類器能夠有效提高茶葉品質(zhì)評價模型的計算速度和分類精度。此外，RF算法對于輸出數(shù)值較多的屬性可能會產(chǎn)生誤差。綜上，LSSVM分類工具能夠提供更好的解決線性和非線性問題的方案，更加有效地簡化問題的復(fù)雜性，增強(qiáng)模型性能。

作者簡介：

尹玲玲

馬鞍山人，在讀本科生，主要從事茶葉品質(zhì)分析與化學(xué)方向的研究。參與省部級以上科研項(xiàng)目3項(xiàng)，發(fā)表科研論文5篇。

通訊作者：

任廣鑫

博士，淮南師范學(xué)院生物工程學(xué)院食品工程系專任教師，主要從事茶葉品質(zhì)分析與茶葉質(zhì)量安全快速無損檢測技術(shù)方向的研究。近年來主持和參與省部級以上科研項(xiàng)目10余項(xiàng)，主持和參與省級、校級質(zhì)量工程項(xiàng)目多項(xiàng)。以第一作者和通訊作者發(fā)表科研論文20余篇，其中SCI收錄20余篇。

來源：中國茶葉加工

如涉及版權(quán)問題請聯(lián)系刪除