文摘
探索的应用近红外(NIR)技术生完整烟叶的质量分析,提出了一种基于近红外光谱无损鉴别方法。“多区的+多点”NIR光谱采集方法开发,允许18近红外漫反射光谱收集从一个完整的烟叶。完整的光谱特征和光谱预处理方法分析了烟叶,然后不同的光谱(独立或平均光谱)和不同的算法(判别部分最小二乘(dpl)和费舍尔判别算法)是用于构造判别模型验证完整叶片建模的可行性和确定最优模型的条件。定性鉴别模型基于位置,green-variegated(问),然后完整的烟叶的等级是构造使用近红外光谱。在应用程序和验证阶段,multiclassification投票机制用于融合多个光谱的结果从一个烟叶获得最后一个歧视的结果,叶子。结果表明,position-GV歧视模型使用独立的光谱和dpl构造算法和等级歧视模型构造使用独立的光谱和费雪的算法达到最优结果与完整的叶近红外光谱波数在5006 - 8988厘米−1一阶导数和标准正态变量变换预处理方法。最后,当应用到新的烟叶,position-GV模型和品位模型实现歧视精度的95.18%和92.77%,分别。这表明,两个模型有满意的定性鉴别的能力,完整的烟叶。本研究建立了一个可行的方法无损定性歧视的位置,问,基于近红外光谱技术的完整的烟叶等级。
1。介绍
增强的需求在中国烟草行业对烤烟原料的质量意味着改善和维护烟叶生产领域的质量越来越重要在烟草加工工业1,2]。烟草的管理质量、位置和等级的烟草是最重要的关键因素(3]。根据不同职位的烟草烟草茎增长,烟草位置分为三个主要的位置(即。,上(B)、中(C),和更低的(X))。烟叶化学成分的不同位置明显不同,显示不同的香味,味道,和烦恼3,4]。按照中国国家标准“烤烟”(gb2635 - 1992) [5),根据烟草的差异特征,如组织结构、含油量、厚度、成熟,和损伤程度,烟叶在同一个位置可以进一步分为1、2、3和4的成绩。因此,烟叶的最终成绩是烟草的结合位置,在每个年级的位置,和烟草颜色(即。淡黄色的(左),橙色(F)和红褐色(R))。例如,B2F指上的烟叶,2年级,和橙色。不同等级的烟草与不同的物理和化学性质制定中国香烟的扮演着不同的角色2,6]。然而,也有一些不好的烟叶,没有工业可用性(即。,green tobacco(G) and variegated tobacco(V)) that need to be recognized and discarded. In general, the accurate discrimination of the position, green-variegated (GV), and the grade of raw tobacco leaves in the production area is an important means of ensuring the quality of raw tobacco leaves [7]。目前,主要有两种方法来识别位置,全球之声,和完整的烟叶等级:手动歧视和图像识别技术。前者的方法主要依赖于有经验的评分人员歧视烟叶通过视觉观察和触摸等感官感受基于gb2635 - 1992。这种传统的手工操作方法很容易受到分级工人的主观认知差异的影响,导致可怜的准确性和一致性的评分结果(8]。图像识别包括收集烟叶在可见光波段的图像,然后提取图像特征和歧视他们通过一些机器学习算法。姚等人提出一种烟叶图像特征分类方法基于主成分分析(PCA)、遗传算法(GA)和支持向量机(SVM)。他们减少了15中提取特征的维数(例如,颜色,叶子,和纹理),实现烟叶分级使用混合GA-SVM [9]。Dasari等人用卷积神经网络提取烟叶的RGB图像特征和树叶分类分为三个等级10]。烟叶分级基于图像识别技术可以实现良好的识别结果。然而,基于图像的方法取决于烟叶的外观,如树叶的形状和颜色,而忽略重要的因素,影响烟叶的等级,如身份、成熟、含油量和其他特性,不能从图像中提取。因此,有必要开发一个准确、合理,位置,和快速歧视方法问,完整的烟叶等级。
近红外(NIR)光谱技术用于烟草质量评价(11),常规烟草化学成分分析(12),中国卷烟配方设计(13]。近红外光谱光覆盖了可见光和midinfrared光之间的电磁波,波长范围为750 - 2500纳米。近红外光谱技术的优点是环境可持续、快速、无损(14,15),广泛应用于烟草行业的许多方面。传统的近红外光谱检测烟叶主要使用Fourier-type [16]或栅型近红外光谱仪(17]。在频谱检测过程中,烟叶需要建立成粉末(18)或切成碎片19]。当样品被放置在测试样品杯,震动和压实操作需要执行,以确保样品的均匀性和近红外光谱检测的准确性。碳氢键的吸收信号,h,地近红外光谱能够显示内容的碳水化合物和烟叶的含氮物质(20.- - - - - -22]。烟草的NIR光谱中包含的化学信息有一定相关性的成绩/正电子烟叶(3,6]。这种关系的基础是烟草使用近红外光谱分级/分类模型。然而,目前还没有国家标准显示化学内容的定值对应于烟草的年级/位置。目前,烟草等级歧视的方法和标准是定性而不是定量在烟草工业生产5]。也有一些应用近红外光谱技术在烟草的品位和地位定性鉴别。王等人提出了一个主成分的累积方法解决烟草位置分类基于近红外光谱(23]。烹调的菜肴等人应用近红外光谱和多分类器(支持向量机,请和PPF)融合模型分类烟叶的位置(24]。本等人提出了一种改进的随机森林方法提高烟叶的多级分类性能的成绩加上近红外光谱(25]。先前的研究已经取得了良好的结果在定性鉴别烟叶的地位和品位,但他们的研究材料是烟草粉而不是完整的烟叶。这种检测方法破坏烟叶的完整性和样品制备时间长,因此显然不能满足原始完整的烟叶的质量分析要求。
在近红外光谱检测的完整的烟叶,董et al。26),本et al。27),他et al。28)收集的近红外光谱无损烟叶使用10分,8分,和三分方法,分别对烟叶的化学成分的定量分析。应等人讨论了近红外光谱无损检测的应用完整的烤烟的位置和颜色的29日]。上述研究提供一定的理论依据和技术路线的收集和分析的近红外光谱无损烟叶。然而,以往的研究没有分析近红外光谱的预处理方法需要完整的烟叶。此外,没有报告定性鉴别方法为全球之声和品位,烟叶质量的两个重要的评估标准在中国烟草行业。
意识到歧视的位置,全球之声,和完整的烤烟等级基于近红外光谱技术,研究了完整的烟叶从安徽南部为研究对象,探讨了近红外光谱采集和光谱预处理方法和构建定性歧视模型烟草位置,全球之声,与品位。由此产生的模型可以实现无损烤烟的歧视。
2。材料和方法
2.1。材料和工具
我们获得349烤烟叶片yunyan - 87品种种植在2018年在安徽南部,包括三个烟草的位置(即。,上(B)、中(C),和更低的(X)),绿色烟草和烟草的斑叶,共有十年级(即。,B2F (upper, 2 grade, and orange), B3F (upper, 3 grade, and orange), C2F (middle, 2 grade, and orange), C3F (middle, 3 grade, and orange), C4F (middle, 4 grade, and orange), X2F (lower, 2 grade, and orange), X3F (lower, 3 grade, and orange), GY2 (green tobacco), B2K(upper and variegated tobacco), and CX1K(middle-lower and variegated tobacco)). The qualitative discrimination information (position, GV, and grade) of these tobacco leaves was determined by two professional grading staff with more than 5 years of experience based on GB2635-1992. Table1总结了一些统计与烟叶。
一个Armor711近红外光谱仪(卡尔蔡司有限公司,德国)被用来获得近红外光谱。该光谱仪使用光纤漫反射InGaAs探测器。光源是卤素灯12 V的电压和功率50 W。视野的直径30毫米。光谱范围是910 - 2200 nm的光谱分辨率8海里。波长精度小于0.5纳米,波长重复性小于0.05 nm (30.,31日]。
2.2。近红外光谱采集
一个完整的烟叶宽,长,所以化学成分、含油量、颜色和表面平面度可能不同地区(32,33]。测量烟草的内在因素和外部条件两个影响近红外光谱采集的准确性。因此,“多区的+多点”近红外光谱采集方法的提出。首先,确定多个区域,即烟叶同样分为四个区域(叶梢,中上叶、中下叶和叶基地)从叶尖端沿着主脉叶基方向。如图1,A1是叶尖端区域;中上和中下叶区域划分主要沿静脉给地区A2、A3、A4、A5;最后,A6叶基地区。在这项研究中使用的近红外光谱仪与一个有效的光斑面积30毫米直径,从而扩大光谱扫描范围在一定程度上。然而,收购代表近红外光谱和提高区域光谱数据的质量,提出了一个“多点”光谱采集方法。在每个采集区域,三个收购点是随机选择2厘米内的几何中心区域(如果有叶损害所需的时候,最近的可用点使用)。
收集完整的NIR光谱烟叶25±1°C(室温)和80%相对湿度。32为每个光谱扫描收集256数据点。在光谱采集过程中,光纤探测器头定位在90°(垂直)烟草样品和低端探测器之间的距离和烟叶表面是维持在100毫米(30.,31日]。总共有18个光谱获得六个地区的烟叶。
2.3。光谱预处理
仪器噪声,样本条件、环境因素和人员操作可能会导致一些错误的收购烟叶的近红外光谱。提高光谱数据的准确性和随后的建模精度,原来完整的烟叶的NIR光谱预处理,利用一阶导数(一阶导)和标准正态变量变换(SNV)去除系统噪声和随机误差(34,35]。使用一阶导光谱建模的准确性,SNV,一阶导+ SNV预处理相比,在这项研究中。
2.4。定性鉴别方法
主成分分析(36),判别偏最小二乘(dpl) [37),和费雪的歧视38),被广泛用于近红外光谱的定性鉴别。PCA是用来减少近红外光谱的维数,为后续的数据分析是有益的。在dpl输出值与普通请作为分类标签样本的回归类。在费雪的歧视,投影技术是用来减少来自多个样品的近红外光谱的维数,这样不同的样本有最大的年级之间的距离和最小的组内新投影距离空间。这使的正确分类样本。
当构建歧视模型完整的烟草近红外光谱,349年烟草样本随机分为训练集和验证集的比例4:1。随机划分方法如下:(1)MATLAB中的randperm函数用于生成一个包含298行向量(即。,舍入349×0.8 - 298)独特的整数随机选择从1到349。(2)根据整数向量中,相应的从所有的样本都取出样品编号。这些样本训练集。(3)剩余的样品形式验证集。
烟草在不同光谱被用于建模。此外,共有18个独立光谱收集不同的收购点从每个完整的烟叶,允许使用两种类型的光谱模型构造的结果比较:独立的光谱在不同采购点(以下称为独立光谱)和平均光谱。18平均值平均光谱的光谱从一个完整的烟叶。
2.5。模型评价指标
在这项研究中,我们使用一个判别精度评估模型的性能。判别精度定义如下:
3所示。结果与讨论
3.1。近红外光谱的特性
从数据可以看出2(一个)- - - - - -2 (d)、光谱光滑的轮廓和清晰,吸收峰的位置和吸收谷是显而易见的。吸收峰波数附近主要是6846厘米−1和5173厘米−1,吸收谷附近的波数为6050厘米−1和5407厘米−1,这是符合的特点和位置的高峰和低谷的NIR光谱收集的烟草粉末和由传统方法(24,39]。这些结果表明,光谱收集到完整的烟叶使用多点方法包含更好的信息对不同的官能团烟草。图2还显示,有一些背景干扰和基线转移光谱。这可能是因为完整烟叶表面的不均匀,导致不同的检测器头之间的距离和烟草。此外,随机波动,出现在近红外光谱噪声,它可以来源于实验室仪器或环境条件(40,41]。
(一)
(b)
(c)
(d)
3.2。定性鉴别模型的最优条件
最初的NIR光谱显示强烈的噪音波数范围从4528 - 4995厘米−1和含有较少信息的波数范围从9036 - 11057厘米−1。因此,这两个乐队应该被删除在建模。5006 - 8988厘米的光谱−1被选为建模。主成分分析应用于减少光谱的维数。9个主成分的累积贡献率独立的光谱是99.15%,和六个主要组件的平均光谱贡献占总数的99.66%。因此,独立的9个主成分光谱和六个主成分的平均光谱被用于建模。
3.2.1之上。预处理方法的选择
SNV,一阶导和一阶导+ SNV方法被用来预处理独立光谱和平均光谱。position-GV和等级歧视模型构造使用dpl算法和预处理光谱。建模研究的结果发表在表2和3。
从表可以看出2,当独立光谱预处理和一阶导或SNV方法,验证集实现更高精度的position-GV歧视模型和等级歧视模型比没有预处理时应用。独立光谱预处理时的一阶导+ SNV达成的两个判别模型精度水平的96.22%和86.25%,分别设置了验证,进一步改善了使用一个单一的预处理方法(一阶导或SNV)。表3显示的结果模型构造使用平均光谱相似,也就是说,一阶导+ SNV预处理方法比单一预处理方法,和预处理总是比没有预处理。歧视模型建造使用的平均光谱达到精度水平92.71%和81.75%,分别设置了验证。分析上述结果,看来第一导数预处理方法消除了背景干扰和基线的转变,而SNV预处理方法减少了散射干涉光谱采集过程从烟叶的粗糙表面,有效地提高了数据质量和建模的结果。因此,结合预处理法一阶导+ SNV适用于独立的光谱和完整的平均光谱烟叶。
3.2.2。建模结果使用费舍尔的算法
费舍尔的算法结合独立与一阶导光谱和平均光谱预处理+ SNV被用来构建烟草歧视模型。数据3(一)-3(c)和3(d) -3(f)的费雪的二维投影position-GV歧视建模使用独立和平均光谱,分别。训练集和验证集position-GV歧视模型的精度由独立光谱分别为97.67%和94.27%,分别,而模型的构造使用平均光谱分别为100.00%和91.43%,分别。从数据可以看出3(一)-3(c),之间没有交叉上烟草(B)和降低烟草(X),而中间之间有十字架烟草烟草(B) (c)和上,降低烟草(X)和斑叶烟草(V),这是符合烟草的基本秩序的自然增长。不同类别的样本验证设置主要是信心椭圆内的训练集,而误判样本主要集中在不同类型的十字路口,和整体歧视的结果是好的。从数据可以看出3(d) -3(f)的不同类别样本验证集展览集群分布。在一般情况下,歧视的结果为模型使用的平均光谱略差于那些使用独立的光谱模型。
(一)
(b)
(c)
(d)
(e)
(f)
数据4(一)-4(c)和4(d) -4(f)的费雪的二维投影绩歧视建模使用独立的光谱和光谱,分别。训练集和验证集的精度等级歧视模型由独立的光谱分别为99.64%和97.49%,分别为模型而构建使用平均光谱分别为100.00%和91.43%,分别。从数据可以看出4(一)-4(c),烟草(即上。,B2F, B3F) is located on the far left of the overall distribution, intersecting with the middle tobacco (i.e., C2F, C3F), and the lower tobacco (i.e., X2F, X3F) is located on the far right of the overall distribution. The overall distribution shows the clustering of tobacco positions. As shown in Figures4(d) -4(f),验证集样品散射的接近椭圆训练集的信心,和样品相同的类都聚集在一起。
(一)
(b)
(c)
(d)
(e)
(f)
3.2.3。比较建模条件
表4介绍了模型在不同条件下的结果。可以得出以下结论:(1)歧视准确性的验证集是当使用独立的光谱比当使用平均光谱。因为物理和化学性质的不均匀分布在不同地区的完整的烟叶,在不同地区的平均光谱消除错误。然而,平均光谱也抵消的贡献之间的差异在不同地区独立光谱定性歧视的结果。此外,歧视的结果18个独立的单个烟叶光谱可能是正确或不正确的,但是平均光谱减少单个烟叶的容错,从而降低整体精度的歧视。(2)position-GV歧视,验证集的精度在使用类似费舍尔的算法和dpl。然而,对于等级歧视,验证集的精度建模费舍尔的算法明显高于使用dpl时。dpl的实验结果表明,算法更适合用少量的分类判别任务类,如烟草position-GV的歧视,它共有五类。当分类类的数目很大,在每个类的数据量不平衡、dpl算法给可怜的歧视的结果,如烟草等级歧视的,共有10类。在这种情况下,建议费舍尔的算法。(3)最优模型条件position-GV歧视完整的烟叶dpl与独立的光谱。最优模型条件等级歧视是费舍尔与独立的光谱的算法。
3.3。模型的应用和验证
上述建模方法是基于近红外光谱。我们现在描述完整的定性鉴别烟叶在实际应用。为此,另外83安徽南部烟叶从同年收集,和18 NIR光谱从每个烟叶模型得到验证。在验证期间,5(或10)18个光谱的光谱被随机选中每个烟叶和输入position-GV歧视模型(或等级歧视模型)。multiclassification投票机制被用来融合这5个的歧视的结果(或10)光谱,和最多的类事件统计结果给最终的歧视类。
整体歧视position-GV模型精度等级歧视模型的95.18%,为92.77%。研究的结果发表在表详细的歧视5和6。表5表明整个歧视position-GV模型的结果是好的,而且没有上部和下部烟叶之间的误判。从表6,很明显的误判等级歧视模型主要集中在邻近的成绩或在同一位置,和相邻等级歧视的准确性达到98.33%。这个应用程序和验证的结果表明,基于近红外光谱技术的完整的烟叶的定性鉴别方法提出了能够实现良好的歧视能力position-GV和安徽南部烟叶等级。
4所示。结论
在本文中,我们描述了开发的定性鉴别方法position-GV使用近红外光谱技术和完整的烟叶等级。“多区的+多点”方法收集完整的提出了烟叶的近红外光谱。定性的歧视模型建立了烟叶position-GV和年级并应用分类新烟叶,以验证其性能。我们表明,一阶导+ SNV是最好的NIR光谱预处理方法完整的烟叶和使用独立的光谱区分精度高于平均光谱。我们还表明,dpl算法适用于分析少量的类,而费舍尔的算法会取得更好的结果,当类的数量很大,和每一个类的数据量是不平衡的。结果表明,近红外光谱,该方法可以实现有效的完整无损定性鉴别烟叶和烟草行业帮助手册中可以应用分级和分类。
数据可用性
原始数据在我们的研究中不能被共享这个时候也作为数据形成一个正在进行的研究的一部分。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这项工作是支持的重点科技项目的安徽烟草公司在授予中国(没有:20180563006)。