比较地理可追溯性的野生和栽培Macrohyporia可可与不同的数据融合方法 - raybet雷竞app,雷竞技官网下载,雷电竞下载苹果

文摘

云苓起源于的干燥菌核Macrohyporia可可中医是一种可食用的高经济价值。由于野生和栽培之间的质量差异显著m .可可,本研究旨在跟踪真菌的起源从野生和栽培。此外,关于数据融合的研究很有限,一个潜在的战略,采用和地理可追溯性的讨论m .可可。因此,我们追踪的起源m .可可从野生和栽培使用多个数据融合方法。监督模式识别技术,如偏最小二乘判别分析(PLS-DA)和随机森林,是在这项研究中使用。五种数据融合包括低收入,中期,和高级数据融合策略进行。两种特征提取方法包括选择由一个随机变量与森林有关的method-Boruta算法和生产主成分降维技术的主成分分析考虑数据融合。结果表明:(1)野生和栽培样本之间的差异确实存在的重要化学成分的内容分析和指纹分析。(2)野外样品需要数据融合实现起源可追溯性,并验证的准确性为95.24%。(3)Boruta优于主成分分析(PCA)的特征提取。(4)中层Boruta PLS-DA模型充分利用了信息协同作用,表现出最好的性能。本研究证明了地理的可追溯性和最佳栽培和野生样本识别方法不同,和数据融合是一个潜在的技术在地理标识。

1。介绍

Macrohyporia可可是一个wood-decay真菌Polyporaceae家族。它将松树的木头药用产品,可以治疗各种水肿,振兴脾脏功能,冷静头脑。的菌核m .可可,称为卧孔菌属,是一种最广泛使用的原材料的中药复方制剂。中国药典(2015年版)记录超过一百种处方包括云苓。此外,中华人民共和国的国家健康委员会已经批准了这个真菌可用于食品。很多Poria-based皮肤化妆品如面部面具已经生产和使用。目前的调查显示这不仅真菌显示抗癌(1,2),但抗炎(3,4],antihyperlipidemic [5],renoprotective [6),和王亚南7]属性由于其多糖概要和萜烯的存在。换句话说,云苓表明高经济价值和药用价值。

地理可追溯性一直是质量保证的一个重要的问题,不仅对天然药物还对食物。许多法律立法保护地理起源的一部分,如中国地理标志保护产品和欧洲保护原产地名称(8]。因此重视找到合适的分析方法来确定的地理起源保证质量以及合理利用。如今,各种分析方法,如液相色谱(LC)及其用连字符连接技术(HPLC-PAD和UHPLC-QTOF-MS / MS) (9,10),中期和近红外光谱(11,12)和紫外光谱(13个别及连带[14,15),已被用于地理可追溯性的物种,在数据融合策略显示在这方面有很大的潜力。

通过结合多个互补信息对象的输出利用协同效应的信息,数据融合策略有更多的机会来实现一个精确的描述比单一的数据(16),已被应用于食品、饮料、和医学(17- - - - - -20.]。王等人。14)的地理身份验证进行培养m .可可通过液相色谱和红外光谱结合数据融合,并结果了,低级的性能数据融合策略之前,单一技术。李,王15表现的比较m .可可原材料使用紫外(UV)和傅里叶变换红外(FTIR)光谱数据融合,并发现经济增长模式的差异大于那些集合区域,而只有少数类型的数据融合方法进行了研究和讨论。此外,经济增长模式影响内部的化学成分和表皮的物种21),和传统的野生物种更受欢迎比培养;然而,他们未能讨论和区分的地理起源分别在野生和栽培。因此,这项研究的目的是跟踪的起源m .可可从野生和栽培使用多个数据融合方法。

五种数据融合方法包括低收入,中期,和高级数据融合策略进行了研究:一个低级,两个中层,两个高级。每一层融合有其优势。低级融合为特征的简单实现。中层数据融合可以节省计算时间,因为它的特征提取显著降低数据维数(22]。高层的优点之一是,当有新的数据块显示新功能用于解密的对象,它可以被添加到分类决定立即增加决策过程的多功能性(16]。特征提取可以用于高层融合。

根据我们之前的经验关于起源的识别培养云苓,输出较大的内部比表皮更高效,和液体色谱在242 nm和红外光谱光谱表现优于其他技术(14]。因此,红外光谱和液相色谱的指纹的波长242 nm被选出的特征的内在部分野生和栽培样本。

在这项研究中,5个数据融合方法结合偏最小二乘判别分析的两种多元分类方法(PLS-DA)和随机森林(RF)已经应用于利用信息的协同效应获得红外光谱和LC。特别是两种特征提取方法,包括选择变量由RF-based method-Boruta算法和生产主成分降维技术(pc)的主成分分析(PCA)都被认为是在数据融合。质量、地理的可追溯性和最佳栽培和野生样本识别方法比较。这项研究的结果可以改善当前的知识,为进一步开发利用这种真菌。

2。材料和方法

2.1。化学品和样品制备

HPLC-grade乙腈是购自热费希尔科学(公平的草坪,新泽西,美国)。甲酸是购自Dikma技术(森林湖、钙、美国)。纯净水是购买从广州屈臣氏食品和饮料有限公司有限公司(广州)。其他化学试剂均为分析纯。标准化合物(pachymic酸,dehydropachymic酸,poricoic酸,dehydrotrametenolic酸,和3-epidehydrotumulosic酸)(纯度≥98%)是由北京Keliang科技有限公司有限公司(中国,北京)。Dehydrotumulosic酸(纯度≥96%)从ANPEL购买实验室技术有限公司(上海,中国)。标准的解决方案准备每个分析物的浓度范围是以下(mg·L⁻¹):dehydrotumulosic酸:5.00 -999;poricoic酸0.22:-6730;3-epidehydrotumulosic酸:1 - 100;dehydropachymic酸:2.4 -480;pachymic酸:10.3 -1240;和dehydrotrametenolic酸:0.49 -2450。

野生和栽培从玉溪(123)收集的样本,普洱茶,大理、楚雄,云南省保山,中国。详细信息显示在表中S1。收集所有成熟的样品从7月到9月。所有的样品被确认为Macrohyporia可可(Schwein)。约翰斯。& Ryvarden Yuanzhong王教授(云南省农业科学院药用植物研究所、昆明,中国)。对于新鲜的菌核,附加土壤刷,洗了自来水。然后,样品在通风良好的阴凉处风干。黑暗的表皮被删除,和白色的内在部分是粉之后进行分析。粉末与60-mesh筛筛选。所有样品都是保存在聚乙烯可密封的塑料袋进行进一步分析。

然后,一方面,准确地重粉(0.5000±0.0001 g)超声溶解在2.0毫升甲醇40分钟。提取过滤是0.22μm膜过滤器。滤液收集在自动取样器注入LC系统进行分析。另一方面,样品粉末直接用于衰减全反射红外光谱谱收购。

2.2。色谱分析

LC与超快的液相色谱分析系统(日本岛津公司、日本)配有紫外检测器,恒温柱室,一个autosampler,脱气装置,二元梯度泵。的分离进行了Inertsil ODS-HL惠普列(3.0×150毫米,3μ米)在40°C。的流动相由甲酸乙腈(A)和0.05% (B)。流量保持在0.4毫升·分钟⁻¹,注入体积被设定为7μl .信号是在242和210海里。在使用之前,流动相组分被声波降解法和过滤通过0.2脱气μm过滤器。样本筛选了以下梯度:40%(0.00分钟⟶25.00分钟),40%⟶69%(25.00分钟⟶52.00分钟),69%⟶72%(52.00分钟⟶56.00分钟),72%⟶78%(56.00分钟⟶58.00分钟),78%⟶90%(58.00分钟⟶58.01分钟)和90%(58.01分钟⟶60分钟)。每次运行之后,平衡时间三分钟的初始条件(B)的40%和60%。

2.3。光谱采集

红外光谱谱仪(美国珀金埃尔默)配备氘triglycine硫酸(壳体)探测器和衰减全反射(ATR)红外光谱光谱采样附件被用来记录。分辨率和扫描范围被设置为4厘米⁻¹和4000 - 650厘米⁻¹。每个样本扫描先后16次。空气为背景校正光谱被记录。这个实验是实现恒定的温度下(25°C)和湿度(30%)条件。

2.4。数据处理和分析

2.4.1。色谱和光谱的预处理

色谱的保留时间会受到时间和其他因素的影响。出于这个原因,correlation-optimized扭曲算法(23)是用于校正样品的保留时间的变化。为了节省计算时间,修正后的色谱数据降低了在每一个三分,而不影响色谱特性。此外,所有的原始受到先进的ATR红外光谱光谱校正使用OMNIC 9.7.7(美国热费希尔科学)。4000 - 3700厘米的谱带⁻¹和2670 - 1750厘米⁻¹有噪音;因此,变量范围都抛弃了。因为色谱和光谱包含重叠峰和基线变化,Savitzky-Golay (SG)二阶导数多项式滤波器(二阶多项式和15点窗口)进行了强调轻微的差异和消除基线漂移的干扰。尤其是光谱变量的删除SG多项式二阶导数预处理后进行。

数据矩阵的大小(米×n)是建立描述变量数量的变化,米样品的数量和表示n代表的色谱保留时间或波数谱。以野生样品为例;最初的色谱矩阵(61×7201)被转换为(61×2387)预处理后,和原始光谱矩阵(61×1737)被改变为(61×1097)。处理过的数据矩阵被用于PLS-DA,随机森林或数据融合。

2.4.2。数据融合

数据融合策略,综合多个互补信息的输出,将获得比单一信息更精确的描述。数据融合的过程中,它是相同的样本的LC和红外光谱数据结合起来。三个级别的数据融合进行了研究:低,中期,和高级。低层次的融合是概念上的简单和容易实现。几个预处理数据集被直接连接到一个矩阵,其变量数量等于每个数据集的变量数量的总和。中层融合的重要一步是独立从每个数据库中提取相关特征,然后连接成一个新的矩阵用于多变量分析。在高层中,每个数据集计算的模型,每个模型的输出和集成得到最终的判断运用模糊集理论(24]。总之,最后的决定取决于多数投票的结果四个模糊聚合连接运营商(最大、最小、平均和产品)。数据融合过程的具体方案在本研究中在图表示1。

(一)

(b)

(c)

特征提取可以节省计算时间和提高精度在实际模型建立(25),使用了两种特征提取方法:(1)个人电脑提取采用主成分分析的降维技术。与少量新变量,电脑几乎描述了大部分的原始信息26]。电脑的数量取决于SIMCA软件的7倍交叉验证过程。(2)变量选择应用Boruta算法。Boruta是个RF-based特征提取方法,无偏和稳定选择重要和nonimportant变量从一个信息系统25]。变量标有试探性的和确认的决定被认为是重要的特点和提取。

2.4.3。化学计量学

化学计量学方法在一个至关重要的角色,在食品和医药领域的科学。监督模式识别技术,如PLS-DA和射频,被用于这项研究。一旦建成一个分类模型,加入未知的样本类预定义的类可以被认可。偏最小二乘判别分析(PLS-DA)是一个广泛使用的线性分类方法结合偏最小二乘回归的性质与分类技术(27,28]。作为主要参数,潜变量的数量是基于7倍交叉验证过程。正确识别分类的重要变量可以被投影的变量重要性(VIP) [29日]。

随机森林(RF)整体学习的一种方法是基于决策分类或回归树(30.,31日]。在构建每个树,大约三分之二的样品的校准设置生成一个训练集,和其他三分之一的样本用于获得内部分类误差的无偏估计。三分之一的样本也叫out-of-bag (OOB)样本。作为两个重要的调优参数随机森林模型的建立,树木的数量(n_树),mtry选择取决于OOB分类错误。操作步骤大致分为以下四个步骤。首先,数据集处理Kennard-Stone算法(32是进口的。其次,我们选择最优n_树根据低OOB分类错误值总类考虑每个类的同时,和n的初始值_树与2000年进行了测试。第三,最优mtry是搜索的默认值的范围mtry(数量的平方根变量)+(- 10与一步一步33]。如果有几个mtry与最低的OOB分类错误,接近的一个默认值是第一位的。最后,RF模型是由使用选定的n_树和mtry。

2.4.4。评价模型的性能

评估模型的性能,校准和验证集的比例划分在2:1使用Kennard-Stone算法。校正集应用于构建一套模型和验证来获得一个从外部角度估计模型的实用性。一般来说,如果校准设置的性能远高于验证设置,它显示了过度拟合的可能性,也就是说,减少模型的泛化能力,应该避免。

此外,效率和准确率总额作为合成参数对分类性能进行评估。这些参数的值越高,模型的性能越好。效率的方程如下所示(34),TP(真阳性)是正确确定样品的数量目标积极类和TN(真阴性)的数量正确识别目标负类样本。以此类推,FP(假阳性)和FN(假阴性)代表了积极和消极的错误地确定样本数量类,分别。总准确率是正确的百分比确定样本的样本的所有类。

2.4.5。软件

SIMACA-P⁺(13.0版本,Umetrics,瑞典)是用于PCA, PLS-DA, SG多项式二阶导数预处理。随机森林和Boruta打开使用R3.4.3包(版本)。相关优化翘曲和Kennard-Stone算法由MATLAB软件(美国MathWorks R2017a版本)。内容的五个目标化合物被单向方差分析统计分析使用SPSS软件(版本21.0,IBM公司,美国)。

3所示。结果

3.1。色谱和光谱的预处理

红外光谱的光谱m .可可(图2)提出了混合物的结构信息,包括C = O的乐队,C = CH₂切断,噢,地、碳碳和碳氢键。乐队中的变量的2670 - 1750厘米⁻¹和4000 - 3700厘米⁻¹光谱预处理后被排除在外。具体理由如下:首先,在这些地区没有吸收。其次,根据贵宾的使用,如果一个波数的VIP分数不止一个,这是通常被认为是有助于正确识别每个类(29日]。如图3的VIP情节PLS-DA关于野生样品的红外光谱数据,VIP值在2670 - 1750和4000 - 3700厘米⁻¹(矩形区域图3)是不规则的,几乎超过一个,占化学干扰的存在。角等。35)报道,2670 - 1750厘米的信号⁻¹是由水晶ATR附件材料。

(一)

(b)

通过比较与参考物质的保留时间,保留订单的m .可可成分被发现dehydrotumulosic酸,poricoic酸,3-epidehydrotumulosic酸,dehydropachymic酸,pachymic酸,最后dehydrotrametenolic酸。Pachymic酸色谱图显示明显的210海里,和其他存在于242海里(图S1)。基于以前的工作,精度、稳定性、可重复性和恢复的色谱方法进行评估14)使用dehydrotumulosic酸,poricoic酸,dehydropachymic酸,pachymic酸,dehydrotrametenolic酸,拥有良好的分离度。结果表明,所有的相对标准偏差值低于5.95%,回收率从96.32%到106.4%不等,表明该方法是可靠的。相关系数均高于0.99的校正曲线5参考化合物;因此,该方法可以被认为是准确的。量化的极限(定量限)和检测极限(LOD)(由连续稀释标准溶液,直到信噪比达到10 - 3,职责),回归方程、相关系数、线性范围五个参考化合物见表S2。242海里(图的指纹4),它提出了相对平稳的基线,将选择进行进一步分析。

(一)

(b)

红外光谱和LC SG多项式二阶导数法预处理突出指纹差异和消除基线漂移的干扰。与原始数据相比,PLS-DA模型处理SG多项式二阶导数值(表提出了更高的精度和效率S3),这表明该方法工作。

3.2。比较栽培和野生样品

PLS-DA是执行使用野生和栽培的样本作为类ID。从两个维度的分数散点图里,关于所有的样本(数据5(一个)和5 (b)),它可以很容易地发现野外样本位于左下角,和培养的是位于右上角,表明它们之间的差异大。此外,野生样本显著不同培养的五个重要的化学成分(图的内容5 (c))( )。因此,栽培和野生样品应该执行单独起源识别。

(一)

(b)

(c)

此外,在野外萜类和培育的内容m .可可在同一地区显著不同。的内容dehydrotumulosic酸,poricoic酸,和dehydropachymic酸的培养m .可可高于野生样品,pachymic酸和dehydrotrametenolic酸野生的内容吗m .可可高于栽培普洱地区的样本。一般来说,培养的质量m .可可样本楚雄、大理和宝山略高于野生样品。培养的质量m .可可宝山是最好的,适合大规模种植。玉溪可能筛选优秀的野生的地理来源m .可可种质资源。

3.3。定量分析的样本来自不同的起源

这些三萜显示大量的生物活性,它的存在和数量对的健康效果有至关重要的影响m .可可。五个化合物的内容表现为箱形图的中位数(线框)。野生真菌样本(图S2),大理(DL)显示的poricoic酸量小于其他四个地方( )。宝山(BS)拥有dehydropachymic酸含量高于其余集合地点和pachymic酸含量大于楚雄(CX)。与DL和b相比,玉溪(y) dehydrotrametenolic酸的浓度更高。普洱茶(PE)是明显不同于DL dehydrotrametenolic酸的浓度。培养样本从BS明显不同于其他地理起源dehydrotumulosic酸的内容而言,poricoic酸,和dehydropachymic酸。此外,对于培养真菌,残雪和y都显著不同于DL和PE dehydrotumulosic酸,DL dehydropachymic酸,BS, DL和PE pachymic酸。这些定量结果五个生物活性分析物给了一个有价值的参考区分样本来自不同的地理区域和评估的质量m .可可。

3.4。PLS-DA和射频单集的分类模型

参数的选择是一个重要的步骤在机器学习方法。潜变量的数量在PLS-DA默认定义为7倍交叉验证。在建立随机森林模型的过程中,两个重要参数搜索基于低OOB错误值。具体地说,至于培养样本,最优n_树和mtry118和33为红外光谱数据和178年和48分别为LC数据。野生样品,最终的n_树和mtry分别316年,37岁,在红外光谱模型和82年和48 LC模型(图6)。

(一)

(b)

(c)

(d)

(e)

(f)

(g)

(h)

独立决策的结果如表所示1。PLS-DA和射频模型表明,种植物种从不同的地理起源很容易区分的总准确率为95.24%或100%,验证集。与培养的样品相比,野生的分类精度较低。特别是,很难区分类1和2类,因为它显示相对较低的效率值校准和验证集的基础上,红外光谱和LC数据。因此,为了获得一个更好的结果关于野生样本,结合红外光谱信息和LC的可行性研究通过低收入,中期,和高级数据融合策略。


数据源	模型	校准设置					总精度(%)	验证设置					总精度(%)
数据源	模型	类1	二班	3班	第4类	类5	总精度(%)	类1	二班	3班	第4类	类5	总精度(%)

LC-wild	PLS-DA	1	0.91	0.98	1	1	97.50	0.71	0.87	0.94	0.97	0.88	80.95%
LC-wild	射频	0.50	0.40	0.97	0.91	0.82	70年	0.71	0.50	1	0.97	0.86	76.19%
FTIR-wild	PLS-DA	1	1	1	1	1	One hundred.	0.66	0.66	1	1	1	80.95%
FTIR-wild	射频	0.81	0.40	0.98	1	0.98	82.50	0.69	0.84	1	0.97	1	85.71%
LC-cultivated	PLS-DA	0.95	1	0.99	1	1	97.56	1	1	1	1	1	100%
LC-cultivated	射频	0.87	0.93	0.65	1	1	85.37	0.97	1	0.82	1	1	95.24%
FTIR-cultivated	PLS-DA	1	1	1	1	1	One hundred.	1	1	1	1	1	100%
FTIR-cultivated	射频	0.93	1	0.85	0.70	1	87.80	1	1	1	1	1	100%

3.5。PLS-DA低收入和射频分类模型,中期,和高级数据融合

至于低级策略,色谱和光谱数据预处理直接连接到一个新的矩阵。在这个工作中,低级融合矩阵的大小等于(61×3484)。所述独立决策,最优PLS-DA和射频模型使用合适的参数设置使用低级合并数据(图S3)。它可以看到从表2验证组的总准确率PLS-DA和射频模型(76.19%)不超过一组的分析;因此,底层的数据融合策略是不令人满意。低级融合的主要缺点是,原始,吵,和相关的数据可能会恶化的分类结果36]。因此,低层次的融合是一个可能的原因比单一数据分析LC和红外光谱数据块拥有相关变量(如三萜的信息)或吵了。


数据源	模型	校准设置					总精度(%)	验证设置					总精度(%)
数据源	模型	类1	二班	3班	第4类	类5	总精度(%)	类1	二班	3班	第4类	类5	总精度(%)

低级	PLS-DA	1	1	1	1	1	One hundred.	0.47	0.71	0.97	0.97	0.97	76.19%
低级	射频	0.82	0.70	0.98	0.91	0.98	85.00	0.64	0.50	1	0.97	0.97	76.19%
中层PCA	PLS-DA	0.85	0.91	0.98	1	0.98	92.50	0.50	0.84	1	0.97	0.93	80.95%
中层PCA	射频	0.60	0.71	0.98	0.91	0.86	77.50	0.50	0.49	1	0.97	0.86	71.43%
中层Boruta	PLS-DA	0.94	0.99	1	1	1	97.50	0.97	0.87	1	1	1	95.24%
中层Boruta	射频	0.75	0.68	1	1	1	85年	0.84	0.84	1	1	1	90.48%
高层次的主成分分析	PLS-DA	0.98	0.91	1	1	1	97.50	0.49	0.69	0.97	0.97	0.97	76.19%
高层次的主成分分析	射频	0.70	0.80	0.98	0.91	0.92	82.50	0.50	0.87	1	1	0.86	80.95%
高层Boruta	PLS-DA	1	1	1	1	1	One hundred.	0.50	0.69	1	0.91	0.97	76.19%
高层Boruta	射频	0.92	0.90	1	1	1	95年	0.71	0.84	1	0.97	0.97	85.71%

在中层数据融合,所选变量由LC Boruta和红外光谱数据(绿色线条图S4)被连接到一个数据集,称为中级Boruta。电脑从LC和红外光谱数据结合,命名为mid-level-PCA。前十个人电脑,64.09%的信用证描述变量和前九个人电脑,占79.12%的红外光谱变量提取。n_树和mtry随机森林模型的筛选mid-level-PCA和中层Boruta是显示在图S3。Boruta是更有效的比PCA特征提取,因为中层Boruta数据集显示更高的效率和准确性的验证组比mid-level-PCA PLS-DA和射频模型之一。更重要的是,中层Boruta的模型优于低收入和高水平的数据融合策略的模型以及个人技术由于最高精度的验证组(95.24%和90.48%)。其PLS-DA模型与适当的校准精度(97.50%)被认为是最好的适合地理野外样本的识别。变量与VIP分数大于1(由红色虚线)在每个数据块(图7),表明红外光谱和LC互相补充识别样本的起源。

(一)

(b)

在高级融合模型的进展,校准和验证集的分类票输出每个模型相结合进一步基于四个模糊聚合连接运营商的多数票。作为一个例子(表S410号),真正的类的样本属于类1;然而,它被认定为1级随机森林模型的红外光谱和二班的LC,虽然投票结果基于模糊集理论是一班。两种类型的高层进行了数据融合,也就是说,高层PCA和高级Boruta。的参数筛选随机森林模型如图S5。随机森林模型有更高的效率验证为一班和二班比PLS-DA模型。但是,很难区分类1和2班,一如既往。

因为在PLS-DA校准模型的准确率通常远高于那些验证集,所有PLS-DA模型验证的排列测试来评估风险,当前PLS-DA模型是假的。一个30-iteration排列进行了测试。可以看到从图S6的回归线Q²(预测相关系数平方)在或低于零交叉纵轴;它表明,模型过度拟合。结果表明,没有PLS-DA模型过度拟合。

4所示。讨论

在同等条件下,比较的结果栽培和野生样品地理标识,它可以发现他们显示不同的最优的识别方法。栽培的,低级融合前中层PCA和独立决策。然而,对于野外样本,个人数据和中层PCA的性能优于低层次的数据融合。和中级Boruta本研究更适合比中层PCA野生样品的来源鉴定。因此,中层的原因模型有更好的结果比低收入和高级融合模型和独立决策可能是样品的特点,数据融合的特征提取方法,最后决定高层数据融合的方法(最终决定方法可能有影响的高级数据融合的野生的结果m .可可)。更重要的是,它表明,关注跟踪的起源吗m .可可从野生和栽培使用多个数据融合方法。值得去尝试更多的数据融合方法对近似一个精确的描述。

5。结论

在这项研究中,地理的可跟踪性m .可可样品进行了使用多个数据融合方法从野生和栽培。低收入、中层Boruta mid-level-PCA、高层Boruta,和高级PCA数据融合策略进行调查。两种特征提取方法包括Boruta算法的选择变量和生产电脑的PCA降维技术被认为是在数据融合。结果表明,种植的地理可追溯性优于野生的。宝山地区适合种植m .可可在大面条。玉溪可以筛选高质量的野外m .可可种质资源。培养不同的收集样本地区可以很容易地确定只有红外光谱或LC数据,而野生的不能。在野生样品的来源鉴定,Boruta比PCA特征提取。PLS-DA和射频中层Boruta模型能够描述m .可可并提供一个更有效的分类比中级的PCA,低收入,高层PCA,和高级Boruta数据融合策略以及独立决策、中层的Boruta PLS-DA模型被认为是最满意的。的中层Boruta PLS-DA模型提供了一个可靠的方法识别的地理起源m .可可。

简而言之,质量、地理的可追溯性和最佳栽培和野生样本识别方法不同,这项研究也显示潜在的地理标识的数据融合策略m .可可。

缩写

PLS-DA:	偏最小二乘判别分析
主成分分析:	主成分分析
射频:	随机森林
LC:	液相色谱法
紫外线:	紫外线
红外光谱:	傅里叶变换红外
电脑:	主成分
ATR:	衰减全反射
SG:	Savitzky-Golay
贵宾:	变量重要性的投影
OOB:	的包
n_树:	数量的树
TP:	真阳性
TN:	真正的负
外交政策:	假阳性
FN:	假阴性
定量限:	量化的限制
LOD:	检测极限
DL:	大理
BS:	宝山
残雪:	楚雄
y:	玉溪
体育:	普洱茶。

数据可用性

生成的数据集和/或分析在当前研究不是公开的,因为我们的项目没有完成,但可从相应的作者在合理的请求。

的利益冲突

作者宣称他们没有利益冲突有关的出版。

作者的贡献

Yuanzhong王先生和王Yunmei设计项目和修订后的手稿。李Wang和琴琴王做了实验和写的手稿。

确认

作者确认提交预印(https://www.researchsquare.com/article/rs-371769/v2)。这项工作得到了国家自然科学基金(31860584)和特殊项目的重大科技项目云南省(202102 aa100010)。

补充材料

表S1。的信息m .可可样本。表S2。检测的局限性(LOD)和量化的极限(定量限),回归方程、相关系数、线性范围五个参考化合物。表S3。分类效率和总PLS-DA模型的准确率由SG多项式处理二阶导数。表S4。在高层的类分配样本数据融合使用模糊集理论。图S1。的色谱图m .可可在242 nm和210 nm。请注意。峰1 - 6 dehydrotumulosic酸,poricoic酸,3-epidehydrotumulosic酸,dehydropachymic酸,pachymic酸,dehydrotrametenolic酸。图S2。的箱形图dehydrotumulosic酸,poricoic酸,dehydropachymic酸,pachymic酸,dehydrotrametenolic酸在野生(A e)和培养(f j)m .可可五个样本地区。请注意。垂直的蜱虫值是相同的。不同的字母显示显著差异( )。图S3。n_树和mtry随机森林模型的筛选低级(AB),中层PCA (CD)和中级Boruta (EF)。图S4。变量(绿线)选择从LC(左)和红外光谱(右)中层Boruta数据融合中的数据,附加的导数信号记录在一个示例(红线)。图S5。n_树和mtry随机森林模型的筛选有关高级数据融合。请注意。高层的a - b:红外光谱主成分分析;c - d: LC高层PCA;高层Boruta E-F:红外光谱;G-H:高层Boruta LC。图S6。中层PCA模型的排列图。(补充材料)

引用

j . d . n . Wang Liu郭,y太阳,t·郭和朱x”分子机制的茯苓结合铂epithelial-mesenchymal过渡的抑制胃癌细胞,”生物医学和药物治疗卷,102年,第873 - 865页,2018年。视图:出版商的网站|谷歌学术搜索
c .施问:妈,m . Ren, d .梁问:Yu和j·罗,“Antitumorpharmacological Poriacocos多糖口服液的机制,”民族药物学杂志卷。209年,24-31,2017页。视图:出版商的网站|谷歌学术搜索
s .李·d·李,李s . o . et al .,“抗炎活性菌的食用菌,茯苓狼和活跃lanostane常用药用,”《功能性食品32卷,27-36,2017页。视图:出版商的网站|谷歌学术搜索
徐x, x, x, x,“净化、抗肿瘤和抗炎活动的碱溶和羧甲基茯苓多糖CMP33,”国际期刊的生物大分子卷。127年,39-47,2019页。视图:出版商的网站|谷歌学术搜索
h .苗族,中州。赵:d Vaziri et al .,“Lipidomics食源性高脂血症的生物标志物及其治疗与茯苓、”农业与食品化学杂志》上,卷64,不。4、969 - 979年,2016页。视图:出版商的网站|谷歌学术搜索
m . Wang D.-Q。陈,陈l . et al .,“小说细胞肾素-血管紧张素系统抑制剂组件,poricoic酸,Smad3磷酸化和Wnt /目标β连环蛋白通路对肾纤维化。”英国药理学杂志》上的报告,卷175,不。13日,2689 - 2708年,2018页。视图:出版商的网站|谷歌学术搜索
黄j . k . Wu粉丝,x, x,和c .郭”王亚南效应对茯苓多糖对acetaminophen-induced在小鼠肝损伤,”国际期刊的生物大分子卷,114年,第142 - 137页,2018年。视图:出版商的网站|谷歌学术搜索
a . m . Jimenez-Carvelo c·m·克鲁兹a·c·Olivieri a . Gonzalez-Casado和l . Cuadros-Rodriguez”橄榄油分类根据其品种使用LC-DAD基于二阶数据,”Talanta卷,195年,第76 - 69页,2019年。视图:出版商的网站|谷歌学术搜索
L.-F。吴,K.-F。毛,x et al .,“潜在的生物活性成分的筛选和分析茯苓等)。狼通过高效液相色谱和HPLC-MSn借助化学计量学,”分子,21卷,不。2,p。227年,2016年。视图:出版商的网站|谷歌学术搜索
L.-X。朱,j .徐R.-J。王et al .,“质量之间的相关性和地理起源的茯苓三萜酸定性指纹分析和定量测定,“分子,23卷,不。9,2200年,页2018。视图:出版商的网站|谷歌学术搜索
t .元,y赵,j . Zhang和y . Wang”应用程序的变量选择的起源歧视Wolfiporia可可(粮农组织的狼)Ryvarden和吉尔。基于近红外光谱,”科学报告,8卷,不。1,p。89年,2018。视图:出版商的网站|谷歌学术搜索
j . y . Li, t·李·h·刘,和y王,“一个全面和比较研究Wolfiporia extensa种植地区通过傅里叶变换红外光谱学和超快的液相色谱,”《公共科学图书馆•综合》,11卷,不。12篇文章ID e168998 2016。视图:出版商的网站|谷歌学术搜索
j . y . Li, h·金·h·刘,和y . Wang“紫外光谱结合超高速液相色谱和多元统计分析的质量评估野生wolfiporia extensa从不同的地理起源,”Spectrochimica学报:分子和生物分子光谱学卷,165年,第68 - 61页,2016年。视图:出版商的网站|谷歌学术搜索
Q.-Q。王,H.-Y。黄,Y.-Z。王,“地理认证macrohyporia可可通过数据融合方法结合超高速液相色谱法和傅里叶变换红外光谱学,”分子,24卷,不。7,1320年,页2019。视图:出版商的网站|谷歌学术搜索
y, y王”、分化和比较Wolfiporia可可原料基于多光谱信息融合和最优化方法,”科学报告,8卷,不。1,p。13043年,2018。视图:出版商的网站|谷歌学术搜索
e . Borras j .费雷r . Boque m .城区l . Acena和o . Busto”用于食品和饮料身份验证数据融合方法和质量评定——审查,”分析Chimica学报卷,891年,页1 - 14,2015。视图:出版商的网站|谷歌学术搜索
k . a . Obisesan a . m . Jimenez-Carvelo l . Cuadros-Rodriguez Ruisanchez,和m·p·卡亚俄“HPLC-UV和HPLC-CAD色谱数据融合认证棕榈油的地理起源,”Talanta卷,170年,第418 - 413页,2017年。视图:出版商的网站|谷歌学术搜索
r . Rios-Reina r . m . Callejon f . Savorani j . m .朋友和m . Cocchi“数据融合方法的光谱特征和分类PDO酒醋,“Talanta卷,198年,第572 - 560页,2019年。视图:出版商的网站|谷歌学术搜索
l .气y马、f·钟和c .沈”综合素质评估基于定量和定性的黄连代谢利用高效液相色谱法,傅里叶变换近红外和中红外傅里叶变换与多元统计分析相结合,“制药和生物医学分析杂志》上卷,161年,第443 - 436页,2018年。视图:出版商的网站|谷歌学术搜索
X.-M。吴,Z.-T。左,Q.-Z。张,Y.-Z。王,”巴黎物种的分类根据植物和地理起源基于光谱、色谱、传统的最优化分析和数据融合策略,”微量化学杂志卷,143年,第378 - 367页,2018年。视图:出版商的网站|谷歌学术搜索
问:小王,z左、h·黄和y . Wang”比较和定量分析的野生和栽培macrohyporia可可使用减毒总refection-fourier变换红外光谱结合超高速液相色谱,”Spectrochimica学报:分子和生物分子光谱学文章ID 117633卷,226年,2020年。视图:出版商的网站|谷歌学术搜索
g . Orlandi r . Calvini g .恰城对妇女实施l . Pigani g .瓦西西蒙和a . Ulrici“电子眼数据融合和电子舌信号监视葡萄成熟,”Talanta卷,195年,第189 - 181页,2019年。视图:出版商的网站|谷歌学术搜索
t . Skov f . van den Berg g .预和r .兄弟“色谱数据的自动对齐,”化学计量学杂志》,20卷,不。11 - 12,484 - 497年,2006页。视图:出版商的网站|谷歌学术搜索
洛杉矶德,“模糊算法”,信息和控制,12卷,不。2、94 - 102年,1968页。视图:出版商的网站|谷歌学术搜索
m . b . Kursa和w·r·Rudnicki”与boruta包特征选择,”杂志的统计软件,36卷,不。11日,1-13,2010页。视图:出版商的网站|谷歌学术搜索
美国荒原,k . Esbensen和p . Geladi“主成分分析”,化学计量学和智能实验室系统,卷2,不。1 - 3,37-52,1987页。视图:出版商的网站|谷歌学术搜索
l·斯塔尔和美国荒原”,偏最小二乘回归分析与交叉验证两种问题:蒙特卡罗的一项研究中,“化学计量学杂志》,1卷,不。3、185 - 196年,1987页。视图:出版商的网站|谷歌学术搜索
d . Ballabio诉Consonni,“化学分类工具。第1部分:线性模型。PLS-DA。”分析方法,5卷,不。16,3790年,页2013。视图:出版商的网站|谷歌学术搜索
美国荒原、e·约翰逊和m . Cocchi”请:偏最小二乘预测潜在的结构,”定量构效关系在药物设计3 d:理论、方法和应用,h . Kubinyi。页523 - 550,提供ESCOM科学出版社,莱顿,荷兰,1993年。视图:谷歌学术搜索
l . Breiman“随机森林”,机器学习,45卷,不。1,5-32,2001页。视图:出版商的网站|谷歌学术搜索
f·b·德·桑塔纳,s . j . Mazivila l . c . Gontijo w . b .否决权和r . j . Poppi”快速真实之间的歧视和掺假andiroba石油使用FTIR-HATR光谱学和随机森林,”食品分析方法,11卷,不。7,1927 - 1935年,2018页。视图:出版商的网站|谷歌学术搜索
r . w . Kennard和洛杉矶的石头,“计算机辅助设计的实验中,技术计量学,11卷,不。1,第148 - 137页,1969。视图:出版商的网站|谷歌学术搜索
y . Li J.-Y。张,Y.-Z。王”,FT-MIR和近红外光谱数据融合:协作的战略地理对三七可追溯性的,”分析和分析化学,卷410,不。1,第103 - 91页,2018。视图:出版商的网站|谷歌学术搜索
p·奥利维·g·唐尼,“多元的验证类建模food-authenticity声称,“TrAC分析化学的趋势,35卷,第86 - 74页,2012年。视图:出版商的网站|谷歌学术搜索
b角、默尔,m·费斯c . Fauhl-Hassek和j·雷德尔”一道辣椒粉掺假检测使用分类中红外光谱和看到下面成了——数据预处理,使得性能吗?”食品化学卷,257年,第119 - 112页,2018年。视图:出版商的网站|谷歌学术搜索
s . Roussel诉Bellon-Maurel,人类。罗杰,p . Grenier”验证白葡萄品种分类模型必须基于气味传感器,红外光谱和紫外光谱法,“《食品工程,60卷,不。4、407 - 419年,2003页。视图:出版商的网站|谷歌学术搜索

分析方法在化学杂志》上

传感器阵列对食品质量和安全