定量分析之间的弱相关复杂的数据主成分分析的基础上

文摘

两个数据之间的弱相关信息的挖掘高复杂性矩阵是一个非常具有挑战性的任务。一个名为主成分分析的新方法multiconfidence椭圆分析(PCA / MCEA)提出了在这项研究中,首次应用一个信心椭圆来描述之间的差异和相关性信息不同类别的对象/样本主成分分析的基础上操作的单一目标数据。这有助于找到对象的数量重叠和不重叠的区域中包含的椭圆从主成分分析。然后,定量评价指标之间的相关性矩阵定义的数据比较多个数据的主成分分析结果矩阵。数据矩阵之间的相似性和差异进一步量化,通过全面的分析结果。复杂数据的烟草农业作为一个例子来说明该方法的策略,包括丰富的气候特性、高度,烟叶的化学成分。这些数据对象的数量达到171516,14日,4日和5描述符的气候、海拔,分别和化学品。的基础上的新方法,复杂但弱关系这些独立和相关的变量是有趣的研究。三种广泛应用,但传统的方法是在这个工作申请的比较。结果表明新方法发现的力量之间的弱相关复杂的数据。

1。介绍

信息提取和挖掘数据的高复杂性增加在学术和工业部门的利益。快速开发和使用智能手机和传感设备和先进的科学仪器,如色谱,质谱,光谱分析及其耦合技术,理论计算和仿真,当然,生成的数据的难度已经很大程度上克服日期(1- - - - - -5]。因此,它具有强大的重视进一步发展强大的知识发现算法根据自己的特点,不同类型的数据。传统的策略并不总是我灵活丰富的信息隐藏在数据集。使用一个典型的烟草种植过程的数据作为一个例子,烟叶的质量,如化学成分、物理性质,如消费体验,难免受生态条件下,土壤,烟草种植和生产流程。当然,基因和突变的烟草也结果的潜在因素(6- - - - - -8]。然而,巨大的挑战可能遇到而试图发现独立变量的影响因素对依赖指数/指标。原因是有许多不同的数据类型或来源,和未知的各种变量之间的关系非常复杂,不容易被发现。这将导致的困难的基础上合理的解释传统的单变量或多变量分析方法9,10]。

传统上,应用定量建模的过程如下。首先,单变量统计分析每个特性在一个单一的数据执行,和假设检验在不同类型的样本用于获得一个特性的统计结果。这有助于进一步查找和删除对象的离群值的维度和变量(11]。接下来,探索性数据分析方法,如主成分分析(PCA)用于矿山数据矩阵之间的关系,但最主要的一个问题是很难提供定量结果进行评估。这个主要是生成一个模型泛化能力较低和穷人的结论,尤其是弱相关的矩阵(12- - - - - -14]。此外,分类或回归分析方法可以应用于构建一个多元模型定性或定量分析,如果需要的话。这种分析可以帮助相关独立和相关的变量之间的关系(15- - - - - -18]。当然,其他类型丰富的方法,如布尔关联规则、决策树、推荐算法,和深度学习,也可以用来实现目标(19- - - - - -22]。此外,典型相关分析试图找到全面的数据之间的相关性对和反映它们之间的整体相关性。也就是说,它发现数据之间的相关性矩阵作为一个整体和提取使用正则变量代表的数据信息。但是,它仍然不能关联数据较低的内部连接(23,24]。

许多研究人员报道了研究关联多个数据集之间的关系。PCA应该是其中一个最高的用于不同领域的担忧,这也被广泛开发的理论和应用,包括稀疏主成分分析所产生的弹性网络(套索),概率统计方法的基础上,一个相关的似然函数,以及健全的PCA处理数据和异常值(25- - - - - -28]。因为它有助于金融决策者应对信贷分类问题,信贷分类模型很大程度上是近年来应用。唐等人是受生物神经树突的非线性模型,提出了一个修剪神经网络,并应用于解决分类问题。结果表明,这是优于其他经典算法的精度和计算效率29日]。使用重金属吸附的处理为例,利亚等人提出了一个非线性自回归网络与外源输入(NARX)并与多元回归分析(高)。发现的预测能力NARX方法优于高钙方法使用哑变量,可以成功地实现实验数据上的吸附过程的评价(30.]。典型相关分析(CCA)可以用来研究两个数据集之间的关系,这是一个经典关联多元数据统计工具。CCA Jendoubi等人提出了一个概率模型的形式一个两层的潜变量模型和用于基因表达数据的综合分析,脂质浓度,甲基化水平组学数据集。它提供了一种新的战略统一球状化处理过程,多元回归,和相应的概率模型31日]。此外,深度学习已被广泛应用于许多领域进行大数据分析。Litjens等人介绍了其应用在图像分类、目标检测、分割、和注册的分析神经、视网膜、肺、数字病理,乳腺癌、心脏、腹部、等等(32]。

在这项工作中,新方法称为PCA / MCEA (PCA-based multiconfidence椭圆分析)开发相关分析,基于PCA之间发现弱信息数据集。它首先利用PCA降维后的数据质量改进。然后信心椭圆分析定量分析不同类别的样本之间的相似性和差异。接下来,介绍相关定义的量化指数样本的样本/对象分布在每个样本的个体椭圆类,以及结果的重叠区椭圆。最后,独立变量和因变量之间的关系综合分析后获得了这些发现不同样本之间的性能。研究结果表明,PCA / MCEA方法可以作为有效的工具来我与高复杂多维数据之间的关联信息。示例数据的烟草农业应用交付策略,其中包括种植气候和海拔,和相应的化学成分的浓度。可视化分析的结果进一步解释研究结果,显示丰富的种植烟草的生产特点和关系收集到不同的地点/区域。三种传统方法被用于比较。策略和过程的PCA / MCEA方法可广泛用于其他类型的数据集的分析。

2。理论

2.1。主成分分析

PCA已广泛用于数据处理,有权减少大小的数据投影到低维空间的原始数据包含的大部分原始方差和忽略的一部分特性与小方差(12,27]。PCA方法可用于数据压缩和提取和消除干扰因素。

奇异值分解)是一个战略实现PCA分析获得正交主成分(pc)以下方程[所示的结果27]: 在哪里一个表示原始数据的大小分解和三个矩阵 , ,和表示分数、奇异值和载荷大小的 , ,和 ,分别。

2.2。多维信心椭圆

如上所述,这三个矩阵 , ,和获得PCA手术后,分别代表左和右奇异向量和奇异值的原始数据一个。通过分析这些矩阵、关联和区别对象/样品一个可以被发现。这些对象之间的显著差异或特征一个可以实现在置信区间分析的帮助下(33]。使用二维数据作为一个例子,比分情节与前两个或三个电脑可以构造基于矩阵 ,例如,此外,信心椭圆椭圆95%情节,可以获得显示样品内部的分布或椭圆形的或包含在两个椭圆的重叠区。然后,多个信心椭圆可以应用于不同类型的样本我深深分布的相关性,进一步发现样品和相关的特点,这些样本之间的差异。通常,信心分析利用最小的椭圆,椭圆覆盖95%的数据点(对象/样品)的分数阴谋一定阶级的样本。椭圆有两个重要的参数,即椭圆的面积和主轴相对于的倾向x设在或y设在情节代表变化的方向的椭圆。可以计算椭圆假设对象的近似高斯分布协调围绕其平均值。

2.3。PCA / MCEA方法

本文定量方法评估的相关性两个矩阵的基础上提出了PCA的操作,因此,它最初命名为多维信心椭圆分析(PCA / MCEA)。PCA / MCEA方法的流程图如图1。

首先,原始数据根据实际情况分为多个矩阵的数据信息,包括在引言部分的矩阵。这一步是应用获得的多个数据处理和相关评估。独立之后,PCA方法来减少执行每个数据的维数。之后,确定类的样本可以获得利用先验知识。接下来,多维信心椭圆分析可用于分析每个类别的样本之间的独立变量和因变量的相似性。潜在的独立变量和因变量之间的相关性,即不同的矩阵进行分析,综合分析的基础上可以实现这些结果。

2.3.1。的原始数据有超过一个数据矩阵

的来源和类型的不同指标的原始数据,它分为几个矩阵进行相关性分析。使用数据的大小例如,原始数据可以表示如下:

这三个矩阵 , ,和 ,分别代表数据和独立变量,因变量,样本描述信息。三个矩阵的大小米₁,米₂,米₃。独立变量和因变量的数据X和Y可以进一步细分,如方程所示3)和(4)。在哪里 , ( , ), ,和 ( , )。这些处理步骤之后,两个矩阵的独立变量和因变量可以获得的数学分析。

2.3.2。利用PCA降维分析

如上介绍,PCA操作可用于分析两个数据集的自变量和因变量,和电脑最大的方差可以提取,去除干扰信息。

假设要分析的数据 ,的子矩阵 ( )与最大方差分解和潜变量选择进行后续分析。在哪里代表的结果利用主成分分析和代表了最小数量的电脑,累积方差贡献超过一个预定义的阈值。也就是说,第一个的累积方差贡献个人电脑的 ( )大于阈值 ,和 ,第一次的累积方差贡献电脑,小于阈值。

最后,第一个潜变量经过PCA分析提取构造一个新的潜变量数据集 ( ),的矩阵包括第一列。

2.3.3。PCA分析,每个类的样本

根据样本描述信息 ,d类的样本可以分为分析。类似地,每个数据矩阵可分为 ( )的数量分类。然后,总共一个数据矩阵的数据矩阵进行了分析独立和依赖的变量和记录。一组 ( )是分类结果。

2.3.4。分析多维信心95椭圆

基于主成分分析操作的结果,每个数据矩阵的多维信心椭圆( , )将生成多维椭圆。它是表示 ,在这 ( )代表了相对应的多维椭圆数量的样本分类,如图2。

为椭圆的椭圆多维信心( , )相应的数据的分类 ,它可以分为两个空间,也就是说,里面的空间。通过统计分析样本的分类 , ( ,和 ),许多不同类型的样本中存在的信心椭圆和分别描述的分类信息 ,样本分类和 ,和相对应的样品内部聚合度的量化评估样本的相似性和差异和。

提供了定量指数评价如下: 在哪里表明样本分类的样本数量表明样品的数量同时存在的样本分类和 ,相对应的多维重叠区域椭圆的信心。表示类样本之间的相似性和的分类。特别是,它表明样本分类的聚合度指数的分类 ,如果。

通过使用上面介绍的多维信心椭圆分析方法,样本的多个类之间的相似与差异可以定量评价,这有助于发现样本分类的特点,如在这里。

2.3.5。整合多个数据之间的相关分析矩阵

PCA / MCEA方法定量分析每个样本分类的结果( ),聚合度的不同类型的样品,和类之间的相似特征。这有助于确定多个数据矩阵之间的关系。的置信椭圆分析不同类别的样本的数量之间的相关系数,然后样本包含在每个类的椭圆,数据之间的相关性被发现通过分析不同组的样本的数量。尤其有帮助我的弱相关,例如,尽管分类或回归关系并不重要。

该方法与传统的策略直接独立变量的相关性分析 )和因变量( ),旨在找到简单的关系。这可能是不适合数据矩阵与一个弱关系。PCA / MCEA方法完全避免遇到的困难和挑战在构建多元分类或回归模型,但构造一个信心椭圆分析PCA分析后的关系。样品中包含的重叠和不重叠的样本有效椭圆表示相关性不同类别的样本之间的相似性和差异。在这之后,多个矩阵之间的关系可以通过单独分析发现的贡献不同的自变量对因变量的影响。

2.4。传统的方法

在这项研究中,逐步回归分析,请回归分析,SVR回归分析方法用于该方法的比较。

2.4.1。逐步回归分析

逐步回归分析的过程中,一个独立的变量介绍了每次运行,回归系数必须测试的吗测试。它是记录为 ,分别和假设。介绍了独立变量回归模型,如果大于临界价值 ,对应于给定的显著性水平。否则,它将被排除在外的模式34]。

逐步回归方法实现“最佳”独立变量的筛选逐渐引入变量的平方和,进一步计算了部分回归分析。它避免了多重共线性的问题发生在使用完整的独立变量分析。

2.4.2。偏最小二乘回归分析

请回归分析,独立和相关的变量预计到一个新的空间来生成一个新空间(线性回归关系35]。请回归分析方法避免了结构不确定性和非正态的分布问题,提取的最大信息反映数据的变化。

2.4.3。支持向量回归分析

支持向量回归(SVR)分析使用最优模型公式所示(7),这有助于找到与“最短的距离”的超平面从最远的样本到超平面(36]。

SVR回归分析是结构风险最小化的基础上,引入了一个 - - - - - -不敏感损失函数。特别是,它具有较强的泛化能力降低要求平衡数据抽样的样本。

3所示。介绍和分析数据

在本文中,一个示例数据的烟草农业用来交付策略提出了这项工作。目的是研究生态环境的影响,包括气候和海拔高度,对烟叶的质量,最初是来自云南省最大的烟草种植地区之一在中国。表中给出了数据集的详细信息1。在这张桌子,气候和海拔指标和化学成分介绍了烟草的质量评价。它完全包括14 4和5个指标的三个独立和相关的变量。样品的总数达到171516。


不。	数据	的名字	描述

1	X1	气候	14气候因素包括阳光小时、温度、海拔、降水、等等
2	X2	高度	4高度因素包括最小高度,最大高度,平均高度,主要的高度等等
3	Y1	化学物质	5化学指标包括总糖、还原糖、烟碱、钾和氯
4	D	描述	7描述信息包括县、市,村委会,地形、土壤类型和种植周期

注意:原始数据的对象的数目是171516。

前处理,提高了数据质量通过使用以下步骤,包括填补缺失值,删除离群值,和数据归一化:删除缺失值:样品用缺失值的气候、海拔和/或化学物质的烟草在下一步之前就被淘汰了。删除离群值:箱线图的策略应用于消除异常值的样本。数据归一化:z分数方法用于数据规范化。也就是说,意思是( )和方差( )每个变量的和标准化的按照下列公式计算: 。

这些步骤后,共有168643个样本数据最终生成的分析。

4所示。结果与讨论

4.1。工作流的PCA / MCEA方法

使用PCA / MCEA方法分析,总共有168643个样本预处理正如上面介绍的,然后,他们分为35类样本的基础上的地理位置属性35“县和市(区)”的样本。的PCA / MCEA方法引入了图1预处理的数据进行分析处理。

的具体参数和处理因素PCA / MCEA方法描述如下:(1)原始数据和减少划分为独立变量包括气候( ),高度( ),烟草和因变量,包括5个指标( )(2)对于PCA分析,累计方差阈值被定义为三个数据矩阵 , ,和在降维(3)样本的描述信息,包括“县和市/区”指数,168643年实际样本分为35类椭圆分析后续的信心(4)最后综合分析相关性的基础上获得这些结果和发现,在介绍了自变量对因变量的影响。

实验数据的数据结构如图3和主成分分析的过程/ MCEA分析如图4。

4.2。PCA / MCEA方法的结果

三个数据集的气候( ),高度( ),和烟叶化学成分( )分析了PCA的操作。基于累积方差阈值,选择最大方差的新变量进行分析。如图5,结果使用PCA / MCEA方法,即通过全面分析每个数据的帮助下椭圆PCA和信心。主成分分析的结果充分显示分布的样本来自不同的地理位置。在数据5(一个)- - - - - -5 (c),每个情节都对应于三个不同的部分,在这中间的主要结果图得到的主成分分析分析,和两个不同颜色的点对应的样本目标类别和目标类以外的所有草人。解释了每个类的公共信息重叠区域的二维椭圆信心,如上所述。结果显示在顶部和正确的子图的基础上,每个类的对象的结果,从不同类别/地理区域中提取。样本的分布密度是由第一个PC和第二个电脑,分别。显然,不同类别的样本的结果可以确定和区分开来的两条曲线的分布密度。如果两个类别的样本区分,重叠区域将较小的密度分布的曲线,和反之亦然。如果同一类别的样本的样本更集中,曲线会更小的值标准偏差(SD)。即曲线的SD是小,反之亦然。数据的结果5(一个)- - - - - -5 (c)对应于气候的分析结果,高度,和化学成分,分别。

(一)

(b)

(c)

图5

使用GCQ的样本为例,二维椭圆信心的结果分析气候、海拔,烟叶化学成分生成的。(a)、(b) (c)信心二维椭圆分析的结果通过使用数据的气候,高度,和烟叶化学成分。三块,红色椭圆是由使用的样本GCQ,蓝色是由使用所有样品的其他地方。每个绿色数据在GCQ红色椭圆代表一个样本,和红点表示样品的其他领域。相应地,GCQ的样品不包括在这个椭圆所示红色,和其他地区的样本蓝色所示。

特定类的样本,即GuChengQu(古老的城市地区和缩写GCQ),作为一个例子来说明应用的过程数据和弱相关的定量分析使用PCA / MCEA方法。正如上面提到的,数字5(一个)- - - - - -5 (c)是GCQ的样本和所有其他县市除了GCQ和二维椭圆分布PCA手术后的信心。结果在图5表明,GCQ样品有一些独特的特点在气候方面,高度,和烟叶化学成分。

(中给出的公式的基础上2)- (5),二维椭圆信心的结果分析得到的样本35位置,分别对应于气候的数据矩阵,高度,和化学成分,和信心椭圆分析,分别实现。样品的数量分布在这些椭圆的进一步分析,结果如图所示6。在数据6(一)- - - - - -6 (c),对角三个热点图中的值更大,当然,这表明气候的样本,高度,和化学成分有更高的自相关35地点/类。然而,价值可能达不到1,因为类的样本并不完全包括内部类。从整体来看三个地图,样本的总体评价位于35区应该非常相似,但有可能存在一个很大的区别在某些地区气候和样品的化学成分。在图6(一)GCQ有更高的数据相关性,Linxiang区(LXQ),禄劝县(LQX)、沾益区(ZYD),玉溪市红塔区(HTQ),和宁蒗县(NLX)中定义的指数方程的相关系数(6)达到0.96,0.95,0.91,0.89,和0.85,分别。这些值代表的比例的重叠区域中的所有GCQ样本信心椭圆分析GCQ和其他地区气候数据的主成分分析结果。也就是说,它间接代表的共同特征的样本GCQ和其他地区的样本。共享样本的比例越高,包含的信息之间的不同位置的样本。同样,GCQ相关性最高的结果与沾益的地区(ZYD),麒麟区(昆士兰),江川县(JCX),泸西县(起立)和Linxiang区(LXD)在图6 (b)中定义的指数的相关系数方程(6)达到1.0,1.0,0.99,0.99,和0.98,分别。结果表达的相关性使用数据样本在不同地理区域的高度。在图6 (c),样品GCQ有更高的相关性与云龙县(YLX),弥勒县(MLX),华宁县(HNX) Shidian县(有关),和江川县(JCX)中定义的指数方程的相关系数(6)达到1.0,0.96,0.88,0.87,和0.76,分别。另一方面,也可以分析uncorrelation GCQ和其他地区,以及其他地理区域的分析,如图6(一)- - - - - -6 (c)。

(一)

(b)

(c)

此外,我们进行一个综合分析三个数据之间的相关性的基础上,在数据定义的相关系数6(一)- - - - - -6 (c)的PCA / MCEA方法的策略。每两个数据之间的关联一个特定的位置,例如,GCQ的数据,可以计算出,然后用于分析的定量影响气候和海拔对烟叶的化学成分。数据对气候和化学品,最小值,平均值,和最大相关系数是−0.2796,0.0320,和0.3334,分别。数据的高度和化学物质,这三个相关系数是−0.2610,分别为0.0759和0.3593。数据对气候和海拔,这三个相关系数的值−0.1718,0.1612,和0.4717,分别。使用的结果GCQ为例,上述三个相关系数是0.33073,0.07855和0.26514。GCQ结果表明气候的变化更为显著的影响烟叶质量,而高度的因素。当然,这是特别重要的注意到,有一个潜在的非线性关系气候和海拔对烟叶的质量。不同地区的特点有很大的不同。此外,还有太多其他因素可能影响烟叶的质量。 The extent of a specific factor may be not completely the same to tobacco quality. The advantage of the PCA/MCEA method is that it attempts to quantitatively analyze the relationship between the influencing factors of the two groups of dependent variables and the independent variables from a perspective of a single group of sample. This has certain advantages and application prospects in contrast to the conventional methods.

在下一步中,我们进一步采用雷达图表分析来直观地分析椭圆多维信心的结果,这有助于直观地显示气候数据的差异,高度,和化学烟叶的位置。同样,使用的样本分类GCQ作为一个例子,该雷达图表是用来比较的样本之间的差异GCQ和所有其他地方的气候、海拔、和化学物质,如图7。结果介绍了图的细节说明。这些结果也例证了PCA的能力/ MCEA方法将PCA的勘探结果转换成定量表达式不同类别的样本之间的相关性,并进一步分析了量化相关性不同的自变量对因变量的影响因素。

(一)

(b)

(c)

4.3。结果传统方法

如上介绍,PCA / MCEA方法被用来解释的影响气候和海拔对烟叶的化学成分。在本节中,三个传统的回归方法试图用于构建更准确和可靠的模型相同的数据。(厕所)的帮助下分析方法验证,逐步回归,请回归,和SVR分析可能被用来构造一个定量模型准确预测的化学物质,这是通过使用模型之间的气候、海拔、或其他独立变量和已知的烟叶的化学指标。在这里,气候和海拔的影响元素的内容说明了烟叶的钾(钾)给出的结果在图8。模型的气候、海拔和K的内容是由三种方法构造的平方,0.1336,0.1386,和0.1431,分别。显然,这样的模型的性能不够好定性发现数据之间的相关性,因此,预测模型泛化能力较差。也就是说,这几乎是无知的回归建模的结果。模型内容的总糖、还原糖、尼古丁、和建立了烟叶的氯平方小于0.1。这些结果充分说明回归方法的局限性被用于有效的独立和相关的变量之间的关系发现,诸如气候和海拔,烟叶的化学物质。建模的性能进一步显示了传统建模方法预测的难度和弱相关的数据,如气候和海拔和烟叶的化学成分。高挑战找到定量相关性利用回归分析,而潜在的影响因素对独立变量与有限的先验知识太复杂。

(一)

(b)

(c)

在这部作品中,PCA / MCEA方法构造了基于分工和原始数据的预处理和PCA首先表现在不同的数据降维得到样本分类。然后,样本之间的关系由使用多维信心椭圆分析通过寻找不同类别的样本内外存在的这些椭圆。样本的比较分析不同群体之间可以实现定量分析的差异和相似性独立和相关的变量。这在很大程度上有助于有效地探索隐藏信息数据集之间的弱相关。的困境为定量建模是克服传统方法处理数据和弱相关,新的预测能力低。

5。结论

PCA / MCEA方法提出了工作旨在发现复杂的数据之间的弱相关的帮助下一个多维信心椭圆PCA操作的结果。样本之间的共同特点和差异具有不同类型的样本数量的样本中存在重叠或椭圆的不重叠的领域,数学的特点,包含一个或多个类的样本。独立和依赖的变量之间的定量关系是全面评估通过单独分析数据对信息发现之间的关系。数据包含171516个烟叶处理为例,对该方法的实施战略。相比传统的分类和回归分析方法,获得的结果从PCA / MCEA更有助于产生丰富和翔实的结论。它还可以广泛用于更多类型的复杂数据集较低但潜在的相关性。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者李道彭日成和勇是受雇于中国烟草总公司/ YB,海涛张,小君,Bing周,Qianxu杨和王Jiajun受雇于CTYI / CT,分别。所有这些作者状态,他们合作的科学研究,没有利益冲突的结果的工作。

作者的贡献

道彭日成和海涛张了同样的工作。

确认

这项研究受到了基础(20185300002410027和20185300002410027号)从中国国家烟草公司云南分公司,和基金会(2019 xx03)从中国云南烟草工业有限公司有限公司提供的资金是在科学研究中,在总体战略是开发复杂的数据处理工作。

引用

h·e·布雷迪,”大数据和数据科学的挑战。”政治科学的年度审查,22卷,不。1,第323 - 297页,2019。视图:出版商的网站|谷歌学术搜索
k·布朗森和Knezevic,“在食品和农业、大数据”大数据与社会,3卷,不。1,2016。视图:出版商的网站|谷歌学术搜索
A . Kamilaris A Kartakoullis, f . x Prenafeta-Boldu”审查在农业、大数据分析的实践”计算机和电子产品在农业卷。143年,23-37,2017页。视图:出版商的网站|谷歌学术搜索
l . n . Sanchez-Pinto罗y、m . m . Churpek”大数据和数据科学关键护理”,胸部,卷154,不。5,1239 - 1248年,2018页。视图:出版商的网站|谷歌学术搜索
郑x h . t . Wang Ke, a . k . Sangaiah k . Wang和a .刘”大数据基于移动边缘计算工业sensor-cloud清洁,”IEEE工业信息,16卷,不。2、1321 - 1329年,2019页。视图:出版商的网站|谷歌学术搜索
j . m . Reichert a佩莱格里尼,m·f·罗德里格斯“烟草生长、产量和品质影响坡地土壤限制,”工业作物和产品卷,128年,第526 - 512页,2019年。视图:出版商的网站|谷歌学术搜索
t . Susanto和n . Widayati”老年种植烟草的农民们的生活质量的角度来看农业护理:定性研究中,“与年长的人,22卷,不。3、166 - 177年,2018页。视图:出版商的网站|谷歌学术搜索
t·夏z, z . Chen等人“化学的烟叶质量的稳定性分析云南省红河州,”e3的网络会议,卷131,不。6、2019。视图:谷歌学术搜索
y港、m . Zhang和w·米克,”大数据和可靠性应用程序:复杂性维度,“《质量技术,50卷,不。2、135 - 149年,2018页。视图:出版商的网站|谷歌学术搜索
j . Maillo T.F. Herrera,“大数据的冗余和复杂性度量分类:对智能数据,”IEEE访问,8卷,第87928 - 87918页,2020年。视图:谷歌学术搜索
s . k .夸克和j·h·金,”统计数据准备:管理缺失值和异常值,“韩国麻醉学杂志,卷70,不。4、407 - 411年,2017页。视图:出版商的网站|谷歌学术搜索
Jolliffe i t . j . Cadima,“主成分分析:一个回顾和最近的进展,”英国皇家学会哲学学报A:数学,物理和工程科学,卷374,不。2065年,文章ID 20150202, 2016。视图:出版商的网站|谷歌学术搜索
美国刘、马x和z侯,“异常弱相关检测数据网络通信特征分析的基础上,“互联网技术杂志》,19卷,不。7,2079 - 2087年,2018页。视图:谷歌学术搜索
f·胡森,s和j .页面,“使用R探索性多元分析的例子,”杂志的统计软件,40卷,CRC出版社,2011年。视图:谷歌学术搜索
r·f·Gunst和r·l·曼森回归分析及其应用:一个面向数据的方法劳特利奇,阿宾顿,英国,2018年。
p·b·t·马瑟遥感数据分类方法美国佛罗里达州波卡拉顿,CRC新闻,2016年。
m . m . sarita”安和朴素贝叶斯分类算法的性能分析进行数据分类,“国际智能系统和应用程序在工程杂志》上,7卷,不。2、88 - 91年,2019页。视图:出版商的网站|谷歌学术搜索
m·d·沃德和k . s . Gleditsch空间回归模型卷。155年,圣人出版物,千橡市,美国,2018年。
l . Breiman j·弗里德曼,c . j .石头和r . a . Olshen分类和回归树美国佛罗里达州波卡拉顿,CRC新闻,1984年。
b . Choubin e . Moradi m . Golshan j . Adamowski f . Sajedi-Hosseini和a . Mosavi”一个洪水预测敏感性使用多元判别分析、分类和回归树,和支持向量机,”科学的环境卷,651年,第2096 - 2087页,2019年。视图:出版商的网站|谷歌学术搜索
考维尔,即格拉汉姆·古德费勒和y文学士学位深度学习英国剑桥,麻省理工学院出版社,2016年。
y LeCun (y Bengio g·辛顿,“深度学习”,自然,卷521,不。7553年,第444 - 436页,2015年。视图:出版商的网站|谷歌学术搜索
j·g·安德鲁·r·Arora Bilmes, k . Livescu“深典型相关分析,”学报》国际会议上机器学习2013年6月,亚特兰大,乔治亚州,美国。视图:谷歌学术搜索
a . l . Van Den Wollenberg”冗余分析另一种典型相关分析”,心理测量学,42卷,不。2、207 - 219年,1977页。视图:出版商的网站|谷歌学术搜索
e . j .萤石x, y,和j·赖特,“稳健主成分分析?”ACM的杂志,卷。58岁的没有。3,1-37,2011页。视图:出版商的网站|谷歌学术搜索
小费和c . m .主教“概率主成分分析”,英国皇家统计学会杂志》:系列B(统计方法),卷61,不。3、611 - 622年,1999页。视图:出版商的网站|谷歌学术搜索
山地和k密纹唱片Geladi”,主成分分析”,化学计量学和智能实验室系统,卷2,不。1 - 3,37-52,1987页。视图:出版商的网站|谷歌学术搜索
h .邹、t . Hastie和r . Tibshirani稀疏主成分分析,“计算和图形统计杂志》上,15卷,不。2、265 - 286年,2006页。视图:出版商的网站|谷歌学术搜索
j . y . Tang,美国高,h·戴,y, y . Todo,”一个修剪信贷分类分析,神经网络模型”计算智能和神经科学卷,2018篇文章ID 9390410, 22页,2018年。视图:出版商的网站|谷歌学术搜索
d·托利h . Xiyili s Elevli e . Kılıc和s Cetintaş“多重回归分析比较使用虚拟变量和NARX网络模型:一个重金属吸附过程的一个例子,“水和环境》杂志上,32卷,不。2、186 - 196年,2018页。视图:出版商的网站|谷歌学术搜索
t . Jendoubi和k . Strimmer美白的方法为组学数据集成概率典型相关分析,“BMC生物信息学,20卷,不。1、15 -,2019页。视图:出版商的网站|谷歌学术搜索
g . Litjens t . Kooi b . e . Bejnordi et al .,”一个调查深度学习在医学图像分析中,“医学图像分析,42卷,60 - 88、2017页。视图:出版商的网站|谷歌学术搜索
f·胡森,s和j .页面,“信心椭圆的感官概要文件通过主成分分析,“食品质量和偏好,16卷,不。3、245 - 250年,2005页。视图:出版商的网站|谷歌学术搜索
b·汤普森,“逐步回归和逐步判别分析需要在这里不适用:指南编辑,“教育和心理测量,55卷,不。4、525 - 534年,2016页。视图:出版商的网站|谷歌学术搜索
h . Abdi和l . WilliamsJ。威廉姆斯,“偏最小二乘方法:偏最小二乘法相关和偏最小二乘回归,”分子生物学方法卷,930年,第579 - 549页,2013年。视图:出版商的网站|谷歌学术搜索
A . j . Smola和b . Scholkopf教程支持向量回归。”统计和计算,14卷,不。3、199 - 222年,2004页。视图:出版商的网站|谷歌学术搜索

分析方法在化学杂志》上

文摘

1。介绍

2。理论

2.1。主成分分析

2.2。多维信心椭圆

2.3。PCA / MCEA方法

2.3.1。的原始数据有超过一个数据矩阵

2.3.2。利用PCA降维分析

2.3.3。PCA分析,每个类的样本

2.3.4。分析多维信心95椭圆

2.3.5。整合多个数据之间的相关分析矩阵

2.4。传统的方法

2.4.1。逐步回归分析

2.4.2。偏最小二乘回归分析

2.4.3。支持向量回归分析

3所示。介绍和分析数据

4所示。结果与讨论

4.1。工作流的PCA / MCEA方法

4.2。PCA / MCEA方法的结果

4.3。结果传统方法

5。结论

数据可用性

的利益冲突

作者的贡献

确认

引用

版权

更多相关文章

相关文章