高性能机器学习的大规模数据分类考虑类不平衡

摘要

目前，数据分类是分析数据最重要的方法之一。然而，随着数据采集、传输和存储技术的发展，数据的规模急剧增加。此外，由于数据集中存在多个类和数据分布不平衡，类不平衡问题也逐渐突出。传统的机器学习算法缺乏处理上述问题的能力，这可能会严重影响分类的效率和精度。因此，本文提出了一种改进的人工神经网络来实现对不平衡大容量数据的高性能分类。首先,Borderline-SMOTE(合成少数过采样技术)算法是用来平衡训练数据集,可能旨在提高培训的反向传播神经网络(摘要),然后,零均值,batch-normalization,纠正线性单元(ReLU)进一步用来优化输入层和隐层的摘要。最后，利用Hadoop框架实现了改进后的基于集成学习的BPNN并行化。根据实验结果可以总结出肯定的结论。利用Borderline-SMOTE算法对不平衡训练数据集进行了平衡，提高了训练性能和分类精度。对输入层和隐含层的改进也提高了训练的收敛性。 The parallelization and the ensemble learning techniques enable BPNN to implement the high-performance large-scale data classification. The experimental results show the effectiveness of the presented classification algorithm.

1.介绍

分类是使数字数据的分析中相当多的学术和研究领域的最有效的方法之一，例如，医学研究[1- - - - - -6]和电力系统的研究[7- - - - - -12]。精确和有效的分类算法可应用于图像处理、模式识别和模式匹配等多个领域[1- - - - - -6]。李等人[13]利用卷积神经网络(CNN)实现了医学图像分类。他们的分类策略可以自动有效地学习肺间质性疾病的图形特征。因此，该策略能够提供准确、高效的分类性能。Jiao等人[14]也使用并改进了CNN对心理负荷数据进行分类。实验结果表明了该分类算法的有效性。杨和沈[15]回顾了电力系统的负荷分类研究。文章指出，分类研究的复杂负载的行为，显著影响了电力生产和消费的有效途径。为了实现自然语言处理（NLP），张某等人。[16]采用深度学习作为底层方法来执行文本分类。他们的工作能够成功地识别文本的语义标签。

近年来，一些分类算法的研究已经提出，这主要是基于k均值[17]，模糊c-means (FCM) [18，神经网络(NNs) [19]，支持向量机(SVM) [20.等等。例如，Peng等人[7]使用了大量的聚类算法，包括k-means、k-medoid、自组织映射(SOM) [21]，以及FCM承认所述电负载的数据的模式。徐等人。[8]利用冠层算法改进和优化k-means算法。结果表明，该算法的聚类精度和聚类效率均有显著提高。Niazmardi等人[22]提出了一种改进的FCM算法，该算法可以对高光谱数据进行精确的聚类。然而，相当多的研究[23- - - - - -25指出上述无监督机器学习算法存在异常值敏感性、非线性可分离类难以聚类、基于经验值的参数等缺陷，使其无法得到有效使用。因此，监督机器学习算法，如神经网络，在分类研究中得到了广泛的应用[26]。Gu等人[27优化了传统bp神经网络的学习率和惯性因子。改进的自适应BPNN算法在数据建模方面表现出良好的性能。李等人[9]组合BPNN和FCM来实现电负荷预测。作者报告说，负荷预测精度可以提高显著。根据研究的结论[10,11,23- - - - - -25]，BP神经网络已经被证明是非常适合的分类任务。虽然BPNN具有许多优点，它仍然有缺陷，例如，在其训练慢收敛问题所造成的初始权重，学习率的灵敏度，梯度爆炸，和梯度消失的灵敏度。然而，一些研究[28- - - - - -33建议批处理正常化[28]及ReLU [34]有很大的潜力来解决这些问题。

此外，目前的数字数据收集得益于智能电表、数据通信系统和数据存储技术的发展，这导致了数据规模和数据维的急剧增加。唐等人[35]指出，要解决这个问题，机器学习算法需要专注于降维和样本选择技术来提高算法的效率。Farrell等。[36]也证明了他们的最大熵原理的改进，随机森林和支持向量机可以实现满意的性能用于处理高维数据。徐等人。[37]声称数据标签和训练效率是用于大规模数据分类两个主要挑战。因此，他们提出了一个k均值和SVM为基础的战略，以实现大规模数据分类。他们的实验结果表明，基于自己的战略，训练数据集的大小可以在保持分类精度降低。刘等人。[23]进一步指出BPNN在对大尺度、高维数据进行分类时效率极低。研究还表明，分布式计算是解决这一低效率问题的合适方法。Su等人[12]使用Hadoop框架[38]实现了BP神经网络的效率提高。作者报告说，他们的解决方案实现了对数据的预测精度满意。刘等人。[25]也提出了一个基于火花分布式BPNN算法[39]其示出了用于大规模数据分类显着的效率。然而，刘等人。[23]指出基于算法解耦的BPNN并行化可能会产生大量的迭代，从而降低处理效率。基于数据分离的并行化可能会降低最终的分类精度。因此，研究一种高效、准确的并行化BPNN是一项有价值的工作。

还需要注意的是，由于多类且数据分布不均匀，出现了类不平衡问题[40]经常存在于训练数据。该问题可能显著影响训练效果，从而进一步影响最终的分类精度。Zhang等[41]报道，CNN深的图像识别能力不平衡的训练数据的情况下下降。因此，作者提出的方法是比较CNN的类中心之间的距离识别查询图像的整个训练数据集和查询图像的相应CNN功能特点的分类方法。李等人[42]还指出，虽然CNN提供非常高的性能，但它仍然存在阶级不平衡的问题。通过增加一个额外的类不平衡意识正则化，作者提出了一个新的损失函数，使CNN对少数类的样本更加敏感。Zhang等[43[[endnoteref: 3]]还认为，不平衡的阶级问题导致深度信念网络(DBN)的严重误分类。为了解决这一问题，作者对类间的误分类代价进行了不均衡处理，并将其应用于DBN中以达到精确分类的目的。尽管上述研究的努力能够解决班级失衡问题，Han等[40]建议采样技术应该是重建样品少数类和进一步解决了类不平衡问题有效的的有效途径。

因此，本文提出了一种基于bpnnn的考虑类不平衡的高性能大规模数据分类方法。本文首先对边界问题进行了改进[40使用Frechet距离的算法[44]来解决训练数据中可能存在的类不平衡问题。其次，为了解决BPNN在训练阶段收敛缓慢的问题，45]，分批归一化，和RELU被用来改善输入层，隐蔽层和激活功能。第三，本文还提出了改进的BP神经网络基于MapReduce的并行化方法。基于所述数据分离和集成学习技术，改进BPNN的并行化可以被实现。

本文的其余部分安排如下：第二部分2提供BPNN改进方法的详细资料;部分3.给出了实验结果;部分4总结了纸。

2.基于类平衡的改进BPNN实现大规模分类

本节首先介绍了基于弗雷切特距离的边界算法，该算法能够解决训练数据集中的类不平衡问题，然后详细介绍了利用零均值、批处理归一化和ReLU对BPNN的改进。最后，本节介绍了使用Hadoop框架对改进后的BPNN进行基于集成学习的并行化。

2.1。Fréchet可距离和临界-SMOTE基于类的平衡

类不平衡问题会严重影响神经网络的训练，最终导致误分类。Borderline-SMOTE [40]被证明是一种有效的解决方案，在训练数据集中平衡类。然而，临界打击使用欧几里得距离来度量数据实例之间的相似性，缺乏表示数据实例的形状特征和序列特征的能力。因此，本文采用Frechet距离[44]而不是欧几里得距离来衡量数据实例之间的相似性。

2.1.1。两个数据实例的Frechet距离计算

让R²表示度规空间;一个,B:[0, 1]⟶R²表示在Fréchet可空间中的两个连续的曲线[46];和α,β:[0,1]⟶[0,1]表示两个连续不减少的功能与独立变量t在单位区间内。因此，Frechet距离δ_dF(一个,B)的定义为: 在| |。| |_P代表欧几里得范数;inf表示集合的极小值;α(0) =β(0) = 0,α(1) =β(1) =1[46]。

的参数t是连续的，不能适应离散参数的计算。因此，研究提出了离散Frechet距离[47,48]。让P= (p₁,p₂、……p_u), 表示两条离散曲线，和k表示Frechet排列的总数[47,48];因此，对于一个Fréchet可置换W_j= {(P_我,问_我)},≤1我≤u1≤j≤k的最大距离的最大值W_j可以表示为。因此，为离散Frechet距离P和问可表示为:

Frechet距离能够更好地表示数据实例的形状特征和序列特征[44]。因此，它是由本文用来计算用于临界-SMOTE算法的最近的邻居。

2.1.2。临界-SMOTE在启用职业平衡

Borderline-SMOTE能够平衡不平衡数据集的类[40]。它基于两个显著的优势来平衡数据集，这两个优势包括识别主要类和少数类之间的边界，以及边界附近的样本合成。

步骤1。在一个数据集T，每一分在少数民族阶级P，计算的一组米使用Fréchet可距离最近的邻居（公式（2))。在集合内，属于主类的点数为(0≤≤米)。

步骤2。如果=米这表明米最近的邻居是大多数例子中，p_我被视为噪音而被忽视。否则，则0≤≤米/ 2，p_我较少被误分类的机会，不需要进一步处理。如果米/ 2≤≤米,p_我有更高的机会被错误分类。因此,对于所有p_我在少数民族阶级中，一种边缘群体 , 可以在哪里实现表示的最近邻p_我。

第3步。对于每一个在E，计算的个数k从少数类的近邻P，然后是一些年代点是随机从k邻居。因此，让表示0到1之间的随机值，和表示年代邻居。因此，一个新的实例最终可以合成。
由Frechet基于距离的Borderline-SMOTE执行的演示如图所示1。首先，该算法可以识别两个不平衡类之间的边界。其次，新的实例可以合成平衡类和进一步突出边框区分两类。因此，如果在BP神经网络的训练数据集存在不平衡类问题，基于距离Fréchet可交界-SMOTE具有很大的潜力，提高培训绩效。但是，也应该指出的是，这两个参数的值k和米影响边线打击的表现。因此，在后面的算法评价部分，最优值k和米从一系列preexecuted实验的被选择。

2.2。改进BP神经网络，利用零均值，批次规范化和RELU

作为一种有效的分类算法，BPNN已成功应用于很多研究[10,11,26,49]。然而，问题，例如，初始权重，学习率的灵敏度，梯度爆炸，和梯度消失的灵敏性，但仍需要进行处理。因此，本文首次采用零均值来归一化的输入数据的实例。其次，批量标准化和RELU激活功能是用来克服在训练阶段的衔接问题。

2.2.1。标准BPNN简介

数字2示出了典型BPNN，其中包含了输入层，几个隐藏层和输出层的体系结构。在隐藏层和输出层，多个神经元的存在，分别。在图2,x₁，...，x_n表示BPNN的输入; ,b_我,表示神经元的权重、偏置和激活函数;一个_我表示隐含层神经元的输出;y表示BPNN的输出（一个=y在输出层）。为了表述方便，将上述参数在矩阵的紧凑形式表示X,W,b,一个,Y。在网络训练方面，采用前向传播和后向传播两个阶段。基本上，前馈计算输入X利用网络的每一层实现输出Y根据。反向传播使用损耗函数损失计算方差J的输出之间Y而实际价值Y_根据J=损失(Y,Y_)。神经网络选择合适的优化算法，如随机梯度下降(SGD) [29算法，更新W和b使用 , ,在哪里是学习率[50]。

在使用BPNN进行分类时，首先要进行训练阶段。让实例_我= (一个₁,一个₂，...，一个_n]指示我^日在训练数据集的数据实例;一个表示实例的一个特性_我;和c_j表示该实例的类_我是属于。首先，实例的各个特征_我是标准化的。其次，BPNN输入实例_我运行前馈来计算输出Y，然后，编码c_j是否被视为实际价值Y_运行反向传播更新权重和偏见。只要所有的训练训练实例数据集已处理几个时代和迭代，训练阶段结束。在分类阶段，让实例_k表示k^日在测试数据集的测试实例。BP神经网络的输入实例_k并仅使用前馈计算输出。输出是所实例的类_k是属于。只要测试数据集中的所有测试实例都已处理，分类阶段就会终止。

数字3.展示了使用零均值、批处理归一化和ReLU对BPNN的改进。改进的细节将在下面的部分中给出。

2.2.2。均值从零开始输入层改进

零均值是一种标准化技术，可以改善数据分布，加速梯度下降[45]。让输入矩阵X表示每个迭代中批大小的输入数据实例的数量。经过图中零均值层处理3.时，以0为中心的数据实例成为实际输入。让矩阵X_的意思是表示批量大小的输入数据实例数量的平均值，以及矩阵X_{zero-centered}表示以零为中心的输入;因此,方程(3.)和(4)指出的计算X_的意思是和X_{zero-centered}:

2.2.3。基于批处理标准化的隐藏层改进

简单地说，在多隐藏层神经网络的训练阶段，不同层的数据分布可能会发生变化，不再是独立同分布(IID)。因此，内部协变移(ICS)发生[28]，导致影响了训练两个主要问题。第一个是，在当前层的参数的变化可能导致在最后一层的输入数据的分布的变化。其结果是，最后一层具有调整本身，以便学习性能恶化适应分布的变化。第二个是，这些值W和b可以持续放大，哪导致更大的价值在每一层。因此，激活函数可能出现梯度饱和。因此，在反向传播时，更新后的梯度值可能极小，导致网络收敛性恶化。

然而，分批正常化[28]采用归一化操作将隐含层中每个神经元的输入数据分布恢复为标准正态分布N(0,1)，因此激活函数能够敏感地工作。通常，在批处理归一化中，参数的均值和方差的输入数据启用规范化。此外，微小的变化和在每个小批量还可以提高神经网络的泛化性。初始标度因子位移系数采用实施线性变换。这两个因素可以批量标准化的培训。其结果是，一批正常化能够与更大的初始权重，较大的学习速率，梯度问题时，与过学习的问题，这显著提高了神经网络的训练表现[中28]。

由于BPNN具有显著的优点，本文采用批处理归一化方法对其隐含层进行改进。它对隐层的线性输出进行归一化处理，然后将批归一化处理的输出输入到非线性ReLU中。算法中给出了批处理归一化的具体步骤1其中D表示隐含层线性计算的输出;y_我表示批处理归一化的输出，为非线性ReLU的输入;ε是稳定训练的一个定值;和表示输入数据实例的均值和方差;表示标准化的中间数据。与BPNN的权值和偏置相似，和在反向传播阶段还根据和 ,在哪里l表示隐含层的反向传播损失函数。

	输入:一批输入
	初始尺度及位移因子:γ,β
	输出：



	,

2.2.4。ReLU激活函数

克服饱和的常用方法乙状结肠和双曲正切为了提高网络的收敛性，本文采用式(5)作为神经网络的激活函数，能够处理梯度问题[29]: 在哪里x礼物RELU的输入。

2.3。基于集成学习的BPNN并行化

为了实现大规模的数据分类，Hadoop框架基于MapReduce计算模型[51]来并行化改进的BPNN。本文首先将整个训练数据集分割成若干数据块保存在HDFS (Hadoop分布式文件系统)中，然后每个参与映射者分别初始化一个子bpnn和输入一个数据块。每个映射器分别训练自己的分类器，这样最终可以并行地实现许多不同的分类器。因此，对于一个测试数据实例，这些分类器可能会生成不同的决策。最后，本文还提出了一种加权投票策略来决定测试数据实例的最终分类结果。

2.3.1。数据分离基于并行化的改进BP神经网络

虽然BPNN可以在Hadoop中直接解耦和并行化，但研究[23]提出并行化算法的效率非常低，这是因为Hadoop框架不完美的迭代支持。因此，本文的并行化是基于数据分离的。首先，采用随机抽样的方法将整个训练数据集分割成多个数据块。数据块保存在HDFS中。但是在每个数据块中，由于随机抽样和分离，类不平衡问题可能会加剧或缓解。因此，如果一个数据块中存在类不平衡，则边界- smote平衡类，然后启动多个映射器，每个映射器分别将一个改进的BPNN初始化为子BPNN，并输入一个数据块训练子BPNN的参数。每个子bpnn在映射器中的工作流程如图所示4。

最后，只要用于每个映射器终止培养，多个不同的分类器可以并行实现。在分类阶段，一个测试实例被输入到所有的分类。其结果是，不同的分类可以产生不同的分类结果。一个减速器收集所有从映射器的结果，以形成聚集，其中，所述加权投票被执行以实现用于测试实例的最终分类结果。

2.3.2。加权投票

为了合奏多个分类结果为一个最终结果在减速机，本文提出了一种基于可靠性分类加权表决，它可以根据从多个分类结果的可靠性达到最终的分类结果。

我们知道，对于不同的类，每个分类器的分类精度是不同的。因此,让C表示可靠性矩阵;n代表的在训练数据集的类的数量;和表示分类器的每个类的分类精度。因此,SOFTMAX函数[52]可以采用来计算可靠性c_我为我^日使用下式对分类器进行分类:

因此，对于一些米分类器，可靠性矩阵C可表示为:

每个分类器的输出编码都基于单热编码[44]。因此,输出p的分类器为每个类的概率分布p_我(我=1,2，...，n)表示为:

因此，输出米分类器形成一个概率分布矩阵P由下式表示:

中间矩阵问由式(10)可通过乘可靠性矩阵来实现C和概率分布矩阵P:

之和的元素我^日列问最后形成权值矩阵R表示为:

最终，输入数据实例的最终分类结果class_label可以根据以下公式进行识别:

数字5显示使用Hadoop的BPNN并行化的逻辑流程。

3.实验结果

实验分为三个部分。第一部分利用随机生成的线性不可分的二维半环形数据集评估了基于弗雷切特距离的边界攻击算法的性能。第二部分使用Iris数据集评估改进后的BPNN在独立环境中的性能[53，葡萄酒数据集[52，以及车辆轮廓数据集[54]。第三部分评估了Hadoop的并行化提高BPNN的性能分布式计算环境。当时的实验环境的细节列于表1。


独立的环境	分布式环境中

	CPU: Intel Core i5 2.5 GHz
CPU: Intel Core i5-8250U 1.6 GHz	MEM: 16 GB
MEM: 8 GB	操作系统:Ubuntu 16.04 64位
操作系统:win10 64位	Hadoop: 2.9.1
Python: 3.6.6	Python: 3.5.2
	节点没有。: 4

3.1。评估弗雷切特距离为基础的边缘打击

采用随机生成的数据集来评估基于弗雷切特距离的边界打击。数据集有两个类，每个类分别包含150个数据实例。基于图中所示的原始数据集6时，生成不平衡数据集，如图所示7。实现了四种类平衡算法，包括基于弗雷切特距离的边界攻击算法(k= 5,米=5), random oversampling, random undersampling, and SMOTE. After the class balance for the imbalanced dataset, the improved BPNN carries out the classification using a number of 100 randomly selected training instances and a number of 90 testing instances. The classification results are shown in Table2。


类平衡算法	分类精度(%)

边缘性SMOTE	95.556
随机采样过密	78.889
随机采样	74.444
SMOTE	86.667
如果没有平衡	66.667

表2表示在没有类平衡的情况下，分类准确率只有66.67%。然而，所有的类平衡算法都能提高分类准确率，其中基于弗雷切特距离的边界攻击算法的分类准确率明显高于其他算法。

为了进一步评估基于弗雷切特距离的边界打击的潜力，使用随机抽样生成了平均属于两个类的20000个实例。首先从类1中随机抽取5000个实例，然后从类2中随机抽取1000个、500个、50个、10个实例，组成4个不平衡训练数据集。以弗雷切特距离为基础的边缘打击平衡(k= 5,米= 5)，对改进后的BPNN进行训练，然后进行分类。测试实例的数量为10000。分类准确率列于表中3.。


不平衡类比率	平衡数据集精度(%)	不平衡数据集精度（％）

5000: 1000	98.09	73.15
5000: 500	95.19	68.32
5000 : 50	80.53	56.20
5000: 10	67.45	53.13

表3.表明，不均衡训练数据显著影响分类精度。但是，从基于距离Fréchet可临界-SMOTE受益，分类精度可以大大改善。表3.也表明不平衡比例会影响分类精度。稍微不平衡的训练数据集，只要利用基于弗雷切特距离的边界攻击进行平衡，就可以获得更好的分类性能。而训练数据集极度不平衡，即使是平衡的，分类精度也很低。

3.2。改进的bp神经网络的评价

本节评估改进后的BPNN在独立环境中的性能。采用虹膜数据集、葡萄酒数据集和车辆轮廓数据集。表中列出了训练和测试实例的详细信息4。比较而言，SVM、传统的BPNN和自适应BPNN [55]也被实施。


数据集	训练实例数量	测试实例数量

虹膜	120 (class1: 40岁;class2: 40岁;class3: 40)	30 (class1: 10;类别2:10;类别3:10)
酒	124 (class1: 36;class2: 52个;class3: 36)	54 (class1: 23;class2: 19;类别3:12)
车辆	592 (Class1: 137;Class2: 155;Class3: 159;一年级:141)	254 (Class1: 62 Class2: 62;类别3:59;一年级:71)

表5展示了使用Iris数据集的每种算法在50次实验基础上的平均分类准确率。传统的bp神经网络具有最大的epoch，分类精度最低。改进后的模糊神经网络与自适应模糊神经网络的分类精度相近。然而，自适应BPNN在epoch数目方面的表现略优于改进后的BPNN。


算法	测试数据的准确性	时代

改进的摘要	96.667	188
自适应BP神经网络	96.667	172
传统的BP神经网络	93.333	342
支持向量机	96.667	/

表6和7使用葡萄酒数据集和车辆轮廓数据集，展示每种算法基于50次实验的平均分类准确率。首先，传统的BPNN也表现出最差的性能。其次，在基于葡萄酒数据集的实验中，虽然自适应BPNN在epoch上略优于改进的BPNN，但改进后的BPNN的分类准确率要高于自适应BPNN。第三，在基于车辆轮廓数据的实验中，改进后的BPNN在准确率和epoch方面表现最好。


算法	测试数据的准确性	时代

改进的摘要	94.370	723
自适应BP神经网络	91.444	537
传统的BP神经网络	67.317	1531
支持向量机	96.296	/


算法	测试数据集的准确度（％）	时代

改进的摘要	83.465	245
自适应BP神经网络	80.709	465
传统的BP神经网络	74.803	993
支持向量机	44.488	/

数据图8（a）- - - - - -8 (c)显示传统BPNN，改进BPNN，以及使用该数据集虹膜，葡萄酒数据集自适应BPNN，和车辆剪影数据集的收敛，分别。对于简单的虹膜数据集，三个算法进行比较接近收敛。然而，对于复杂的数据集葡萄酒，无论是提高BP神经网络和自适应BP神经网络显著优于传统的BP神经网络。直到误差变小，自适应BP神经网络收敛略高于改进BP神经网络更快。然而,图8 (c)表明自适应BPNN的收敛性表现出一定的波动。算法收敛缓慢且不稳定。改进后的神经网络收敛速度快、稳定性好。

(一)

(b)

(c)

数据9(一个)- - - - - -9 (c)分别使用虹膜数据集、葡萄酒数据集和车辆轮廓数据集显示50次实验中的最大和最小epoch数。改进后的神经网络性能优于传统的神经网络，并具有与基于虹膜和葡萄酒数据集的自适应神经网络相似的性能。在车辆轮廓数据集方面，改进后的BPNN表现最好。

(一)

(b)

(c)

数据10 ()- - - - - -10 (c)在50次实验中分别使用Iris数据集、Wine数据集和车辆轮廓数据集显示最大和最小的分类准确率。对于简单的虹膜数据集，三种算法的性能比较接近。改进后的BPNN算法的性能略优于其他两种算法。然而，在葡萄酒数据集方面，传统的BPNN表现最差。自适应BPNN的分类准确率虽然可以达到98%，但其最小准确率只有55%，说明算法性能不稳定。相比之下，改进后的BPNN具有最高的准确率和最稳定的性能。在车辆轮廓数据集方面，改进的BPNN也提供了最佳的准确性。

(一)

(b)

(c)

为了进一步说明改进后的BPNN的性能，表中列出了三个数据集50次实验的epoch和准确率的评价统计指标8- - - - - -10。


算法	时代		精度
算法	的意思是	方差	意思（％）	方差

改进的摘要	188.82	2557.62	96.7	9.23
传统的BP神经网络	342	4096.43	93.3	63.27
自适应BP神经网络	172.3	1093.96	96.7	11.73


算法	时代		精度
算法	的意思是	方差	意思（％）	方差

改进的摘要	723.26	6266.69	94.4	28.31
传统的BP神经网络	536.8	5974.37	67.3	372.87
自适应BP神经网络	1531	31924.12	91.4	55.2


算法	时代		精度
算法	的意思是	方差	意思（％）	方差

改进的摘要	245	3243.19	83.5	21.06
传统的BP神经网络	993	23542.08	74.8	187.21
自适应BP神经网络	465	2806.74	80.7	35.19

在基于虹膜数据集的实验中，改进后的神经网络与自适应神经网络在历元和精度测试方面表现相似，但改进后的神经网络的历元方差略高，且优于传统的神经网络。

在基于葡萄酒数据集的实验中，传统的BPNN虽然执行最小的历元均值和方差，但其平均准确率最低，方差最高。相比之下，改进后的bp神经网络在epoch和准确率方面都明显优于自适应bp神经网络。

在车辆剪影基于数据集 - 实验中，传统的BP神经网络显示最糟糕的表现。改进的BPNN优于自适应BPNN在精度方面。对于历元，改进BPNN示出了最小均，并且其方差比自适应BPNN的略高。

数据图11（a）- - - - - -11 (c)结果表明，对于改进后的BPNN，分类精度受批量大小的影响，并且对于不同的数据集，能够获得最高精度的最优批量大小是不同的。因此，适当的批量大小可以提高改进后的BPNN的分类精度。

(一)

(b)

(c)

数据图12（a）和图12（b）在dicate the numbers of epochs, nonconvergence, and overfitting of the traditional BPNN and the improved BPNN with varying learning rates (lr = 0.1, 0.01, 0.001, and 0.0001; 50 times experiments for each lr).

(一)

(b)

首先，图图12（a）结果表明，当学习速率较小时(lr = 0.0001)，传统的BPNN不能完全收敛，导致实验结果丢失。然而,图图12（b）结果表明，即使学习率为0.0001，改进后的BPNN仍能收敛。其次，对于每个学习率，改进后的神经网络的异常(不收敛和过拟合)数量分别小于传统的神经网络。第三，对于每个学习率，改进后的bp神经网络分别比传统bp神经网络的epoch次数少。实验结果表明，本文所做的改进可以显著提高bp神经网络的收敛性。

在接下来的实验中，基于原始Iris数据集、Wine数据集和车辆轮廓数据集生成不平衡训练数据集。表中列出了训练和测试实例的详细信息11。首先对不平衡训练数据集进行基于弗雷切特距离的边界攻击(k= 5,米=10), and then the improved BPNN carries out the classifications based on both the balanced and imbalanced training data for 50 times. The average classification accuracies are shown in Figures(13日)- - - - - -13 (c)。


数据集	训练实例数量	测试实例数量

虹膜	80 (class1: 36;类别2:7;class3: 37)	45 (class1: 14;类别2:18;类别3:13)
酒	79 (class1: 36;类别2:7;class3: 36)	54 (class1: 23;class2: 19;类别3:12)
车辆	450 (Class1: 30;Class2: 140;Class3: 140;一年级:140)	254 (Class1: 62;Class2: 62;类别3:59;一年级:71)

(一)

(b)

(c)

两个数字(13日)和13 (b)结果表明，训练数据集的不平衡严重影响了改进后的BPNN的训练，最终导致严重的误分类。然而，通过基于弗雷切特距离的边界打击平衡，网络可以得到正确和充分的训练。因此，可以大大提高分类精度。然而，由于车辆轮廓数据集实例的复杂属性，尽管基于平衡数据集的分类也优于不平衡数据集，但其平均准确率仅为79.53%。这说明数据的维数可能会严重影响类平衡算法的性能。

3.3。Hadoop集群中并行化改进的BPNN的评价

首先，利用原始虹膜数据集评价并行化改进的BPNN的分类精度。有105个实例的训练实例将被分离出来进行并行训练。其他45个实例是测试实例。三个绘图器并行启动。每个映射器初始化一个子bpnn。并对独立BPNN和并行长短期内存网络(LSTM)进行了比较。特别是并行化LSTM的配置与并行化BPNN的配置相同。独立BPNN的训练实例数为105个，测试实例数为45个。

数字14表示并行化的BPNN的性能优于独立BPNN和并行化的LSTM。利用加权投票的优点，适当地处理了数据分离中潜在的准确性损失问题。3个sub-BPNNs的分类准确率分别为96.88%、94.44%和91.89%。但是，聚合结果的准确性可以达到100%。进一步证明了加权投票可以将弱分类器聚合为强分类器。此外，数据分离可能会加剧子神经网络中训练数据集的类不平衡问题。而基于Frechet距离的边界攻击算法可以有效地解决这一问题，保证了分类的准确性。而且，并行化的LSTM的性能略逊于并行化的BPNN。众所周知，LSTM适用于时间序列数据的处理。但是，实验中使用的Iris数据集与时间序列无关，这说明数据集的类型可能会影响并行化LSTM的精度性能。

在分类效率评价方面，本文将虹膜数据集大小从1 MB复制到1024 MB。集群并行启动16个映射器。图中列出了独立BPNN、并行化BPNN和并行化LSTM的处理时间15。

数字15表明在数据量较小的情况下，三种算法的性能非常接近。由于Hadoop集群的开销，独立的BPNN的性能甚至超过了并行的BPNN和并行的LSTM。然而，随着数据大小的增加，由于独立环境计算资源的限制，独立BPNN的处理时间急剧增加。相比之下，由于计算量较小，并行化BPNN的性能略优于并行化的LSTM，且对大量数据的处理效率较高。

4.结论

为了更好地服务于大规模数据的分类，本文提出了一种并行化的改进BPNN算法。并行是基于数据分离的，并且并行是使用Hadoop框架实现的。为了克服分离带来的分类精度损失问题，提出了加权投票算法来提高分类精度。实验结果表明，并行化方法能够有效地处理大规模数据。然而，还存在另外两个问题。首先是训练数据集中的类不平衡问题严重影响了BPNN的训练效果，最终导致分类准确率的下降。因此，本文提出了基于弗雷切特距离的边界打击算法来实现类平衡。实验结果表明，该均衡训练数据集可以显著提高分类精度。二是BPNN可能存在收敛问题。因此，本文分别采用零均值、批处理归一化和ReLU方法对BPNN的输入层、隐含层和激活函数进行改进。 Based on the comparisons to the traditional BPNN and the self-adaptive BPNN, the presented improved BPNN has great potential to serve the classification tasks accurately and efficiently.

数据可用性

用于支持本研究发现的模型和算法的数据也包含在本文中。

的利益冲突

作者声明，本文的发表不存在任何利益冲突。

致谢

本研究得到国家电网科技项目(SGAH0000TKJS1900091)的资助。

参考文献

G.王，Z.邓和K.-S.财“在社区卫生研究使用添加剂LS-SVM分类应对丢失的数据，”IEEE生物医学和健康信息学杂志第22卷，第2期。第579-587页，2018年。视图:出版商网站|谷歌学术搜索
M. Skubic, R. D. Guevara, M. Rantz，《使用家庭传感器数据进行嵌入式健康评估的自动健康警报》IEEE杂志平移工程在健康和医学，第3卷，文章编号2700111，第1-11页，2015年。视图:出版商网站|谷歌学术搜索
陈丽玲，李欣欣，盛振中等，“基于图形的健康检查记录挖掘方法”，IEEE知识和数据工程学报第28卷第2期9，第2423-2437页，2016。视图:出版商网站|谷歌学术搜索
黄，韩，王，李，张，和巴提，“一个异构数据源的临床决策支持框架，”IEEE生物医学和健康信息学杂志第22卷，第2期。2018年11月，1824-1833页。视图:出版商网站|谷歌学术搜索
S. Huda, J. Yearwood, H. F. Jelinek, M. M. Hassan, G. Fortino, M. Buckland，“不平衡医疗保健数据的集成分类的混合特征选择:脑瘤诊断的案例研究”，IEEE访问卷。4，第9145-9154，2016。视图:出版商网站|谷歌学术搜索
曾元华，梁建民，杨平，黄国强，赖福华，“多时间序列临床资料分类的合并算法与统计方法”，IEEE生物医学和健康信息学杂志第19卷，no。3, 2015年第1036-1043页。视图:谷歌学术搜索
彭x, Lai W.， Chen Y.，“聚类分析在典型功耗分析中的应用”，电力系统保护和控制第42卷，no。19, 68-72, 2014。视图:谷歌学术搜索
“基于改进的电力负荷并行聚类研究”k则算法”,计算机工程及应用，第53卷，第260-265页，2017。视图:谷歌学术搜索
李正东，周B.和N.林“日负荷特性曲线和基于模糊聚类短期负荷预测中的分类和改进BP算法”电力系统保护和控制第40卷，no。3，第56-60页，2012。视图:谷歌学术搜索
O. Noureldeen和I.哈姆丹“的基础上用于使用自适应神经模糊推理系统DFIG风能转换系统的故障类型的保护技术的一个新颖可控撬棍”现代电力系统的保护和控制第3卷，no。1, 2018年第328-339页。视图:出版商网站|谷歌学术搜索
A. A. Majd, H. Samet和T. Ghanbari。”k基于神经网络的输电系统故障检测与分类方法，"现代电力系统的保护和控制第2卷第1期2，第359-369页，2017。视图:出版商网站|谷歌学术搜索
十，苏，刘T.，H曹等人，“A多个分布式BP神经网络的短期负荷预测基于Hadoop框架办法”CSEE的程序，第37卷，第4966-4972页，2017。视图:谷歌学术搜索
蔡文伟，王欣欣，周元华，冯，陈明，“卷积神经网络在医学图像分类中的应用”，中华医学杂志在控制自动化机器人技术与愿景2014年第13届国际大会（ICARCV）论文集，第844-848页，新加坡，2014年12月。视图:谷歌学术搜索
焦，高，王，李，许，“基于脑电图数据的深度卷积神经网络心理负荷分类”，模式识别，第76卷，第582-595页，2018。视图:出版商网站|谷歌学术搜索
杨s.y andc Shen，“智能电网环境下电力负荷分类研究”，可再生能源和可持续能源点评《中国日报》，第24卷，第103-106页，2013年。视图:谷歌学术搜索
十张，赵J.和Y LeCun“字级的卷积网络文本分类，” 2015年，https://arxiv.org/abs/1509.01626。视图:谷歌学术搜索
"基于地图约简的并行化。K-means集群为大型CIM数据验证，”并发与计算:实践与经验第28卷第2期11, 3096-3114页，2016。视图:出版商网站|谷歌学术搜索
E.-H。金,研究。和W. Pedrycz，“基于增强区间2型模糊c均值模糊分类器的设计”，IEEE模糊系统汇刊第26卷，no。5，第3054-3068页，2018。视图:出版商网站|谷歌学术搜索
“基于卷积神经网络和超像素模式的ABVS图像中乳腺肿瘤的自动检测”，王欣欣，郭洋，王洋，余杰。神经计算与应用第31卷，no。4，第1069-1081页，2019年。视图:出版商网站|谷歌学术搜索
Q. Jiang和F. Chang，“一种结合低阶矩谱和支持向量机的滚动元件轴承故障分类新方法”，机械科学与技术杂志卷。33，没有。4，第1535至1543年，2019。视图:出版商网站|谷歌学术搜索
《SOM的生理学解释》，台北自组织映射卷。30，施普林格，柏林，德国，1997年。视图:谷歌学术搜索
S. Niazmardi, S. Homayouni, and A. Safari，“一种基于SVDD的改进FCM算法用于无监督高光谱数据分类，”IEEE期刊在应用地球观测与遥感选题卷。6，没有。2，第831-839，2013。视图:出版商网站|谷歌学术搜索
“基于MapReduce的并行神经网络在大规模机器学习中的应用”，刘洋，黄洋，徐l.， S. Li，和M. Qi，“基于MapReduce的并行神经网络在大规模机器学习中的应用”。计算智能与神经科学，第15卷，文章编号297672,13页，2015年。视图:出版商网站|谷歌学术搜索
刘元华，Jing W.， Xu L.，“使用MapReduce和级联模型并行化反向传播神经网络”，计算智能与神经科学，第2016卷，文章编号2842780,11页，2016年。视图:出版商网站|谷歌学术搜索
“MapReduce和spark中反向传播神经网络的并行化”，刘洋，徐磊，李敏华，“基于MapReduce和spark的神经网络并行化”。国际并行程序设计杂志第45卷，no。4, 760-779页，2017。视图:出版商网站|谷歌学术搜索
《基于多模态神经网络和小波分析的说话人识别》，北京:中国科技大学出版社。专业生物识别技术卷。4，没有。1，第18-28，2015年。视图:出版商网站|谷歌学术搜索
D.顾问：艾，陈C.和S.沉，“动态负荷建模自适应神经网络中的应用，”CSEE的程序，第16卷，第31-36页，2007年。视图:谷歌学术搜索
S.约费和C. Szegedy，“批正常化：通过减少内部协变量移加速深网络训练，”在第32届机器学习国际会议论文集，第448-456页，法国里尔，2015年7月。视图:谷歌学术搜索
王建民，g.b. Giannakis和J. Chen，“在线性可分数据上学习ReLU网络:算法、最优性和泛化”，IEEE信号处理汇刊第67卷，no。9日,2019年。视图:出版商网站|谷歌学术搜索
V. Thakkar, S. Tewary，和C. Chakraborty，“卷积神经网络的批处理标准化——与CIFAR-10数据的比较研究”，载于《卷积神经网络的批处理标准化研究》2018年第五次国际会议上新兴的信息技术应用程序（EAIT）2018年1月，印度加尔各答。视图:出版商网站|谷歌学术搜索
何建民，“卷积神经网络与主成分分析及批处理归一化之高光谱影像分类”，载于ieee2019国际地球科学和遥感研讨会论文集2019年7月至8月，日本横滨。视图:出版商网站|谷歌学术搜索
"深度神经网络训练之十一范数批处理归一化"，国立中山大学医学研究所硕士论文。IEEE神经网络和学习系统汇刊第30卷，no。2018年，第2043-2051页。视图:谷歌学术搜索
刘志军，“复杂神经网络的风场预测性能”，国立中山大学学报，2002日本仪器与控制工程师学会2018年第57届年会论文集2018年9月，日本奈良。视图:出版商网站|谷歌学术搜索
“深度学习之直线单元之功能分析”，国立台湾师范大学资讯工程学研究所硕士论文2015神经网络国际联席会议论文集，第1-8页，IEEE，基拉尼，爱尔兰，2015年7月。视图:出版商网站|谷歌学术搜索
“基于大尺度数据分类的数据分类方法”，“基于大尺度数据分类的数据分类方法”K-表示聚类和多核SVM， "软计算卷。23，没有。11，第3793-3801，2019。视图:出版商网站|谷歌学术搜索
A. Farrell, G. Wang, S. A. Rush等人，“利用高维环境数据对野生火鸡大规模空间分布的机器学习”，生态学与进化，第9卷，no。2019年，第5938-5949页。视图:出版商网站|谷歌学术搜索
徐新亮，朱杰，郑，孙，“大规模数据处理的经典降维和样本选择方法综述”，Neurocomputing， 2019年第328卷，第5-15页。视图:出版商网站|谷歌学术搜索
Apache Hadoop, 2019,http://hadoop.apache.org/。
Apache火花,2019年,http://spark.apache.org/。
王文伟，“非平衡数据集学习中的一种新的过度抽样方法”，台北智能计算的发展，第878-887页，施普林格，德国柏林，2005年。视图:谷歌学术搜索
“以类别为中心的影像分类”，《阶层不平衡状况下的影像分类》中国自动化学会2018年第33届青年学术年会论文集2018年5月，中国南京。视图:出版商网站|谷歌学术搜索
F.李，李S.，C朱X.兰和H.张，“类不平衡知道CNN扩展高分辨率航空影像基于车辆定位和分类，”在2017第二届图像、视觉与计算国际会议论文集2017年6月，中国成都。视图:出版商网站|谷歌学术搜索
“训练成本敏感深度信念网络之不平衡数据问题”，台北2016神经网络国际联席会议(IJCNN)会刊2016年7月，加拿大温哥华。视图:出版商网站|谷歌学术搜索
B. Aronov, S. hari - peled, C. Knauer, Y. Wang, and C. Wenk， <曲线的Frechet distance, revisited >， in在计算机科学讲义，第52-63页，施普林格，柏林，德国，2006。视图:谷歌学术搜索
W. D. Mulder, G. Molenberghs，和G. Verbeke，“径向基函数网络作为簇空间中的零均值高斯过程仿真器的解释”，[计算与应用数学，第363卷，第249-255页，2020年。视图:出版商网站|谷歌学术搜索
焦，王宏华，朱，池中，曾胜，“基于离散Frechet距离的电动汽车电池SOH诊断方法”，电力系统保护和控制卷。44，没有。12，第68-74，2016。视图:谷歌学术搜索
朱杰，黄中，彭x，“基于离散Frechet距离的曲线相似度判断”，武汉理工大学第55卷，no。2, 227-232页，2009年。视图:谷歌学术搜索
“基于离散Frechet距离和LS-SVM的短期负荷预测”，陈志强，黄，范，吴，王欣欣，“基于最小二乘支持向量机的短期负荷预测”，电力系统保护和控制第42卷，no。5，第142-147，2014。视图:谷歌学术搜索
D. Fan, J. Yang, J. Zhang等，“使用反向传播神经网络的便携式压力数据有效测量呼吸流量，”IEEE杂志平移工程在健康和医学，第6卷，文章编号1600112，第1-12页，2018年。视图:出版商网站|谷歌学术搜索
Y.刘，陈X.，L徐，李H.和M.李，“资源意识到并行反向传播中实现高效的大型数字医疗数据处理神经网络”IEEE访问， 2019年第7卷。视图:出版商网站|谷歌学术搜索
J. Dean和S. Ghemawat， " MapReduce "美国计算机协会通讯第51卷，no。1, 107-113页，2008年1月。视图:出版商网站|谷歌学术搜索
葡萄酒数据集,21019年,http://archive.ics.uci.edu/ml/datasets/Wine。
Iris数据集,2019年,https://archive.ics.uci.edu/ml/datasets/Iris。
车辆轮廓数据集，2020年，https://archive.ics.uci.edu/ml/datasets/Statlog +(车+轮廓)。
“基于改进的BPNN的心电信号聚氯乙烯识别方法”，杨欣玉，金欣玉，沈建芳，“基于BPNN的心电信号聚氯乙烯识别方法”，应用力学与材料，第738-739卷，第578-581页，2015。视图:出版商网站|谷歌学术搜索

科学的规划

基于机器学习和多准则决策的智能决策支持系统

摘要

1.介绍

2.基于类平衡的改进BPNN实现大规模分类

2.1。Fréchet可距离和临界-SMOTE基于类的平衡

2.1.1。两个数据实例的Frechet距离计算

2.1.2。临界-SMOTE在启用职业平衡

2.2。改进BP神经网络，利用零均值，批次规范化和RELU

2.2.1。标准BPNN简介

2.2.2。均值从零开始输入层改进

2.2.3。基于批处理标准化的隐藏层改进

2.2.4。ReLU激活函数

2.3。基于集成学习的BPNN并行化

2.3.1。数据分离基于并行化的改进BP神经网络

2.3.2。加权投票

3.实验结果

3.1。评估弗雷切特距离为基础的边缘打击

3.2。改进的bp神经网络的评价

3.3。Hadoop集群中并行化改进的BPNN的评价

4.结论

数据可用性

的利益冲突

致谢

参考文献

版权

更多相关文章

相关文章