文摘
然而算法是最著名的在机器学习和数据挖掘算法。之前它不预处理数据分类,从而导致更长的时间和更多的错误。来解决这个问题,本文首先提出了一种PK-means + +算法,可以更好的保证稳定性的一个随机实验。然后,基于球形区域划分,一种改进的资讯PK +提出了。算法可以适当选择球面的中心地区,然后构造一个初始分类器训练集来提高分类的准确性和时间。
1。介绍
机器学习和数据挖掘实现智能城市是两个非常重要的手段。数据挖掘中常用的分类算法包括支持向量机(SVM)算法ID3算法(朴素贝叶斯分类器),朴素贝叶斯分类器(NBC)算法,K最近的邻居(资讯)算法(1]。其中,然而算法是最著名的,简单,和基本算法。由于其易于理解和良好的分类效果,然而算法广泛应用于各个领域。例如,它在医学图像处理具有良好的分类效果,人脸识别、文本分类、多媒体通信、智能城市,和其他领域(2]。可以看出,然而算法有很强的学习能力和优秀的应用潜力数据在不同领域和不同特征(3]。
资讯分类算法是一种非参数学习方法(4),简单的原则的优点和一些影响因素。然而,许多资讯之间的比较和分析中发现的问题和其他的机器学习算法。首先,资讯的效率很低,和所有的数据应该为每个分类计算一次,这需要很长时间的数据很大。其次,当样本容量非常不平衡,资讯的预测精度较低。第三,它占用了大量的内存空间,因为它需要接收所有存储的数据进行计算。最后的价值K不容易很快就被选中,需要通过比较最优情况。在以下部分中,我们将改善资讯的分类精度和效率的帮助下中央预处理方法。
K则算法是一种算法基于分区方法聚类分析算法。这是在1967年提出的著名学者Acqueen。这个算法是最常见的经典算法在聚类分析。该算法简单、快速和容易理解。基于K则算法,很多人做出改进。2011年,周et al。5)改进的方法确定初始聚类中心距离根据评估。优化算法有一个明显的对数据和异常值的影响。
我们的研究小组改善资讯算法通过优化的性能K——当地的指导下概率上下文中的机器学习。的帮助下优化K算法,则集群地区形成的样本数据集转化为多个球形区域,选择和球球的中心地区。然后,构造一个初始分类器对训练集根据球体的中心和相应的半径。一个新的训练集包含K最近的邻居训练样本是由连续计算分类器。最后,然而,算法优化和改进新的训练集。改进算法的关键是添加一个预处理阶段做出最后的算法运行更高效的数据然后提高分类效果。实验结果表明,改进的资讯算法提高了分类的精度和效率。
本文的其余部分组织如下。部分2讨论了相关工作,其次是研究问题的描述和分析部分3。优化K则算法PK-means + +的指导下当地的概率是部分中讨论4。部分5给出了算法资讯资讯PK +和相应的实验结果基于PK-means + +为优化球面地区部门,和部分6本文总结和未来研究的方向。
2。相关工作
然而算法,研究人员做了许多改进。2013年,朱镕基et al。6提出了一种基于密度的改进方法。这种方法减少了训练数据和资讯算法的计算成本的合并方式。通过这种方式,每个类的样本数据集中到几个集群,和噪音减少了样本数据。然后,每个集群的高相似性示例文件合并。随后,Saetern和Eiamkanitchat7)提出了一个集成K最近的邻居基于去噪方法的分类方法。这种方法提高了资讯通过神经模糊算法方法和新的分类模式并取得了良好的结果。2015年,马8)提出了一种并行K邻居分类算法基于Hadoop平台。该算法实现网络舆论信息的分类根据大量的网络舆论的特征信息数据和分散的内容。第二年,田(9)提出了一种改进的加权资讯算法,将方差的概念纳入资讯算法和分配不同的权重值特征项与不同的分布。改进的算法需要较长的操作时间,但其分类性能明显改善。同年,胡(10)提出了一种改进的资讯算法使用supersphere区域和长方体区域划分的方法,提高了分类的精度和效率。近年来,越来越多的改善资讯的应用领域。例如,云加密的数据安全资讯分类器在2020年提出了智能城市,可以确保数据隐私,客户信息查询和数据到达设计(11]。同年,一种资讯的应用提出了一个入侵检测系统(12]。同时,Fauzi等人应用资讯自主地面车辆技术和有效地获得准确的分类结果根据最歧视的特性。(13]。
为K则算法,很多人也在努力改善其性能。2011年,保14)提出了一个混合聚类算法,嵌入遗传算法K则算法,针对初始聚类中心的影响在传统的数据聚类分析K——聚类算法。2015年,程和陆15)选择初始聚类中心的基础上,最大和最小距离数据实例,选择了与稀疏集群分工相对于基于平方误差的总和(ss)。然后,集群自动决定停止集群的数量将根据上交所的趋势变化。2016年,顾16)等人利用减法聚类算法确定初始聚类中心。2018年,江泽民和雪17)提出了一种改进的K——聚类算法,首先确定的数量K需要集群根据聚集索引,然后采用基于密度的概念。
实验表明,改进的算法比原来的更准确K——聚类算法。在所有的改进算法,改进的K——+ +算法提出的亚瑟和Vassilvitskii [18)是非常重要的。它随机选择初始聚类中心的一个变体数据点。然后,数据点加权根据数据点之间的距离的平方,所选最近的聚类中心,从而使聚类中心的选择更清晰。显然,许多改进方法,流程的改善获得集群中心仍然是一个广泛的研究方法。收购集群中心进一步资讯分类中起着重要的作用。
3所示。问题描述和分析
3.1。然而,分类算法
然而,分类算法(3),即K最近邻居算法,是一种最常用的分类算法分类效果最好。基本思想如下:当输入新数据的未知类别分类,分类的类别数据需要根据其他样本的类别决定。首先,数据分类的特征应该是提取并与每个已知类别的特征数据在测试集。然后,K最近的邻居数据提取测试集和大部分的类别K数据统计。最后,数据分类归入这一类。
资讯分类算法N训练样本一个= {x1,x2、…xn},是分布式的年代类别W1,W2、…W年代。在每个类别中,有N我(我= 1,2,…年代)作为训练样本。找到K最近的样品K1,K2、…K年代。判别函数=k我,我= 1,2,…年代和样本的类别X是由被分类= Max (K我)。然而,分类算法的实现过程如下:步骤1。数据被分成训练样本集和测试样本集的训练样本集一个,一个= {一个1,一个2、…一个n},表示为样本的类别年代,年代= {W1,W2、…W年代},测试样本集X,X= {xj|j= 1,2,…n}。步骤2。设置初始k作为最初的最近邻的价值X。步骤3。计算测试样本点之间的距离和其他所有训练样本点。步骤4。获得的距离按升序排序和选择适当的k价值。第5步。选择最接近的k已知的样本。步骤6。最高的类别之间的概率k已知样本统计。步骤7。确定测试样本点的类别的类别统计获得的第六步。
虽然资讯分类算法具有很多优点,如易于理解和良好的分类效果,它也有许多缺点。其中之一是,算法的时间和空间开销非常高。随着资讯的分类算法是一种懒惰的算法,它将选择接收所有数据没有任何处理之前的分类。因此,每个样本数据计算应该考虑,导致很长的计算时间。
为了说明资讯存在的问题,基于相同的数据集,本文比较了资讯算法和支持向量机算法研究他们的分类效果,使实验结果的比较分析。这将被用作第5部分的比较数据。
3.2。然而,支持向量机之间的比较和分析
UCI是一种常用的标准测试数据集库。这两个算法进行了测试六个数据集选择从UCI数据库(19)、海耶斯罗斯、虹膜、种子、皮马印第安人,页面块,分别和航天飞机。比较结果分类的时间和精度之间的资讯分类算法和支持向量机分类算法进行了研究。实验结果如下。
表1显示了分类精度的对比实验结果,表2显示分类的对比实验结果。它可以很容易地从两个表之后,相同的数据资讯算法和支持向量机算法进行分类,分类的支持向量机算法明显低于资讯的算法。前五个数据集的分类精度也高于资讯算法,和准确性在第六数据集与大量数据基本上是一样的资讯算法。
原因是SVM算法将训练样本数据,然后进行分类预测后培训。然而,然而算法没有样本数据训练过程。但SVM算法需要找到一个合适的分类超平面,和超平面的决心是非常复杂的。此外,当样本数据的数量很大,SVM算法的准确性会波动很大程度上由于超平面的选择,导致精度的波动。因此,灵感来自于分割数据样本的支持向量机分类算法,本文改进了古典资讯分类算法通过调整数据样本。
3.3。然而,文本分类实验
另一方面,当使用资讯文本分类的算法,我们发现数据预处理对分类精度有很大的影响。为了说明这种影响,我们做了一个简单的实验与高频词。这个实验的目的是证明的一定数量的高频词是无用的文本数据的分类将有一个良好的影响最终的分类结果以文本预处理。实验结果是由高频词删除的数量之间的关系和分类精度。
数据1- - - - - -4代表的关系删除数字高频词汇(deleteNS)和分类精度(test_accuracy)曲线。每个曲线都有几个相对平稳和长段。
420 - 520在图的线1代表,当删除420 - 520高频词,然而,算法的精度曲线相对稳定和准确性接近0.7。其他曲线解释方式。为了使实验结果更广谱,分类精度的稳定性应该选择不同精度曲线的线段的一部分在同一时间间隔内,既稳定又代表更高的精度。
经过多次实验,通过观察比较固定的线段图,可以得出结论,精度曲线相对稳定和高400 - 500高频词删除;也就是说,分类效果是最好的。得到更准确的结果,我们实验值400 - 500年每10次和测试每个值的100倍。根据实验结果表3,当450个高频词汇,分类精度的数量少于50%是最少的;也就是说,分类效果是最好的。
根据上述资讯文本分类实验中,可以看出,然而算法的数据预处理阶段的改善有很大的帮助,提高算法精度和分类效率。
3.4。K——+ +算法
聚类算法(20.)是一种无监督学习机器学习,其中K则算法是最简单、最基本的。K算法则属于划分聚类算法。的基本思想如下:随机选择K样本n数据样本作为初始中心,然后计算其他样品和之间的距离K中心。根据距离,计算每个样本分为一组最接近中心;也就是说,K集群形成。然后,计算中心的新形成的集群,将根据新的数据中心,进行迭代,直到集群的中心不再变化。尽管的原则K算法简单,容易实现,则也有问题。需要人为选择初始聚类中心和不同初始聚类可能导致不同的聚类结果。K——+ +聚类是一种优化算法提出的亚瑟和Vassilvitskii [18)的基础上K则算法。随机选择一个初始聚类中心的变体数据点和重量数据点根据广场的对数数据点之间的距离和所选最近的聚类中心的选择聚类中心更清楚。一般来说,K——+ +算法相比,具有更好的精度和速度K则算法。
假设数据集X= {x1,x2,x3、…xn−1,xn},集群的数量K,D(x)代表最短的距离数据点到最近的聚类中心的选择。的工作流K——+ +算法如下。步骤1。从数据集随机选择一个点X作为第一个聚类中心C1步骤2。选择X作为下一个聚类中心C我从数据集X以某种方式步骤3。重复步骤2,直到K选择聚类中心步骤4。继续使用标准K则算法计算
的过程中K——+ +的研究,有许多具体方法在步骤2中选择初始聚类中心的工作流程,和最经典的如下:(1)相对应的向量公式的最大值(1)作为新的聚类中心21]: (2)计算每个数据样本的密度,密度,取最高的数据样本点的中点密度和最亲密的点作为初始聚类中心,最后,使用圆形域划分(22](3)选择一个种子点,然后计算距离D(x我,y我检测节点之间的)和最近的种子节点,计算总和(D(x我,y我),然后把一个随机值,可以和下降(D(x我,y我)),计算随机−=D(x我,y我),直到随机< 0,那么关键是新集群中心点,并重复上述操作,直到所有K种子节点被选择(23]
从上面的分析,我们认为如果使用聚类算法的特点,介绍当地的概率的指导策略K——+ +预处理优化的算法,聚类效果可能会有所改善。
因此,下半年将操作实验数据集的帮助下PK-means + +和预处理操作。PK-means + +介绍了当地概率指导策略的基础上K——+ +,改进后的算法可以减少数据更适合资讯分类算法实验,以提高分类的精度和效率。
4所示。PK-Means + +算法
4.1。描述
局部概率PK-means + +(概率K——+ + (24])算法计算每个样本概率区间被使用K——+ +算法。关键是越远,在(0,1)比例越大,越高的概率随机选择这个区间。算法的步骤PK-means + +如下。步骤1。数组中随机选择一个点为中心的第一个集群步骤2。遍历所有点的集合D计算各点的距离,最近的聚类中心,并将数据记录到的距离数组,表示D[1],D[2],…D(n]步骤3。加起来D(我)(我= 1、2、3、…n,D(我代表之间的距离我th点和最近的集群)的中心距离和Sum (D(n]),计算的概率D(我在其总和(D(n)分别表示为 ,表达的概率在(0,1)通过概率部分的形式,和存储数组中的概率段的起点PK步骤4。花点时间间隔的一个随机数 作为下一个聚类中心点第5步。重复步骤2到步骤4直到所有的初始中心K选择集群步骤6。继续使用标准K则算法计算
在第一个集群的初始聚类中心下标4。距离的概率表示每个数据点到第一个集群中心的间隔(0,1)。每一个点的距离的概率部分第一个初始聚类中心存储在数据组和 。实际的点数据存储在概率段(0,1)数组中PK。如果随机选择的点可以在区间(PK [n−1],PKn]),然后选择第n个数据点在接下来的聚类中心。
4.2。实验测试
4.2.1。准备数据集收购
为了验证算法的优势PK-means SSE + +,该研究小组锁定的数据集分散相对分散的数据集,数据集。以确保实验小组随机选择20二维数据点在广场我(数据集x协调x∈(1、5)y协调y∈(1、5))。数据点的可视化效果如图5。然后,20二维数据点在广场和第二数据集随机选择。数据点的可视化效果如图6。最后,50个二维数据点在广场和第三数据集随机选择。数据点的可视化效果如图7。从这三个数据可以看到,数据在研究中选择非常分散。
4.2.2。实验分析
在上述的基础上选择分散的数据,为了充分说明PK-means + +算法的优点,K——+ +算法和PK-means + +算法,分别多次和集群相比减少随机试验的影响实验结果。为了找到的动态曲线误差平方和,我们记录上交所的价值。
实验是基于下面的机器环境,英特尔(R)核心™i5 - 7200处理器,2.50 GHz的主要频率和8.00 GB的内存。研究小组进行了10个实验,分别记录了SSE 10倍,画了一条线图表的比较两个不同的数据集。
实验首先对数据集进行。该研究小组将在上交所图计算的聚类算法K分别——+ +和PK-means + +。然后,你会得到一个线路图如图8。它可以清楚地看到从线图计算的上交所PK-means + +算法不断变化,而SSE由原来的计算K+ +算法则波动相对更多。
这是因为K——+ +随机选择一个号码不到的距离总和,然后以随机数为减法做减法操作的距离。最后,当小于0的差异被认为是下一个初始聚类点。PK-means + +算法的计算方法是采取点距离内的概率(0,1)。这两个算法也有类似的影响在上交所和明显的聚类数据集。分散的数据集,PK-means + +算法的优点是突出显示。数据点之间的距离相对平均和距离的区别很小,PK-means + +算法有较小的随机数范围比K——+ +算法,导致数量的小波动的小波动。通过这种方式,每个实验的结果接近对方,以确保上交所的波动不会太明显,然后提供一个稳定的状态。
进一步证明PK-means + +的优点,研究小组扩大试验规模数据集II和III。计算出的党卫军K——+ +和PK-means + +观察,分别如图9和10。显然,PK-means + +算法仍有绝对优势在光滑的水平。然而,K——+ +算法仍然有巨大的波动幅度,和最佳的实际数据可能不是通过随机值。
为了清楚地证明PK-means + +算法的优越性,我们的团队在西瓜上设置实验数据集和锁定的实验数量10。图11是错误的比较图广场和破碎线获得的10个实验吗K——+ +算法和PK-means + +西瓜算法数据集。如数据所示,上交所的总和计算的PK-means + +算法的波动小于K——+ +算法,相对平均的结果。这也充分证明了PK-means + +算法的优点在上交所的计算,特别是对分散的数据。
5。提高球形资讯算法资讯PK +
为了提高精度,资讯分类的数据是减少使用球形区域划分的方法。然而,球面中心是随机的,所以最优选择球面中心通过PK-means + +算法。这允许的情况下避免misclipping边缘的有效数据不在球体。
5.1。确定初始分类器
基于PK-means + +的良好的性能,我们研究小组提高了资讯的算法。然后,随机选择一些数据从UCI数据库作为数据源。PK-means + +算法是聚类算法,旨在将样本划分为样本数据集分成几个集群。然而,集群形成的形状不固定,如图12。自区域的形状形成的聚类分割算法类似于球体,它更方便改变集群地区形成的样本数据集到一个球体区域。确定初始分类器的过程如下。步骤1。每个区域的质心向量样本数据计算了PK-means + +算法,选择适当的初始中心步骤2。计算距离的所有训练样本数据集,每个中心,并将它们放入到集群的最亲密的距离步骤3。训练样本不断增加,及时更新集群的中心点步骤4。计算出上交所。当SSE不再降低,样品中包含集群基本上不改变,更新示例集群中终止第5步。以重心向量的每个集群为重心的球形区域,计算质心的距离其他样本,并以最远的距离为半径的球面步骤6。样品中形成球形地区保存和使用作为初始分类器
5.2。资讯的步骤PK +
首先,球面的中心地区选择使用PK-means + +算法,然后构造一个初始分类器对训练集根据相对应的中心和半径。一个新的训练集包含K最近的邻居确定训练样本的分类器。最后,然而,算法在新的训练集,这个资讯的改进算法是基于PK-means + +,它被命名为资讯PK +算法。资讯的步骤PK +如下。步骤1。球形区域的中心点是通过使用PK-means + +算法。步骤2。计算每个球形区域的中心点之间的距离和其他样本,并将它们存储在数组中D。所有的值D按降序排列,最远的距离是作为球面的半径区域形成初始分类器。步骤3。计算样本之间的距离进行测试,每个球形区域,并记录最大距离值。步骤4。新的训练集年代最初是空的。如果距离小于0在计算过程中,在该地区的所有的样品将被添加到新的训练集。第5步。中包含的所有样品最接近的球形区域添加到新的训练集年代。步骤6。如果样本之间的距离进行测试和邻边K样本之间的距离小于它和球形地区没有添加新的训练集,计算终止;否则,步骤1。步骤7。然而,算法中使用年代对测试样本进行分类。
5.3。实验
5.3.1。数据集
本文改进的资讯分类算法仍然实验六从UCI数据库选择数据集。海斯罗斯,虹膜、种子、皮马印第安人,页面块,分别和航天飞机。这六个数据集的基本信息如表所示4。
上述六个数据集,本文将从每个数据集提取20%的数据作为测试样本,剩下的80%的数据作为训练样本。每个类别的数据样本的数量是不同的,实验数据的比例从每个类别选择将试图接近这个类别的比例在整个样本数量。因此,过度数量的样本选择过程中的某些类别将减少影响分类结果的情况。
5.3.2。实验结果分析
这部分的实验旨在确保资讯分类算法的分类效率和改进算法的分类精度。因此,算法的运行时间和分类精度进行了分析和比较,最后得出结论。分类实验的六个UCI数据集。最初的K值设置为1,然后,这是每次增加1。分类计算持续,分类精度被记录。如果K价值仍在增长,但精度不再变化显著;然后,选择K价值。实验结果表中列出5。
表5实验结果显示资讯PK +分类算法。进一步看到古典资讯之间的差异算法,支持向量机算法,和资讯PK +算法,表6和图13分别了。表6记录的比较结果分类精度的三个六个数据集的分类算法,和图13文档的分类。
通过以上实验结果,它可以观察到资讯的分类精度PK +算法明显高于古典资讯的算法。减少分类时间也减少了,但不是很大。与支持向量机算法相比,分类的资讯PK +算法减少,提高分类精度。但在皮马印第安人数据集,资讯PK +算法精度略低于SVM算法,因为数据集的内容比马医疗记录,以及在过去的五年里,它有糖尿病。这是一个二元分类问题,支持向量机算法本身是一个二进制分类模型,所以SVM算法的分类效果会更好。因此,使用PK-means + +算法选择分类器与球面中心形成球形地区可以有效地避免错误的有效数据的数据集,也就是说,资讯PK +算法能够有效地提高分类精度和分类效率。
6。结论
简而言之,针对资讯分类算法的问题不进行预处理数据样本,导致长时间分类和分类精度下降,然而,一种改进的算法PK +对球形地区部门提出,基于PK-means + +。支持向量机算法,古典资讯分类算法,和资讯PK +算法分别应用于相同的数据集和每个算法的分类精度和分类时间比较。它显然是明显的实验,我们建议的资讯PK +算法可以有效地提高分类的精度,所需的时间分类也减少了减少虽小。也就是说,资讯PK +算法有更好的分类效果比古典资讯算法和支持向量机算法。算法具有一定的局限性,如间隔的重叠。所以,未来改进方向是采用多种方法来选择半径,以尽可能减少区间重叠。在未来,我们将进行更详细的研究球形区域划分和资讯的参数优化和进一步将这些理论应用到敏感问题(25智能城市。
数据可用性
所需的原始/处理数据复制这些发现也不能在这个时候作为数据共享一个正在进行的研究的一部分。
的利益冲突
作者宣称没有利益冲突。
作者的贡献
所有作者的贡献同样这个手稿。
确认
这项工作是支持的“13日五年”吉林省教育科学规划项目部门(没有。JJKH20191000K)和吉林师范大学研究生科研创新计划(没有。201947)。