文摘

基于并行k - means算法,本文对营销节点的相关问题进行深入的研究发现在互联网,包括设计一个新的网络营销节点检测器和一个位置总结网络基于FCN(完整的卷积网络)输入节点的预处理和数据集验证其性能。同时,解决不足的问题数据集的网络营销节点,网络数据集人工生成并用于检测器训练。首先,多级k - means算法改为两类适合网络营销节点检测:营销节点和背景类。其次,权重的k - means算法大多只适用于目标探测任务。因此,当处理网络营销节点检测任务,k - means算法用于回归训练集和计算5的重量。在仿真实验中,重量计算公式用于计算特征项的重量。基本的想法是,如果一个功能词经常出现在这个文件但不经常在其他节点,这个词将被指派更高。与此同时,本文主要关注k。均值聚类算法的一些缺点一直特别改善。通过参与集群的标准化数据,参与集群的数据转换从一个cluster-like分布不规则的分布,从而促进集群的过程。介绍了密度确定集群的初始中心,并介绍了纯度指标来确定适当的密度集群中心的半径,实现最有效的减少支持向量机的训练样本。

1。介绍

网络的规模不断增加,同时,生成大量的相关数据。传统的网络营销预测技术是制约计算机的性能和编程模型,导致一个瓶颈,大大无助的在处理这些数据(1]。网络营销预测设计自动搜索信息有特殊关系隐藏在大量数据。在大规模的数据和高维数据的情况下,单个处理器计算能力和内存容量是有限的,所以解决方案提出了由多个处理器并行处理(2- - - - - -5]。最常见的办法是将大规模数据集划分为多个数据子集,足以单机处理和分发这些子集的单处理器节点进行处理。当每个节点分配本身数据子集的处理完成后,相应的结果进行了总结和合并,最后的结果是整个数据集的处理结果。与单个处理器相比,多个计算节点的并行数据处理模式在多个处理器可以显著提高网络营销的效率预测(6- - - - - -8]。

网络营销预测的主要思想是分配计算任务在许多计算机组成的一个虚拟的资源池,各种应用系统可以获取计算能力、存储空间和各种软件服务。本文的研究假设是部署云计算平台和并行化聚类算法MapReduce而优化的细节,如数据分割、任务分配、并行处理和容错。由于各种聚类算法,本文仅从k - means聚类算法,结合了传统的k - means算法与树冠算法,并对以上两种算法根据MapReduce编程模型(9]。改进后的算法应用于互联网云计算平台。通过SogouC数据集和中国的数据集,执行营销节点聚类处理。实验结果表明,该并行MapReduce算法大大提高了运行速度。因此,树冠算法聚类大型数据集的能力比k - means算法(10- - - - - -12]。

针对千米的缺点在聚类算法和BKM算法,提出了一种合作二分k - means算法(CBKM)基于集群合作的想法。该算法主要分为三个阶段:整体集群,集群合作和融合。该算法实现同步的中间合作通过公里BKM生成过程中CF树。通过引入类似的直方图的概念,它可以直观地反映元素之间的附着力集群。根据类似的直方图相似子类,融合因子计算的两个子类,最大的两个集群融合因子值合并,和集群更新。总之,欧几里得距离仍然选择为主要函数聚类的相似性度量。这一过程产生的聚类结果可以有效地避免集群的生成碎片。因为子类的交集是合并和集群,它有效地提高了k - means算法初始聚类中心的影响。最全球解决方案不是一个局部最优解。

随着互联网技术的发展,网络已经越来越影响人们的生活。网络上的信息主要以声音的形式存在,节点,等等。其中,以节点为运营商的信息量最大。我如何有效地营销节点信息已成为近年来一个重要的研究课题。营销节点集群可以组织和管理大量的营销节点,这在很大程度上解决了信息爆炸和信息所造成的混乱的问题。

Ghayekhloo et al。13)提出了k - means算法、UPGMA CLARANS和其他算法没有收到关注。他们只关注近年来,取得了更大的发展。在新的世纪里,随着互联网的快速发展,数字图书馆和电子商务的广泛使用,营销节点集的规模逐渐扩大。提出了一些新的算法,如联邦贸易委员会,HDFA和葬礼。当前对聚类算法的研究越来越深入,更精致。根据聚类的特点,它可以分为划分算法,hierarchical-based,基于模型,density-based和基于网格的方法。锅等。14]提出了SWT(笔划宽度转换)特性特别适用于营销节点。然而,人为定义的特性,比如女士和SWT不适合场景节点具有极其复杂的背景。从那时起,深度学习技术的快速发展,越来越多的研究人员深入学习引入网络营销节点检测的任务。网络营销节点检测包括两个步骤:营销节点区域定位和节点识别。一个 规模水平差异过滤器是用来获取场景的垂直边缘节点。然后,分离节点部分与低频增强的空间域滤波技术。最后,一些先天的启发式知识、面积比、长宽比等,过滤掉非市场节点区域。毛等。15)提出了一个方法,提取视频营销节点,使用多分辨率节点输入解决节点大小在节点的问题,然后利用改进的Sobel算子获得节点的边缘和执行节点处理。基于边缘检测的方法有一个相对准确的检测效果为节点与一个相对标准营销节点格式,如印刷字体在节点。

Veeresha et al。16)提高了系统来提高分类精度。他们提议使用自顶向下,逐层分类。根据概念词典,同义词的概念映射到一个单一概念词,和特征向量的维数降低减少计算量。它是基于SWT特性提出的人特别适用于营销节点,以及上述特性的改善和扩张。大多数同一行中的节点都有相同的亮度和颜色。基于这一特性,黄等。17]女士特性应用于现场营销节点定位。女士特征提取算法使用分水岭提取区域的想法大致相同的亮度值的节点,节点的特性。然而,女士在复杂情况下特征提取算法具有非常有限的影响如不均匀照明。研究人员提出SWT(笔划宽度转换)特性,特别适用于营销节点。SWT特征提取算法认为一个节点有一个基本的特性;即,每个节点的中风笔划宽度大致相同。SWT使用一阶差分法来计算笔划宽度值与大致相同的节点,结合像素笔划宽度值到一个连通域寻找节点的位置(18- - - - - -20.]。

3所示。网络营销预测模型建设基于平行的k - means算法

3.1。平行的k - means算法流

k - means算法(公里)的聚类效果受初始聚类中心的影响,很难有一个统一标准的选择k值,初始聚类中心的选择对聚类将有更大的影响,和异常值的存在会导致许多问题。很难找到全局最优解。集群是一个灵活的自动处理机制,不需要手动标记节点类别事先不需要培训。它是一种无监督学习方法(21- - - - - -23]。正式的描述如下:给定一个数据集X和测量的距离或相似d之间的数据点,发现该部门的数据集X。图1是平行的k - means算法的过程框架。

我们对目标市场营销执行节点预处理节点集。这个阶段包括分词等操作,删除住的话,和遏制。接下来,我们提取特征项,减少物品的尺寸特性,选择营销节点表示方法,构造特征空间,形成文档向量,选择距离和相似性度量,最后执行营销节点聚类过程获得的聚类结果:

分层的方法分解的数据集分层次通过分裂或凝聚力。首先,我们把所有的数据点的数据集到一个集群,然后把这个集群分成两个集群根据一定的原则:

一般来说,采用最优目标函数值的原则,然后经过多次分裂,直到收敛迭代函数是稳定的。这种自上而下的不能调用方法分割方法。然后,凝聚力方法首先将每个数据点进行分类,然后合并一个接一个的类别根据一定原则直到某个终止条件满足:

营销节点矿业不是一个简单的任务。它处理非结构化或半结构式营销节点数据,其中大部分是模糊和缺乏一个明确的形式。因此,完成文本挖掘的过程中,需要结合多种学科,包括营销节点分析。因此,传统的网络营销预测技术不能完全应用于矿业领域的营销节点。为了解决这个问题,营销节点数据集需要充分和有效的预处理:

基本思想是估计的概率关系营销节点和查询和所有营销节点根据概率的相关性。对于一个给定的查询,P代表营销节点的概率相关的查询,和P- - - - - -R代表营销节点的概率不是相关查询:

聚类算法的目的是集群类似的数据到一个类别。因此,测量的相似程度,相似度的定义,也称为邻近,介绍来描述它。与测量的距离,相似性度量的值越小,越小个人之间的相似性和差异越大。

余弦相似度计算两个向量之间的夹角的余弦值向量空间。的有效价值中的余弦值向量空间范围从0到1。0意味着两个向量是完全独立的,和1意味着两个向量的方向是完全相同的。此外,这些缺点是可以克服的提前通过标准化函数或集群的特定函数的导数。与距离测量相比,余弦相似性不关注距离和长度方向的差异。

3.2。互联网数据聚类

网络营销预测是指提取知识是有价值的,人们从大量的随机的,不完整的、模糊的,和嘈杂的数据,充分利用节点和信号处理、统计学、模式识别、机器学习、理论和方法在各个领域,如信息检索和数据库技术:

营销节点矿业在网络营销预测是一个重要的研究内容,主要包括营销节点分类和营销节点集群。聚类是将数据集划分为不同的类或集群根据一定标准(通常是一个距离准则)的相似性数据对象在同一集群是尽可能大。与此同时,数据对象的差异并不在同一个集群也尽可能大。换句话说,聚类后,同一类别的数据应该尽可能聚集,而不同的数据应尽可能地分开。聚类分析是数据分析的基本方法,并得到了广泛的研究和应用在许多领域,如市场或客户细分。图2显示了网络营销的分类预测节点。

在测试分类阶段,测试样本集和测试样本的类别是用来评估之间的一致性程度,分类器和目标函数。每个元素的墨水也标有相应的类别yC。具体过程是对每一个测试样本进行分类与前面得到的分类器最后评估分类器根据分类结果:如果测试集上的分类性能未能达到预定的目标,然后再回到训练阶段和使用更多的样本重新学习或修改学习算法;如果测试分类性能达到了预定的目标,然后分类器可以应用于自动分类的新营销节点进行分类,假设有一群粒子在一个D维目标搜索空间。同时,这种方法也有缺点和不足。聚类质量极大地影响粒度的最低水平,和聚类精度不是很令人印象深刻。组中,每个粒子对应于优化问题的一个解决方案,一个健身价值是由目标函数,而速度是用来确定解空间中粒子的运动。在每次迭代中,粒子将跟踪最优解目前发现本身和人口和迭代搜索,直到最后获得问题的最优解。

3.3。市场预测分类指标

在营销的过程中预测分类,当面对高维数据和大型数据,传统的单机计算模型不能提供有效的单位时间内处理的结果。由于在单处理器的CPU的计算速度瓶颈,由多个处理器并行处理技术得到了广泛的应用。传统的并行计算是高性能计算系统上执行操作,如并行计算机或分布式计算机。通用并行计算集群包括系统由多个单一处理器。该系统依靠提高单个处理器的性能提高并行系统的整体性能。以及网络性能,这种并行指令级并行性。还有线程级别的并行性,利用多核处理器来减少能耗和提高核心之间的延迟。图3显示了营销的分类和测量过程的预测。

每个类的对象是一组由一个子集的维度,和不同的类可以由不同维度的子集,所以有一个子空间集群发现分类而不是在整个数据空间的子空间数据。子空间聚类的隶属度是由对象的类,每个类的子空间。的出发点是考虑文字和类别之间的关系特征。大特性之间的相关单词和某个类别,他们应该保留的功能这一类的话语。关联分析是发现项集之间有趣的关联或相关联系从给定数据集。如果有两个或两个以上的变量的值之间的某些规律,它被称为一个协会。关联分析的目的是找出数据库中隐藏的关联网络。一般来说,两个阈值的支持和信誉是用来衡量两个元素之间的关系。预测是找到法律变化的历史数据,建立模型,用模型来预测新样本数据的类型和特征。预测在一般意义上是指利用回归方法预测连续或命令值。预测涉及的准确性和不确定性,这通常是衡量预测方差。

3.4。迭代优化模型权重

营销节点分类的过程是指确定一个类别为每个营销节点组营销节点基于预先确定的主题类别。营销节点分类是一个典型的机器学习问题。分类的目的是让机器学习分类规则,可以将网络营销节点映射到一个或多个现有主题类别来帮助用户快速、准确地找到它需要营销节点。营销节点分类一般分为两个阶段:训练和分类。其中,计算和查询是相互独立的,互不影响;其结构有利于并行处理。一般对于一个好的划分标准如下:同一个类中的对象应该尽可能“关闭”或相关,在不同的类和对象应该是“远”或尽可能多的不同,即使下面的准则函数是最小的。图4显示了迭代模型权重的分配。

聚类特性是三个一组,总结了subcluster给定对象的信息。集群特性是一个高度平衡树,树存储层次聚类的特点。一个特殊的聚类算法用于集群CF树的叶节点。稀疏的叶子节点分为异常值和删除,和密集的集群是合并成更大的集群。这个阶段是宏聚类阶段。对象插入到最新叶条目。如果这个操作破坏了CF的平衡树,您可以使用一个方法类似于B +树结构动态调整的结构数量再次达到平衡。模糊集方法是一种方法,使用模糊集理论进行模糊评估、模糊决策、模糊模式识别、模糊聚类分析实际问题,是一种有效的方法来处理不确定问题在前面的应用程序。系统的复杂性越高,就越模糊。模糊集合理论使用隶属程度来描述模糊事物的性能。 These technologies can be used to examine abnormal forms of data and then use various statistical and mathematical models to interpret these data and explain the market laws and business opportunities hidden behind these data.

4所示。应用程序和网络营销的分析预测模型基于并行k - means算法

4.1。并行数据特征降维k - means算法

为了验证聚类算法的聚类结果的有效性本文四种常见外部指标(F-measure,熵、纯洁和交互信息)主要是用来评估聚类结果。根据分层聚类的两个方向,可以分为两类。(1)自底向上聚合方法:开始的时候,每个对象被视为一个单独的组,然后类似类别合并先后,直到满足终止条件。(2)Self-grouping:自顶向下的分裂方法最初将所有对象作为一个整体,然后逐渐分裂成更小的类别主要类别直到它们分为k组或其他终止条件。数据集:我们选择训练节点集D和测试节点集TD包含六个类型的节点共有150篇文章,和T包含六个类型的50篇文章共有300个节点。噪声组:我们选择共有20节点不属于任何上述六大类形成一套噪声N。网络结构:150在输入层节点。输出层的规模是10×10,15×15、20×20。图5的数据分区并行k - means算法。

我们选择n节点的噪声N并将它们添加到训练集D。噪声的数量比原始训练样本的数量x% (n/ 150)。我们训练的SOM网络相同的配置,也收集数据分成6类。然后,我们使用t分类错误数的比例以及营销节点。支持向量机方法的实验结果可以看出,T-SVM。支持向量机方法在各种性能指标非常相似。性能值的三个基本接近平均宏观和微观方面的平均水平,这是我们最常用的指标评价分类器的性能。指标在94%和95.5%之间波动,差别并不大。这证明了基于成对聚类支持向量预选方法与已知类别信息可以显著降低分类器的性能一方面。其优点是不需要事先确定目标集群的数量,它具有良好的抗噪声,同时,它还可以过滤掉。训练时间,另一方面,基本上没有不利影响最后的支持向量机的精度,表明这种方法具有一定的优势。

4.2。网络营销预测模型模拟

为了验证和评估算法的性能,本文构建了一个系统平台营销节点的聚类分析。该系统主要由三个模块组成:预处理模块,模块中,向量空间模型表示和聚类模块。预处理模块主要负责预处理营销节点。向量空间模型表示模块主要负责代表节点以一种可以被计算机。聚类模块集群处理营销节点。系统的实现主要分为以下三个模块:预处理模块,模块中,向量空间模型表示和聚类模块。预处理模块还包括以下子:分词,停止词删除,词频统计和特征选择。三个模块对应于输入预处理营销节点,支持向量机模型和聚类结果。这个实验的实验环境是AMD4000 +, 2 g内存,Windows XP, vc++ 6.0。网络营销预测绩效评估的结果如图所示6

可以直观地看到,CBKM算法的价值高于其他两个算法的互信息,纯洁,和F度量指标。BKM算法具有更高的价值比k - means算法这三个指标,这表明CBKM有最好的聚类性能选定的测试集,BKM第二,公里算法最坏的打算。CBKM算法的性能得到了改进,因为它使用公里BKM算法算法和聚类算法相交所产生的聚类结果这两个算法来生成聚类的子集,这些子集重新组合成新的。图7显示了营销的规范化分布阈值节点集。

随机选择9000名培训节点的节点库培训。这些训练节点包括5类:环境、计算机、教育、经济、体育。随机选择3000个测试节点的剩余部分节点库进行测试。扫描后的词频营销节点,我们仍然需要做一个非常重要的工作,那就是把停止的话。的停止词营销节点通常是作为一个预处理操作营销节点处理(包括营销节点分类,营销节点过滤和营销节点汇总)。如果它是包含在停止词汇,我们从营销节点删除这个词同义词典,然后把这个词。中的下一个词集仍然是停止单词列表,直到这个词相比营销节点处理。为一个特定的示例中,只有内核SOM算法对应于特定的内核函数可以显示它的优越性。

4.3。例应用和分析

我们第一次使用这个软件ICTCLAS分词的分词处理营销节点,然后扫描整个营销节点根据分段节点,也就是说,计算所有节点出现的次数在营销节点,即培训营销节点的功能。在这个实验中,词频统计处理营销节点通过c++语言实现,并统计结果存储在数据表的访问。给定一个数据库,其中包含n对象或原始组,划分构造方法k数据的分区,每个分区代表一个集群,kn。其优点是不需要事先确定目标集群的数量,它具有良好的抗噪声,同时,它还可以过滤掉。换句话说,它将数据划分为k组,同时满足下列条件:每组至少包含一个对象,每个对象必须只属于一个组。这种方法非常适合于发现球状星团。为了大规模集群数据和处理集群复杂的形状,而基于分区的方法需要进一步扩大。图8是矢量数据聚类曲线的营销节点。

每个营销节点矢量以来TF-IDF后重写方法流程每个特性的重量的话,每个维度的权重向量代表的营销节点大于零和矢量的模等于1。所有营销节点向量的节点集落在一个单位超球面的半径l只落在超球面的一部分,所有维度的值是积极的。简化为最简单的情况下,如果向量的维数是2,那么所有营销节点向量只落在单位圆的第一象限,弧和分布结果。因此,本文可实现营销节点矢量,在此基础上使角余弦测量和欧几里得距离相当于营销节点归一化处理后,密度半径一定的营销节点向量确定。方便使用二进制搜索方法。图9的密度分布的矢量信息价值营销节点。

首先,我们计算每个节点的互信息值,然后安排条目按照降序排列的互信息值,并提取组节点的互信息值大于某个阈值的功能词集。通过提取出的特征以这种方式培训营销节点集,我们得到1000功能节点来表示向量空间的培训营销本文使用的节点集。第一列是特征向量的营销节点提取基于互信息值。第二列是特征向量的频率在当前营销节点。第三列是特征向量的词频在整个训练集和记录特征词汇的互信息值。第四列是规范化IDF特征字的值表示包含在当前的营销节点。第五列对应于一个向量(即。,the vector representation of the current marketing node). It is the input part of the marketing node when the marketing node is classified. Using the pairwise clustering preprocessing method based on the known category information proposed in the fourth part of this paper, the time overhead in the cluster preprocessing stage is relatively large (it takes 394.4 seconds to perform the cluster preprocessing stage), so that the samples involved in training support vector machines are greatly reduced compared with the two methods of SVM and T-SVM, so that the time cost of the support vector machine training phase is much smaller than the time cost of SVM and T-SVM training support vector machine. Therefore, the total time cost of training the classifier in the B-SVM method is the smallest.

5。结论

基于并行k - means算法,本文提出了一个解决方案为集群在互联网上大规模数据的分布式计算平台。互联网盾牌分布式计算的底层实现细节,方便用户部署互联网平台。同时,由于技术手段的使用等多节点冗余备份和自动负载平衡,互联网已经低要求的硬件环境和发展有一个光明的未来。均值聚类算法充分利用已知条件的培训营销节点类别信息,减少了不支持向量在尽可能多的训练样本训练样本预处理阶段的成对集群,这样他们就可以最终参加培训的支持。样本向量机的数量大大减少,从而生成一个营销节点分类模型的分类精度相当于传统的支持向量机分类方法和有更大的改善时间复杂度。同时,在互联网平台上,传统的k - means算法是根据MapReduce编程模型,重新编程和树冠MapReduce算法是并行的。可以完成营销的集群节点大规模数据集在一个廉价的平台。本文还实现了一种改进的支持向量机分类的营销节点。因为选择惩罚因子和核函数参数的支持向量机的分类效果有很大的影响,本文首先利用粒子群优化算法优化惩罚因子和核函数参数,然后使用支持向量机分类支持向量机分类的有效性。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称他们没有竞争的经济利益或个人关系这可能影响本研究报告的工作。