文摘

大数据(BD)的时代已经到来。如何培养模型中找到相关数据和帮助人们做出决策已成为一个主要的研究课题和方向。作为一个弹性和可伸缩的分布式计算模式(指的是由多个相互连接的计算机组成的整体配合执行一个共同的或不同的任务在一套系统软件环境中,以最小的依赖集中控制流程,数据,和硬件),云计算可以提供强大的计算和存储能力,并已广泛应用于双相障碍处理查询和困难。本文旨在研究该算法在云计算的环境。与传统研究的算法不同,关系BD算法实时可控。此外,它一直在优化和升级之前的实时控制算法。此外,它执行串行和并行算法仿真测试。当最优情况的并行算法,试验结果表明,有关矿业的优化算法明显比传统的数据挖掘时间短在相同的数据集。传统的开采时间约3.5倍的数据挖掘时间,和的运行功耗优化算法减少到20 W。

1。介绍

电脑和互联网加速了改变和传播信息。信息爆炸的时代的出现也促进了从光盘存储技术,转换芯片,和卡存储磁盘阵列,甚至今天的大规模网络磁盘阵列存储。数据存储和数据处理方法的快速发展加速了BD的到来。一般来说,BD是巨大的数据和复杂的结构,巨大的数量,不同的类型、密度和低价值。他们的规模太大了,被理解。从计算机科学的角度看,BD指各种结构化和半结构式数据的集合。从一个流行的观点,BD指大规模的数据集合。与传统的数据,这往往会发现为什么事情发生,BD的优势预测会发生什么。寻找因果关系不是帮助用户做出决策,并找到之间的关系更有价值的东西。例如,人们更多的重视,当机票更便宜比飞机的价格变化的原因。暗示了BD的关系更值得社会的探索。

双相障碍关系数据主题挖掘是指矿业的隐式关系数据库中的每个数据项。挖掘频繁项集(最基本的模式是一项集,它指的是一组几个项目;频繁模式参考项集、序列或子结构,频繁出现在数据集;频繁项集是指集支持大于或等于数据库事务集的最小支持)是关联规则的一个重要组成部分和主要目标。数据库中的每个数据项之间的关系可以通过挖掘关联规则,明确表示这是人们容易理解。使用云计算我的双相障碍的相关性是一种有效的、低成本的方法。静态算法只能处理一些常规的数据。对于一些需要紧急处理和高风险的地方,比如应急消防监控、舱室气体监测、静态算法等等,显然不足以满足需求。尽管当前的动态算法可以实时控制数据,这些算法需要进一步优化和升级为了计算的数据更准确,甚至最小的错误。

本文的创新在于动态实时可控的数据算法的使用。该算法具有较强的适用性和广泛的使用,和数据随时可以看到。此外,本文优化的基础上,以前的实时控制算法,加快了数据的检测速度,使得数据更新更快,使计算结果更准确。

双相障碍的研究和开发如物联网、互联网,和医疗保健,越来越多的学者已经进入双相障碍的研究。其中,普伊格等人应用数据分析帮助欺诈检测和维护需求预测。普伊格等人介绍了新算法和方法(1]。钱等人收集实时的观察每小时平均波高、温度和压力在Maidao站在青岛,中国。使用八个质量控制方法,探索了数据质量和鉴定小麦路站的最有效方法。使用八个质量控制方法后,平均波高,温度和压力数据通过了测试的百分比为89.6%,88.3%,和98.6%,分别为(2]。Puthal等人称之为一个在线安全验证问题。为了解决这个问题,Puthal等人提出了一种基于动态密钥长度的安全框架(DLSeF)。DLSeF框架的理论分析和实验结果表明,该处理流数据可以显著提高效率(3]。为应对这些挑战,任正非等人提出了一个车间材料交付框架。他们研究了该框架的关键技术。演示的实现框架,提出概念场景设计演示的实现框架(4]。保等人提出了一个新颖的伽马调整垂直增长速度控制方法,一个方法估算等离子体垂直不稳定。实验结果表明,实时的时间演化垂直增长率符合目标值,并实时垂直增长速度可以调节图像灰度控制(5]。简森和曼引入了反馈控制方法,自动调整多重曝光设置合成增加感知过程的动态范围。是合成捕获以最小的不确定性非常高动态范围(6]。上述学者的研究可以促进大数据在某些方面的发展,但相关研究和大数据的实时控制并不深入和完善,需要进一步优化。

3所示。基于云计算的数据控制算法

3.1。云计算
(1)起源。2006年8月,谷歌首席执行官首次提出“云计算”的概念在2006 SES圣何塞会议。后这个概念正式提出了云计算的历史,它引起了很大的轰动7]。(2)定义。云计算还没有统一的定义。根据NIST的改进,云计算是一个模型,可以获得所需的资源从一个共享的可配置的计算资源池在任何时间,任何地方,方便,和需求,资源可以快速提供和发布8,9]。它最小化管理资源或与服务提供者交互的努力(10,11]。云计算的原理图所示1(3)特性。云计算的主要特点如下。首先,没有人力资源,用户可以使用现有的计算资源的服务提供者。它包括处理能力、存储空间,或应用程序而无需人工交互。第二,它很方便和快速,在云计算系统的资源可以随时访问和使用,任何地方。第三是信息共享。服务提供者可以组合的计算资源来提供服务,和这些组合资源可能分布在世界各地的多个数据中心。与此同时,提供者的计算资源可以共享,由多个用户使用。四是资源付款。用户可以使用这些计算资源灵活。 A user can apply for more resources when they are needed and can release them when they are no longer needed. From the user’s point of view, these resources are unlimited, and users only pay for the resources they use. The fifth is strong adaptability. The cloud computing system is an adaptive system, which can automatically balance the load and optimize the utilization of resources and can update resources adaptively with the changes of the data age. Users can also monitor resource usage [12- - - - - -14]。(4)分类。据类型,有软件(SaaS)、平台(PaaS)和基础设施(IaaS)。有私人类型,公共类型、混合型和社区类型根据方法。三种服务类型的具体内容如表所示1,应用程序部分的四个服务方法如图2(15]。(5)核心技术。云计算的核心技术主要包括编程技术和信息安全技术。其中,前六技术是最重要的16]。(6)应用领域。云计算技术是常用的在今天的互联网服务。最常见的是在线邮箱(如谷歌和百度)和在线搜索引擎。用户可以搜索他们所需要的资源在任何时间在他们的移动设备和通过网络共享数据资源云。同样适用于在线邮箱,发送和接收电子邮件使用是一个冗长费时的过程。云计算和网络技术的普及,电子邮件已成为社会生活的一部分。只要是在网络环境中,可以实现实时传递邮件。目前,主要应用领域可分为存储云(如微软,谷歌,和其他大型网络),金融云(如阿里巴巴阿里巴巴云、腾讯金融云,等等),教育云、医疗云、等等。如图所示的细节3(7)面临的问题。目前,云计算面临的几个问题主要包括严重的信息泄露,用户无权访问,数据系统不全面,没有健全的法律保护。要解决这些问题,我们必须首先完善法律制度,宣传法律安全的意识。其次,正确使用访问权限,数据系统是全面改善17]。
3.2。双相障碍的相关性
(1)双相障碍的定义。一般来说,在不同的需求下,需要时间处理范围是不同的18]。图4显示了一些双相障碍的重要用途。(2)双相障碍的特点是结构复杂,数量巨大,不同类型和低价值密度。目前,BD正在改变从计算一些数据到分析数据,从微观计算结果发现宏观趋势,从探索因果关系探索相关的信息。(3)双相障碍的核心技术。BD的核心技术包括BD收集技术、存储技术、采矿和分析技术和可视化技术。如图所示的细节5(4)BD的主要应用领域包括电子商务行业,金融行业,生物技术、智能政府、教育行业、交通行业、医疗行业等。这些主要应用领域的使用比例如表所示2。这里的数据应用的比例从公共信息编译。(5)双相障碍的关联规则。本文研究双相障碍的相关性时,首先分析了BD的属性。BD指大量未过滤的数据的集合。他们可以理性地表达客观事物在许多方面,如文字、符号、字母,形状,等等,所有的数据都以不同形式表达式。数据存在于数据值和数据结构和大量的数据形成一个复杂的网络。在网络中,数据的价值是其信息实体,和数据结构可以被视为实体之间的关系。数据可以包括时间和空间之间的关系协会,实体和虚拟协会网络级协会等等(19- - - - - -22]。

时间和空间之间的关系是指描述数据的属性使用空间和时间,这有利于人们的数据挖掘。时间相关通常可以分为时间点和时间段,和事物的发展和变化的表达式需要由时间属性。空间相关性主要是用于地理数据的可视化,更有助于人们理解当选择背景的熟悉地图基于地理信息的可视化。如图6,没有双相障碍相关性在时间和空间23,24]。

实体关联中经常使用可视化表示实体与不同的视觉表示。实体属性BD通常可以改变和组合的三种类型的实体属性:类别属性,间隔属性和数值属性。虚拟和现实的结合BD可以更方便地检测和控制实体,如图7

3.3。BD实时控制算法

所谓的实时可控性BD是监视和控制这些数据在终端随时随地。

以k - means算法为例,假设数据集群的中心 ,然后 在哪里 集群和数据的数量 p-dimensional的对象数据。

两个数据的欧氏距离 在哪里 是另一个对象P-dimensional数据。

从集群中的所有数据点的平均距离中心点叫做星团内相似,可以表示为 在哪里 代表集群,内心越小,相似度越高。

集群和集群中心之间的最小距离称为intercluster相似,它可以表示为

ext越小,相似度越高。相反,它是小的。

以最近邻算法为例,假设数据集U, 代表数据,属性的数据x

然后,有

规范化得到

根据信息熵理论(信息熵是衡量的不确定性信息;更大的不确定性信息,信息熵就越大,价值就越大的信息),每个属性的表达重量 在哪里 表示矩阵的重量;然后,j属性的重量

任意两个数据的加权距离的数据集可以表示为

然后,距离之和所有的数据集

相邻的距离标准数据集 ;然后,

设置数据的社区 ;然后,

为了确定数据集的数据或函数是否在附近内容、定义

假设数据的概率 出现在附近空间剩余的数据 ,然后

4所示。测试的动态优化算法K价值

4.1。实时可控的优化算法对双相障碍相关

本文结合了邻近算法来确定动态K价值的k - means算法,构建网络模型的相关数据。施工步骤如下:首先,整个数据集是集群,集群算法应用于它。获得的聚类结果进行调整。然后,使用每个集群的数据集,执行相应的聚类和调整。执行这一步迭代每个结果subcluster直到数据网络建设(25- - - - - -27]。

假设网络空间由一个或多个数据有两个最小外接矩阵一个1一个2,然后边长度之间的关系,两者之间的距离可以如图8

然后,新空间的面积最小外接矩阵获得的两个

当点的中心一个1一个2保持不变,可以扩展的公式

可以从这个新建的最小外接矩形的面积与最小的外切矩形的面积和周长组成。

根据前面的近似算法和k - means算法,可以获得两个限制矩阵之间的距离: 在哪里年代是区域和C周长。

摘要参数 介绍了基于公式(11)数据优化,即:

为了优化每个数据之间的集群效应,集群的数量价值的任何子节点数据的中间节点

4.2。优化算法仿真测试

首先,串行算法模拟,介绍了改进的邻k - means算法运行在这个主题下,和Oracle数据库的具体表现(Oracle数据库系统是一个流行的关系数据库管理系统;系统具有良好的可移植性、使用方便和强大的功能,适用于各种大、中、小型计算机环境;这是一个高效、可靠和高通量为挖掘数据记录数据库解决方案)。串行和并行算法我相同的数据集和不断增加的数据集的大小,和两种算法相同的阈值,必须测试不同的数据集,共6次。仿真参数如表所示3,实验结果如图9

从图9,实验结果表明,随着串并联算法处理的数据规模逐渐增加,内存消耗的串行算法逐渐增加。当数据规模达到约39米,串行算法将报告内存不足,无法完成关联规则挖掘,而改进的并行算法可以完成任务。但自从Hadoop平台运行在伪并行模式中,单个节点的性能是一样的串行算法。此外,并行算法之间需要交互的任务,因此,当数据规模很小,并行算法需要更多的时间比串行算法。随着数据量的增加,这种差距逐渐减小。可以看出并行算法在处理大型数据集时更有利。

然后,优化算法和传统算法进行了仿真和测试完全分布式模式中使用并行的方法。相同的阈值也将两个算法:δ= 0.2,δ= 0.6,δ= 0.4,不同的数据集进行测试6次。仿真参数如表所示4,结果如图所示10

从图可以看出10相比之下,传统的云计算,本文的优化算法显著降低挖掘时间数据相关性。当的数据量达到40 MB,传统的云计算大约需要700年代,虽然本文的优化算法只需要大约200年代,和传统的云计算的时间大约是3.5倍。此外,在功耗方面,本文算法的功耗优化总是低于传统的云计算,两者的区别是大约20 W。

5。讨论

本文所做的工作完全是针对算法,但算法的研究是其效果最大化。如果只有动态算法来取代静态算法,随着高速和多核处理器的出现,这一研究可能不具有重要意义。因此,如果本文研究可以应用于协议,它可能有更大的实用性。

本文改进算法仿真时,因为数据集还小,预计后续工作的数据集将被放大,然后模拟显示改进算法的优点。目前,大多数数据操作系统中依靠人工安排的数据信息,而不能被大多数用户更好的使用。它不能设计和实现完全自动化操作,为用户提供一个良好的界面,并不能直接获得数据挖掘结果。

随着社会的发展,市场日益渗透到人的日常工作,生活,和各种对安全性要求苛刻的应用程序环境。特别是,移动电子产品的快速发展和移动互联网应用带来了新的研究课题为节能和可靠性优化的实时系统。为此,不断深入研究和实际工作需要适应和优化实时控制算法。

6。结论

在研究实时可控的BD的优化算法,本文首先解释了BD的时代的背景意义抽象的部分。然后,本文解释了本研究的目的和所使用的理论算法。然后,本文解释了BD背景的研究价值和云计算的参考部分。本文展示了许多学者的相关研究在BD的实时优化控制技术,分析他们的研究他们的研究成果和不足之处。

在理论研究部分,本文首先介绍了云计算。它包括其来源、定义、特点、分类、核心技术、应用领域,以及云计算面临的挑战。然后,介绍了概念、特点、核心技术,主要来源,BD的关联规则和解释了图表的帮助下。

最后,在算法设计的优化和升级,提出了近似算法和k - means算法的结合。它是通过并行计算优化和升级。经过几个性能参数的仿真测试,获得的结果与传统的云计算,和本文提出的方案的优点。

数据可用性

的数据支持本研究的发现可以从相应的作者在合理的请求。

的利益冲突

作者宣称他们没有潜在的利益冲突的研究,本文的作者,和/或出版。

确认

本研究支持下由中国浙江省自然科学基金批准号LGG20F020013 (Rutao Li)。本研究也支持中国西部师范大学优秀人才基金(没有。17 yc497) (Zaiyi Pu)。