文摘

空间数据占据了很大一部分的大量的数据不断涌现,但大量的空间数据不能直接被人理解。甚至一个高度配置独立的计算设备很难满足可视化处理的需要。为了保护数据的安全,促进用户搜索数据和恢复的错误,本文进行研究云计算存储备份和恢复策略基于安全物联网和火花的平台。在方法部分中,本文介绍了安全物联网,火花,和云计算备份和恢复相关内容,提出了聚类分析和Ullman两个算法。在实验部分,本文解释了实验环境和实验对象和设计一个实验进行数据恢复。在分析部分,本文分析了challenge-response-verification框架,数据包的数量,计算和沟通的成本,引发方法的选择,不同的平台的吞吐量,迭代和缓存的分析。实验结果表明,在第四节点数据库1的损失率为0.4%,2.4%,1.6%,和3.2%,每个节点的损失率小于5%,表明该系统能够对应用程序。

1。介绍

物联网被称为信息技术的第三次浪潮之后,电脑和互联网。目前最流行的一种科学研究领域的沟通和信息。随着物联网应用的出现,信息安全问题也随之而来。用户想要进行信息系统安全检查和早期预警也需要安全服务和软件支持和需要大量的投资在培训专业团队完成相关任务。另一方面,有越来越多的类型的安全产品,和供应商的产品标准是不同的。用户选择安全产品时遇到困难。在这样的环境中,特别重要的是提供一个安全体系结构,重点是应用程序层。

与互联网和计算机技术的发展,网络的规模和应用需求和经济的发展孕育了一个新的网络计算模式,云计算,已越来越多地出现在人们的视野,人们已经悄悄地进入“云时代。“云计算有机结合各种技术,如虚拟化、分布式计算和存储,和多样化的终端和各种传统的软件集成资源、存储和计算资源通过网络连接起来,形成一个“超级计算机”与一个巨大的资源池,也就是云。在云中,人们可以使用各种软件和硬件资源在云中自来水一样方便,只需要喝像自来水一样,不需要传统的存储或维护的水,并只喝饮料。资源按需付费。

基于安全物联网和云计算引发存储备份和恢复策略,国内外许多学者进行了相关研究。库马尔认为,物联网是一个新兴技术,可以将日常用品连接到互联网。物联网技术对不同技术提供一个接口。新应用程序的帮助下可以实现嵌入物理设备与智能思维能力,发挥着重要的作用在连接到互联网。物联网网关必须足够聪明来执行收集操作基于各自的应用程序。作者提出了网关π,一个物联网智能安全网关框架集成了覆盆子π。这个建议确实使物联网网关智能的东西,它像普通电脑运行。除了本地网关功能,本文还强调了物联网的安全网关。作者提出了三个措施提供安全物联网网关,使网关防火墙和使用网关π实现一个具有成本效益和可靠的物联网架构智能灌溉。在这项研究中,作者对物联网网关进行研究,旨在提高物联网的安全,但是作者没有画相关框架图(1]。玛丽认为,云计算,从敏感数据的可靠存储的角度和存储服务质量,存储大量的信息是一个非常具有挑战性的任务。在不同的云安全问题,数据灾难恢复能力是最关键的问题。经济复苏的动力技术是帮助用户从任何备份服务器时,服务器收集数据丢失数据和不能提供数据给用户。为了实现这一目标,许多类型的研究开发了不同的技术。因此,作者提出了一个数据灾难恢复能力过程使用反对派组织搜索优化器(OGSO)算法,主要是为了避免灾害在云中。提出了数据恢复过程包括四个模块:(1)文件上传模块,(2)复制生成模块,(3)数据备份模块,和(4)灾难恢复模块。首先,作者把数据分割成多个文件,上传文件到相应的虚拟机使用OGSO算法。然后,生成一份基于每个文件的带宽。主要用于数据备份策略的副本。 Finally, files based on user queries are backed up and retrieved based on copies. Experimental results show that the proposed OGSO-based data disaster recovery process is better than other methods. The author conducted research on storage issues in cloud computing but did not discuss security issues [2]。Interlandi M调试数据处理逻辑在一个可伸缩数据密集型计算(盘)系统是一个困难和耗时的任务。今天的盘系统提供了很少的工具对于调试程序,因此程序员花费无数个小时收集证据(例如,从日志文件)和执行试验和错误调试。协助这项工作,作者建立了提香、图书馆,使数据源通过转换在Apache火花跟踪数据。数据科学家使用提香火花扩展能够快速识别潜在错误或异常的根本原因导致输入数据。提香直接构建到火花平台并提供数据源支持交互式速度的几个数量级的速度比替代解决方案,同时对火花产生最小影响工作表现;观察到的开销用于捕获数据沿袭很少超过基线工作30%的执行时间。作者进行了程序调试的火花,但没有比较这些平台与其他平台(3]。

本文提出了云计算的存储备份和恢复策略基于安全物联网和火花,进行相关研究。在方法部分中,本文介绍了安全物联网,火花,和云计算备份和恢复相关内容,提出了聚类分析和Ullman两个算法。在实验部分,本文解释了实验环境和实验对象和设计一个实验进行数据恢复。在分析部分,本文分析了challenge-response-verification框架,数据包的数量,计算和沟通的成本,引发方法的选择,不同的平台的吞吐量,迭代和缓存的分析。本文的创新是把安全物联网与火花并使用这两种技术来研究基于云计算的存储备份和恢复策略,以最大化的价值数据。

2。云计算存储备份与恢复策略方法基于安全物联网和火花

2.1。安全物联网

作为一个增值应用信息网络,物联网也是一个扩展的特殊应用程序的通信网络。物联网产业的发展涉及到三个主要元素。首先是识别,这是一个基本前提,其次是沟通,是一个非常重要的支持平台,第三个是应用程序,主要目标和最终目标,这充分体现了物联网本身。在物联网的发展和应用,技术要求非常高,和解决方案也加强物联网的一个重要推动力量实现跨越式发展(4,5]。

1显示了物联网的基本框架,其中包括一个全面的应用程序层,一层网络建设、管理服务层和感知识别层。感知识别层:核心技术的物联网感知技术,这是沟通的关键中心的物理世界和信息世界。检测层主要包括自动数据采集设备,如无线电频率(RFID)和无线传感器,以及各种智能电子产品专用手册信息(6]。网络建设层:这一层的主要任务是连接分析和识别设备的底层网络,上层可以访问该应用程序。物联网是互联网的基础和下一代互联网。各种无线网络提供互联网服务,依靠强大的计算机和大规模存储技术来收集各种大量的数据(7]。综合应用层:随着计算机的不断发展,网络应用也发生earthquake-like变化。文件传输和电子邮件是早期数据服务的关键。从那时起,这种数据服务变得更加广泛应用于以用户为中心的网络应用,如视频图像、在线游戏和社交网络8]。

与此同时,由于大量的终端节点的物联网,物联网本身也有一些缺点,比如物联网系统的互连和内部通信和交流通过网络。尽管任何安全措施,系统不提供任何控制,可以引发各种各样的网络攻击。此外,物联网的传感节点也有低流动性(9]。因此,对于这些安全隐患,提出了一个安全物联网。图2显示了安全监督服务体系。

2.2。火花

火花是一个快速和全面的大型加工机械。足够的内存,火花100倍Hadoop MapReduce运行。即使内存不足,流到磁盘快10倍。这是因为火花支持复杂的DAG数据流驱动电路和记忆。火花在Scala中实现。它结合了面向对象和函数式编程的语言特性。它可以运行分布式数据集地方集合对象一样容易。它运行速度快的特点,操作简单,通用性强,和良好的兼容性10,11]。

火花可以实现数据集的综合和统一管理等不同属性和文本或图形提供了一个计算架构,可以处理实时数据流与普通数据。的帮助下计算框架,集群应用程序的计算速度显著提高。在此之前,计算机程序的计算速度在Hadoop平台在内存中只有百分之一的火花,而程序的计算速度HDFS是只有十分之一12,13]。

火花的具体特点如下。(1)它是快。火花和Hadoop应用程序可以运行在Hadoop。火花可以运行多达100倍的内存。即使在圆盘运行速度增加了10倍。中间数据可以存储在内存而不是磁盘中,这样可以减少重读的时候从磁盘和提高计算效率14]。(2)运行火花构建应用程序支持多种语言,主要是Java, Scala, Python,包括火花在Scala语言编写,有超过80内置高级操作符(15]。(3)详细分析:它不仅提供计算机功能类似于Map和Reduce,但也提供等功能图(16]。

除了火花,还有两个架构,Hadoop MapReduce。作为一个分布式系统架构,可以使用Hadoop来存储和处理大量的数据。它使处理大型数据库通过计算机集群使用一个简单的编程模型。旨在从一个服务器增加到数千台服务器,每台服务器提供了一个本地计算机和存储。这个平台可以被理解为一个计算机集群操作系统,并引发和MapReduce是唯一支持的编程语言操作系统(17,18]。HDFS的导数基于所有计算机文件系统的文件系统。表1Hadoop是一个比较和谷歌的云计算系统。

如图3MapReduce的流程图是Hadoop生态系统的一个重要组成部分。MapReduce是高性能并行计算平台,形成一个分布式和并行计算机集群,包含数十、数百,甚至数千个节点(19]。

首先,MapReduce的图书馆用户程序将输入文件拆分为多个副本,然后开始集群中的程序的多个副本。主节点选择从所有工作节点和非活动节点分配或减少映射任务。分配的工作节点的工作后,它开始读相应的输入部分的内容。输入的内容切分成为每一行键/值对。中间键/值对生成的映射函数存储在内存中的缓冲区。本地磁盘上的数据存储位置返回到主节点,负责传输工作节点的位置信息是减灾工作。然后,它读取保存的数据节点,将执行映射任务然后排序数据。当主节点确定所有节点的Map和Reduce任务完成,主节点启动用户程序和用户代码调用MapReduce回到编辑过程。

2.3。云计算存储备份和恢复

在云计算、数据存储操作的形式提供服务,这使得云计算的数据安全具有独特的特点:(1)用户数据存储在云服务器,上传和下载需要通过网络,这就增加了传输过程中,数据泄漏的风险中。(2)数据存储在一个semitrusted第三方;(3)云计算是基于分布式网络,计算机服务器分散开,用户的数据存储在网络中的一个节点。以上,理论上,攻击者可以访问周边节点通过一个特定的节点通过一定的方法(20.]。

作为云计算及其衍生技术的延伸,云存储行业也引起了极大的兴趣,甚至学术界和政府。云存储是一个新兴的存储技术。它的核心是存储和管理云平台资源,使人们能够通过互联网实时访问数据。世界的巨人微软、谷歌、亚马逊、百度等国内企业,阿里和腾讯已经做了很多研究云存储并提供相应的云存储平台。架构图基于云存储的手机备份系统图所示4

云存储系统中用户数据的冗余存储云存储服务器的压力将会增加,导致网络传输的延迟,提高远程带宽的压力。为了减少大量的冗余数据在云存储服务器和节省存储空间和网络带宽在最大的程度上,数据重复数据删除技术已逐渐成为近年来的一个研究热点。此外,这些现有的数据备份和数据恢复也很重要。云存储系统带来压力。

相比之下,云计算,云存储的安全问题更加关注数据的问题。数据分布在云中节点传输过程可能导致安全风险。当员工发生内部攻击或非法操作,数据泄漏和损失可能发生。当系统受到攻击,用户信息可能泄露。与传统的存储相比,云存储的新特性带来了许多新的安全问题,特别是需要确保存储数据的保密性和安全性,以及数据的完整性和可用性(21,22]。

2.4。聚类分析

聚类分析是把一个给定的数据集划分为多个类或簇。对象在同一集群的目标是有很高的相似性,在不同的集群和对象不同(高23]。

假设一个数据集 , 是一个数据对象,数据集分为l据子集的数据对象之间的相似度,而这些子集符合下列条件:

2.4.1。数据结构

集群是一个分层集群,即一组嵌套集群类似于一个树结构,和一个数据矩阵是通过结构化数据存储。数据矩阵代表中的所有数据对象的属性值的数据集,如 在哪里t表明有t数据集的数据对象,每个对象不同的属性。

不同矩阵中的每个元素的值代表两个数据对象之间的差异,包括 在哪里k(,n)代表了量化对象之间的不同n。一般来说,它的价值是一个非负的数字。两个物体间距离越近,0,两个物体越相似。

2.4.2。相似度测量

数据对象之间的距离是常用的评价对象之间的相似性。相似性越高集群中的数据对象和数据对象之间的差异和之间的集群,越好j聚类结果。数据对象之间的区别通常是衡量数据对象之间的距离。距离越短,相似度越高。典型的相似性措施如下:

欧氏距离指的是真正的m维空间中的两个点之间的距离(24]。计算公式是 在哪里 代表两个t维数据对象,重量可以添加到每个维度的属性。计算公式是 在哪里 , , 每个维度属性的权重。

曼哈顿距离是用来描述对象的平均差异在每个维度的多维空间(25),其计算公式

闵可夫斯基是一个泛化的欧氏距离、欧氏距离是闵可夫斯基距离的一个特例。 在哪里是一个正整数,当参数是1,最小距离转化为曼哈顿距离,当2,转换为欧氏距离。

除了使用距离为相似性度量,相似系数也可以作为计量单位。目前,常用的相似系数是角余弦相似性。两个向量年代t,计算公式

2.4.3。目标函数

聚类目标函数通常用于评估聚类结果的质量。后输入过程是由树中的每个节点搜索。这个过程的结果通常是减少必须搜索后续节点的数量,这可以减少所需的总电脑时间确定同构,可用于数据恢复。它可以反映对象的相似性在类和对象类之间的差异。一般来说,它包括两个目标函数:误差平方和准则和绝对误差准则。

使用最广泛的集群目标函数聚类分析的误差平方和准则。其具体定义如下: 在哪里 误差平方和的总和所有对象的数据集。

绝对误差准则是选择一个代表性的对象在每个集群作为一个参考点。这种变化可以减少的影响在某些情况下异常值的聚类算法。其具体定义如下:

2.5。Ullman算法

Ullman的算法是基于分支定界搜索的搜索空间,来自暴力枚举的提高。Ullman的核心算法主要分为三个部分:映射矩阵,兼容性矩阵,和条件判断同构。

2.5.1。映射矩阵

可以描述为子图同构映射 , 是描述了一个二维矩阵M的秩序 ,也就是说,映射关系 两个顶点之间。当一个顶点 映射到一个顶点吗 通过 ,中相应的值矩阵可以表示为

矩阵代表一个顶点的映射 到顶点 在这个过程中,矩阵的每一行每一列都有且只有一个1,最多只能有一个1:

2.5.2。兼容性矩阵

最初的兼容性矩阵 ;如果顶点的度 不大于顶点的度 ,然后顶点t是一个候选节点的顶点年代和公式

Ullman算法增加了这个判断条件的基础上,蛮力枚举和兼容性矩阵达到简化的目的。它逐渐生成矩阵从兼容性矩阵基于回溯法。

这是一组候选集的顶点年代。过滤和简化操作生成的矩阵

2.5.3。同构判断

Ullman定义了矩阵F的方法,它代表了数据图的邻接矩阵。矩阵矩阵F具有以下条件:

3所示。云计算存储备份与恢复策略实验基于安全物联网和火花

3.1。实验环境

集群所需的实验包含6节点和节点配置如表所示2

的火花集群系统是由9 Red Hat Enterprise Server x64虚拟机,每个虚拟机配置了500 G的硬盘和4 G内存。软件配置信息如表所示3

3.2。系统使用对象

用户行为分析系统包括两个主要用户角色:系统管理员负责平台开发和日常管理和维护,分析和验证挖掘结果的正确性,和业务管理员负责矿业的结果由系统生成的数据计算评估和管理、优化和调整相应的业务26]。

3.3。实验设计

网络数据备份系统的设计基于一个层次结构,包括三个部分:客户层、服务层和管理层。客户端层是客户端计算机系统的资源需要管理;管理层的核心系统,和管理层包括备份联系人、备份电脑,和认证中心;服务层是提供存储的服务器资源。在三个备份系统的实际层,管理层是企业管理的核心逻辑27]。客户端软件与在线分布式客户端层备份语句。客户一般执行数据备份操作,包括备份计划、备份和测试设置,恢复和环境设置;备份和恢复安全措施,包括数据加密和解密、用户证书的应用程序,管理和使用;和取消的恢复过程。服务层可以使用一个或多个复制服务器来实现。存储设备21连接到的服务器提供了一个备份存储空间。存档备份系统管理服务分布在服务器端,备份和恢复请求进行响应,并执行备份和恢复组织扑救,和结束28]。

数据恢复过程包括三个阶段:首先是数据恢复应用程序审查过程。备份客户提交恢复应用程序控制台通过备份适配器,并通过CA控制台验证应用程序。二是建立一个通道数据恢复的过程。建立备份客户端之间的数据传输通道和备份服务的调度下控制台。第三是完成数据的恢复过程。数据恢复时,客户端之间的连接和备份服务器关闭,和恢复结果通知到控制台29日]。

4所示。云计算存储备份与恢复策略分析基于安全物联网和火花

4.1。Challenge-Response-Verification框架

从图可以看出5挑战数据块数量的增加,时间的开销challenge-response-verification逐渐增加,并增加验证过程的开销很小,这是很难看到;在正常情况下,生成的挑战。时间成本远小于响应成本,成本逐渐增加而增加挑战数据块的数量,但当数据块的数量是非常大的,例如,当它达到1500,时间成本大幅增加的挑战,它变成了相关的验证过程。成本相当。

4.2。数量的数据包

考试开始后,你可以比较每个节点收到的数据包的数量的远程监控软件。测试结果如表所示4。丢包率等于发送的数据包数量减去收到的数据包数量除以发送的数据包的数量。

从表中的数据4可以看出,收到的数据包监控软件小于发送的数据包监控节点,表明这是一个数据传输过程中的丢包现象。这种现象主要是由于大型不规则通信单元的低功率单元。结果在表1显示数据库1第四节点的损失率为0.4%,2.4%,1.6%,和3.2%,每个节点的损失率小于5%,表明该系统可以对应用程序。

4.3。计算和通信开销

文件存储的大小限制在20 kb到20 mb,元素的数量从20到200年,样本比率是10%,20%,30%,40%,50%。实验结果如图所示6。当样本比例为50%,随着文件大小的增加,成本的计算和通信从0到193。这些结果表明,计算和通信的成本增加文件大小和样本比率。

响应的成本和调查是相似的,答案和验证过程的成本也是类似的。图7显示了不同的查询率的实验结果。为了证实这些验证结果,本文的重要样本比例是10% - -50%,10 MB的文件大小是有限的,每一块有200个元素。在混合云P= {P1, P2, P3},验证数据块。比率是0.1,0.2,0.3,0.4,和0.5,分别。从图可以看出,调查和响应的计算和通信成本与采样率的变化略有变化,但回答和验证的成本增加而增加的样本比例。这里的挑战和反应分为两个子过程:反应1和2的反应。此外,数据块的比例在每个CSP在很大程度上影响查询和响应的计算和通信开销。

4.4。火花方法选择

数据存储和备份的火花的平台,需要使用算法来构建一个特殊的处理系统。这里,APCA分割,比率R,差异D,durationikT研究方法选择错误。

从图可以看出8与APCA分割相比,其他三个二级表示方法的误差相对较小。实验发现,选择的平均误差比率R方法是最小的,这两个方法比选择重点通过控制时间。因此,比较的结果上运行的火花,最好使用比例R选择要点。

4.5。不同平台的吞吐量

9显示比较结果与本地系统的吞吐量。索引机制,优化后的吞吐量S-TSQS显著高于SparkDS SparkSQL。因为更好的优化策略SparkSQL,相似性查询的效率略高于SparkDS。实验数据显示,查询效率S-TSQS SparkSQL和SparkDS的3 - 6倍。

4.6。迭代和缓存

从图可以看出10当迭代次数是1,1 - 7数据包的处理时间范围内并没有太大的区别,所不同的是几乎可以忽略不计,但当数据包的数量是10,缓冲的影响开始显现。原来,缓存的人需要更少的处理时间,104小时,而未人需要133小时。然而,当迭代次数是3,基本上没有显著改变数据包是否改变从1到13,它基本上是同样的整个过程。

默认noncaching策略意味着不进行缓存,和默认缓存意味着不进行成本评估和优化处理节点缓存值,直接和缓存设置。四个代表查询选择实验结果的分析,他们被称为查询,查询,查询查询3和4。结果数据表所示5(单位为秒)的价值。

5。结论

不断发展和快速增长的空间大数据,可视化的需求将变得更加明显。下火花的平台,值得继续研究从流媒体数据处理的角度实现实时数据可视化操作。自出现以来,云计算已经吸引和发展以极快的速度。然而,由于潜在的安全问题,许多个人和企业云计算持有观望态度。其中,云存储安全是人们最关注的核心。本文从两个角度进行研究的数据完整性和数据隐私保护的研究。本文的不足之处是,在本文的项目都是独立的项目;即工作分为多个独立的计算机项目并行计算机处理。在实际的云环境中,许多项目并不是独立的项目,但相互依存的和重要的。未来的工作可以探索如何提高数据中心和减少依赖项目的完成时间。 In the design of the backup plan algorithm, only one indicator of the backup cost is considered. In the actual cloud environment, there are many factors that affect project organization, such as the storage space of resources. When designing project backups, future work may have a greater impact on all aspects.

数据可用性

没有数据被用来支持本研究。

的利益冲突

没有潜在的利益冲突。