文摘
为了满足用户的需求的速度、容量、存储效率和安全性,提高数据冗余和减少的目标数据存储空间,一个不平衡的大数据云存储兼容方法提出了基于冗余消除技术。一个新的大数据采集平台设计基于Hadoop和NoSQL技术。通过这个平台,有效实现不平衡数据采集。收集到的数据进行分类和分类处理。分类不平衡的大数据是由霍夫曼压缩算法,数据安全是提高了数据加密。根据数据处理结果,大数据冗余处理是通过使用数据进行重复数据删除算法。云平台的设计目的是在云中存储冗余数据。结果表明,本文方法具有较高的重复数据删除率和重复数据删除速率和较低的数据存储空间,有效地减少了数据存储的负担。
1。介绍
在大数据环境中,数据安全和隐私保护面临巨大的冲击和挑战。近年来,随着数字信息的爆炸式增长,数据占用更多的存储空间(1]。发现大数据的冗余应用程序保存的系统是高达60%,随时间的流逝和冗余。传统的数据存储技术可以减少数据的冗余编码根据内部映射关系的数据,以提高数据密度和最终减少占据的空间数据2,3]。此外,传统的数据存储技术只能消除文件内的冗余数据,但不能做任何不同的文件之间的数据冗余。可以看出,传统的数据存储技术和管理方法已难以满足大数据的要求的速度,容量,存储效率和安全性。因此,有必要研究一种有效的数据存储方法(4,5]。
文献[6)提出了一种冗余光纤数据存储优化方法基于传统遗传算法和数据压缩算法。结合多普勒变换,最优基函数是全局优化,分析了光纤数据的冗余属性和过滤。此外,光纤冗余数据最初压缩使用传统的遗传算法。减负荷处理基于K-L光纤数据存储的特点完成了优化光纤冗余数据压缩和实现最优存储光纤冗余数据。该方法可以有效地压缩纤维冗余数据和更高效地处理它。然而,只有压缩冗余数据和方法并不真正删除冗余数据,冗余数据仍然占据了大量的存储空间。文献[7)提出了一种空间矢量数据存储模型的设计和优化方法基于HBase。基于关系型空间数据库存储模型的分析,转换规则从关系数据库存储模式HBase存储模式应用于空间矢量数据管理领域,和一个从空间矢量数据转换方法的关系存储模式HBase存储模式,提出了HBase和空间矢量数据存储模型设计。模型进行了优化和改进使用HBase的特点,如实体筑巢,antinormalization,没有模式。使用这种方法对于数据存储没有辅助索引、数据查询是高效的。但是只改变存储方法,重复数据删除技术很差。文献[8)提出了一种基于压缩感知的数字图书馆数据存储方法,介绍了压缩传感的理论基础和数学模型,并试图将压缩传感技术应用到图书馆的数字资源管理第一次。这种方法适用于压缩感知方法的正交匹配追踪算法扫描文本资源和图像采集的电子资源,与相对较高的压缩。然而,方法不完全删除重复数据删除的数据,和重复数据占据了大量的存储空间。
上述方法虽然在一定程度上提高数据存储的效率,存在一些问题,如冗余消除效果差和高数据存储空间。针对上述问题,本文探讨了一种非平衡态大数据云存储方法基于冗余消除技术的兼容性。以大数据不平衡为主要研究对象,希望分析云存储技术将为进一步提升奠定基础计算机云计算数据存储技术的后期。论文的主要研究内容和创新包括以下:(1)基于Hadoop和NoSQL数据收集平台设计,和多个并发数据收集功能模块同时打开多台机器上,这整个平台的数据收集效率提高(2)利用哈夫曼算法来压缩数据,这可以大大减少数据的存储空间和提高数据查询速度的存储模式(3)冗余消除算法在非平衡态大数据加密技术是为大数据消除,检测重复数据对象的数据流根据冗余,传输和存储数据对象的唯一副本,并替换其他副本与独特的数据对象副本,以便消除相同的文件或数据块在大数据集,有效降低大数据的存储空间,减少网络传输的数据量
2。不平衡的大数据云存储方法的兼容性
不平衡数据通常意味着负样本的数量在两种类型的问题远远大于积极的样本的数量。在现实中,例子包括信用卡交易欺诈识别、电信设备故障预测,企业破产的预测和雷达图像监测海上石油污染。然而,大多数传统的分类方法是基于假设的数据平衡分布数据存储设计,当这些方法应用于不平衡数据,他们将导致贫困数据存储性能。因此,不平衡数据存储已经成为一个研究热点领域的数据处理。
2.1。不平衡的大数据收集平台的设计
大数据,顾名思义,有一个非常高的效率需求数据收集、存储和检索。通常,数据收集效率可以达到MB / s或GB / s,和数据存储可以达到结核病甚至PB的顺序。由于一致性约束,传统的关系数据库已经很难满足如此高强度的要求(9,10]。为了应对这一情况,出现了大量的非关系数据库。他们的共同特征是,他们基于键值执行读写操作,但是他们缺乏支持复杂的操作,比如多列检索和multitable联合统计分析。另一方面,由于缓存机制的限制,它不支持快速收集和检索大量的数据,从而导致整体效率低。为了解决这些问题,一种新型的大数据收集平台的设计是基于Hadoop和NoSQL技术,通过高效的实现不平衡数据收集,基金会是为后续的数据存储和处理的数据(11,12]。图1是一个原理图的不平衡的大数据收集平台的总体架构。
根据图1不平衡的大数据采集平台的总体架构,可以从三个层次:物理层、逻辑处理层和网络层。功能模块的建设应考虑的方面大不平衡数据采集、审核、管理、共享和安全控制。其中,大不平衡是最前端的数据采集模块,和它的任务是积极收集外部信息的平台。收集有两个方法,一个是自动收集,另一种是手工收集。两种方法把不平衡的大数据资源获得局域网,局域网和互联网收集平台的数据库(13,14]。
大数据收集集群相当于整个系统内部的入口。过程作为执行单元,多个并发数据采集功能模块在多个机器上打开同时提高整个平台的数据收集效率;并行数据采集功能模块使用5 csema5f31c6fpga芯板的阿尔特拉cycloneV系列处理器,并使用FPGA并行收集技术来收集了一些数据收集的代码自动数据收集模块和手工数据模块同时通过多机并行渠道。一个角色分为8位并行传输一次8位信号。并行采集模块主要包括FPGA采集模块、数字解调模块,和高速数据传输模块。FPGA终端将决定收集到的数据可以在高速并行,FIFO的时钟频率25米,读完4位校验位数据,和汉明编码,和其余的数据包都收集在平行,以确保收集到的比特率是25 Mbps;数字解调模块编码数据根据频率和汉明码的原则划分数据完成并行多机数据的收集和解调;高速数据传输模块主要是在P2P,根据底板总线和同轴传输线,智商和矢量信号分析仪发送数据到FPGA并行,由FPGA修剪,MDA和发送给数据库;并行采集过程减少信号衰减,提高抗干扰能力,并实现高速并行数据采集。完成后的数据收集,数据分析阶段逐渐接收大数据获得,在这一步中,要完成不平衡数据分类,根据操作类型,最后完成数据存储。
2.2。不平衡的大数据分类
基于所收集的数据不平衡的大数据收集平台,为了进一步提高数据存储效率和存储效率,本文使用了一个分类器分类收集到的数据,以提高数据存储在随后过程的针对性。
本文的集成分类器主要分为三个步骤:第一步是使用MapReduce框架来处理初始不平衡的数据集,从而获得平衡训练子集;第二步是使用这些火车的训练子集训练得到的分类器分类器;第三步是使用多数投票策略整合这些分类器完成未知的样本数据的分类(15- - - - - -17]。具体算法描述如下:(1)输入初始不平衡数据集 。(2)构造平衡数据集 根据数据集的不平衡率 。(3)榆树算法适用于训练训练集 获得subclassifiers 。(4)当分类未知的样本数据,每个subclassifier得到分类结果在不同的subclassifiers和投票。最后一个样本的分类结果是最高的一个投票。
(一)
(b)
从图可以看出2大不平衡数据分类过程中,初始的建设不平衡的数据集,每个训练集包含负类中的一些例子,所有的正面例子,确保所有可用的训练集的数据信息将不会被浪费。根据获得的数据分类结果图3在平衡的数据集训练,灵感来自MapReduce框架的原则,培训的数据集分配给每个节点,榆树算法适用于并行计算,从而大大提高了分类效率(18]。极端学习机(ELM) single-implied层前馈神经网络的算法。最大的特点是输入重量和偏见的隐节点是随机生成的在给定的范围内,证明是学习效率和泛化。培训的主要目的是解决输出层的权值。榆树的优点学习效率高,泛化能力强,广泛用于问题分类、回归、聚类和功能学习。对于单隐层神经网络,榆树可以随机初始化输入重量和偏见和获得相应的输出权重。因为只有所需的解决方案输出权重,榆树本质上是一种线性参数模式,其学习过程很容易收敛全局最小值。对于一个给定组N组训练数据,SLFN包含L隐含层和输出层使用榆树学习下面的步骤:(1)随机分配的输入权向量和隐含层节点榆树完成初始化(2)计算隐含层输出平行数据矩阵H(3)分类矩阵和计算并行输出权重矩阵
也就是说,榆树神经网络的并行计算完成。
2.3。不平衡的大数据压缩
虽然不平衡的优化大数据可以提高数据处理的效率在一定程度上,由于大数据的巨大能力,只有分类不能满足数据处理的需要。因此,霍夫曼算法用于压缩的分类不平衡的大数据。
哈夫曼算法是一种数据压缩方法。当使用霍夫曼算法进行数据压缩,数据的平均编码长度不会改变,所以这个优势是编码效率的独特性,可以显著降低数据存储空间,提高存储的数据查询的速度模式。此外,霍夫曼算法构造最短的码字平均长度不同的字符的字符出现概率的基础上,更准确。上述分类处理后,转换的数据小波分解方法,然后霍夫曼编码。数据压缩的过程中使用这两种方法的结合,小波分解的规模应该更小的减少计算小波变换;二进制编码的转换后的数据可以进一步提高压缩比(19,20.]。
霍夫曼编码算法采用优化的静态编码技术,生成的二叉树算法具有最小加权和。算法首先安排的数据下行概率秩序,建立一个列表,然后构造一个树从下到上。图4哈夫曼算法的流程图数据压缩。
根据不平衡的大数据压缩过程如图4哈夫曼算法的每片叶子放在一棵树,然后树决定了原始数据的编码。所有获得的编码形成一个二维表。表的大小相对于原始数据非常小。二维表和编码的数据存储在一起或通过通信网络发送到远程终端。解码器不需要遍历树但解压它通过查找表(21,22]。
2.4。不平衡的大数据加密
随着用户越来越关注个人隐私,只有实现数据处理不再能够满足用户的实际需要。因此,为了满足用户数据安全的需要,有必要加密压缩数据(23,24]。一般的混沌加密算法实现数据加密,确定性混沌序列叠加在原始文本。解密方使用混沌序列繁殖方法实现解密。这种方法实际上是一个基带信号上叠加白噪声过程。平滑和去噪后,最小二乘等方法处理和卡尔曼滤波可以得到近似原始文本,这减少了机密性(25,26]。同时,同步的混沌序列再现原文,从而增加不稳定因素。本文提出的加密算法成功地解决了这些问题。该算法将原始数据转换成混沌随机序列的间隔(0,1)通过一系列的非线性转换,这意味着基带信号变成了白噪声,这样是无用的平滑算法。此外,由于良好的混沌序列本身的独立性,它被非法破译的难度增加27,28]。
假设逻辑映射的基本功能
其中,和代表了奇/偶逻辑映射混沌扩频序列的相关特性,分别;和分别代表序列的有限长度的影响效果奇/偶相关特征;和代表不平衡数据集的平衡率和平衡的平衡数据集,分别。
公式的逆映射(1)是
当 ,物流地图显示所需的混沌特征,这个间隔是混乱的区域。因为物流映射形式简单且易于分析,在本文中描述的加密算法使用它作为基本的映射。分岔参数和迭代参数映射将被用作加密算法的密钥,以及它们的表达式
其中,和分别代表了初始值和分岔参数的临界值;代表了周期性反应;代表了混乱的反应;对应的参数区间混乱的反应。
不平衡的大数据加密成密文后,必须恢复到原始文本通过相应的解密算法。但物流逆映射是一个一对多的映射。恢复,一对一的映射的映射必须解决的问题。本文采用的方法固定字长离散化和添加干扰项,从而成功地解决这个问题。最后,相应的加密向量和解密向量生成的键,和原文可以执行加密和解密密文。
2.5。大数据消除算法
数据冗余技术是指具有相同内容的大量数据在存储数据的过程中,和删除冗余的过程文件,并通过重复数据块数据检测,所以,只有独特的数据是存储在系统29日]。与传统的数据压缩技术相比,非平衡大数据的冗余消除算法加密技术不仅可以消除数据冗余文件,而且消除数据之间的冗余文件数据集,有效降低大数据的存储空间,并提供新思想对大数据的存储和处理30.]。
2.5.1。重复数据删除算法的基本原理
数据重复数据删除技术检测重复数据对象的数据流基于冗余数据本身,只传输并存储数据对象副本,并使用一个指针指向的数据对象副本替换其他副本。重复数据删除技术致力于节省存储空间和网络带宽资源。的过程中不平衡的大数据存储、数据重复数据删除技术的引入可以优化不平衡的大数据的存储空间和消除相同的文件或数据块在大数据集,以减少加密处理的工作负载(31日,32]。另一方面,数据重复数据删除有效压缩数据,减少了网络传输的数据量,并降低带宽消耗。为了提高重复数据删除率和重复数据删除大量数据重复数据删除系统的效率,本文进行大数据重复数据删除。
一般来说,重复数据删除之前的字节数的比值处理后的字节数是用来测量数据消除比率(DER) ,见公式(5):
通常是由两个因素决定的:使用何种类型的划分策略和平均数据块大小。尽管数据还原速度公式所示(5)考虑阻塞后重复数据块之间的数据和数据压缩在一个数据块,不被认为是元数据开销。然而,重复数据删除系统中的元数据成本不容忽视。因此,提出了一种数据还原速度修正公式:
其中,和分别代表相同的数据和类似的数据;和分别代表了空间利用率之前删除,删除后的空间利用率;代表的是元数据的开销大小,计算方法如下:
其中,表示元数据的大小;代表的平均值的大小的元数据。
根据公式(6),有两种类型的重复数据:相同的数据和类似的数据。对于这两种类型的数据,重复数据删除技术是用来检测,分别。具体处理方法如下:(1)相同的数据检测技术:它将按照一定的规则和数据集替换相同的数据集的一部分和一个指针。根据不同粒度,相同的数据检测技术分为完整的文件检测技术和数据块检测技术。根据不同的屏蔽方法,数据块检测技术分为固定长度块检测技术,基于内容的可变长度块检测技术和滑动窗口块检测技术(33]。(2)类似的数据检测技术:根据固有的相似性特征的数据,检测到的数据集。三角洲用于类似的数据压缩编码技术来减少数据在传输过程中存储空间和带宽占用。
2.5.2。不平衡的实现大数据云存储的兼容性
部分2.5。1讨论了数据重复数据删除技术,在此基础上构建云平台实现不平衡的大数据云存储的兼容性。云平台数据接收的能力,收集和存储。它主要通过互联网获得大数据资源的不均衡。平台统一管理各种不平衡的大数据资源,建立元数据库和数据目录,并提供数据的浏览、查询、下载和其他服务基于大屏幕内部用户,为用户提供数据共享服务基于数据分布服务子模块(34,35]。图5显示了云平台的总体架构。
根据云平台的总体架构图5,每个平台的软件设计阐述:(1)平台软件支持:云平台软件支持各种应用软件的操作环境,及其组件包括操作系统、软件操作平台、应用中间件、虚拟存储系统和安全系统。其中,数据的动态分配策略RSDO模型支持的操作平台,主要负责分配不平衡的大数据对不同存储空间的存储现状数据中心实现数据平衡存储的目的。云调度服务监视整个云平台的数据在软件支持层和提供了任务调度服务云平台中数据的存储。(2)数据分布服务子模块:数据分布服务子模块的主要门户用户访问数据存储中心,也是主要的平台等外部云服务中心提供数据共享和应用推广。用户使用数据资源目录服务平台提供的搜索、查询各种资源的元数据信息,并理解有关数据的基本形式。此外,该系统形成一个数据存储的分类和集成数据集属性特点,方便用户更快地找到并了解感兴趣的数据(36]。(3)兼容性:不平衡的设计大数据存储平台需要组织为了提高底层数据库信息中的数据平台的兼容性,避免信息在数据存储过程中腐败等问题。用户可以通过数据访问数据库统一管理门户和使用大数据的统一访问接口来提取和存储所需的数据。最后,数据可以缓存数据关系映射层和底层的数据库中永久保存。此外,数据存储平台通常使用非关系数据特征分类缓存数据实现数据扩张和转换,以优化客户端的数据通信模式。在相对较大的数据量的情况下,集群的方法需要使用数据库缓存系统优化和存储临时数据,从而达到设计的目标,将大量的数据兼容。
基于above-built云平台,执行不平衡大data-compatible云存储,和具体步骤如下:(1)假设CPU处理频率的乘积,数量的处理器,以及CPU核的数量 - - - - - -服务器在云平台为代表 ,表达式是 其中,代表的CPU处理频率 - - - - - -th服务器;表示处理器的数量;代表CPU核的数量。(2)假设云平台的内存容量是由 ,磁盘容量为代表 ,磁盘读写速度是由 ,和网络带宽吞吐量为代表 ;然后,每个参数之间的比例和相应参数的所有服务器的最大价值
上述比率可以反映出的某些参数的性能 - - - - - -服务器集群中的服务器。下面一起使用加权平均法来整合这些数据来计算整体性能值的 - - - - - -th服务器:
从这个的重量值 - - - - - -th服务器相对于整个服务器集群可以获得:
根据集群服务器的实时性能统计数据,定义的实际CPU利用率 - - - - - -th服务器,代表记忆的实际利用率,代表实际的磁盘容量的利用率,代表平均磁盘读写速度,代表实际吞吐量的网络带宽,它可以计算服务器的实际负载重量的阈值在云平台:
本文收集、分类、压缩和加密不平衡大数据、云平台构建一个数据对象。此外,消除冗余的技术应用于不平衡的大数据存储,以便运行数据存储的云平台是独立的。适应性等特性,快速响应和高效进行了研究。
3所示。仿真实验
为了验证的有效性不平衡的大数据兼容性云存储方法提出了基于冗余消除技术,进行仿真实验。在实验中,文献[6)方法和文献[7)方法作为比较的方法。消除数据冗余效应和数据存储空间作为实验指标。消除数据冗余效应具体指的是重复数据删除率和删除率。
3.1。实验数据集
本文选择六个数据集在公共UCI机器学习数据库,在每个数据集的数据集被认为是一种积极的类,和其他被归类为负类,形成一个不平衡的数据集具有不同程度的不平衡。为了保证实验结果的准确性,所有数据集预处理平均值和标准偏差为0 1。数据的总数是74589,和总大小是1130070.49 KB。实验中的数据块的平均大小是8 KB,和滑动窗口大小是48字节。模拟MapReduce计算环境在一个独立的环境中来验证本文方法的有效性。
具体实验数据集描述如表所示1。
3.2。实验结果分析
3.2.1之上。数据消除影响
该方法的性能,文献[6)方法,文献[7)方法在数据重复数据删除率和重复数据删除速度率进行比较。
的性能测试方法三种方法如下:给定一定数量的数据,存储在不同的目录和文件,读取这些数据,然后将它们存储在不同的方法,计算后存储空间占用,并计算重复数据删除率。同时,计算总时间从一开始读取数据的完成最后的存储和计算重复数据删除的速度。表的数据源1,结果如图所示6。
(一)
(b)
从图可以看出6(一)之后,使用本文的方法来消除冗余、重复数据删除率高于文献[6)方法和文献[7)方法,重复数据删除的最高价值率的方法在本文中是96%。从图可以看出6 (b)重复数据删除的时间远低于文献[6)方法和文献[7)方法,重复数据删除的最高价值本文方法的时间只有2.2秒。比较结果表明,该方法不仅能保证较高的重复数据删除重复数据,而且还提高重复数据删除重复数据的速率。
3.2.2。数据存储空间
为了进一步验证本文方法的有效性,比较了三种方法与数据存储空间作为实验指标,结果如图所示7。
它可以看到从曲线趋势图7当处理相同数量的不平衡的大数据,数据存储方法占用的空间明显低于文献[6)方法和文献[7)方法;虽然与迭代的次数的增加,不同方法之间的差距正在逐渐缩小,但是本文方法仍然可以保持其优势,表明它有一个显著的优势不平衡的大数据存储空间。
4所示。结论
为了提高的消除能力冗余数据,减少数据占用的存储空间,非平衡大data-compatible云存储方法提出了基于冗余消除技术。大数据采集平台设计基于Hadoop和NoSQL技术和并行数据收集使用FPGA并行采集技术。基于这个平台,收集到的数据使用并行处理利用分类器分类。霍夫曼算法用于压缩冗余消除算法在非平衡态大数据加密技术。设计一个云平台来存储大数据。实验结果表明,该方法比传统的数据存储方法,重复数据删除率高,解决了大数据存储的问题。
数据可用性
原始数据支持了本文的结论将由作者提供,没有过度的预订。
的利益冲突
作者声明,关于这项工作他们没有利益冲突。