作为中国的一个重要组成部分的交通数据共享系统,高速铁路数据密集型计算的数据共享是一个典型的应用程序。目前,大多数高速铁路数据在云计算环境中是共享的。因此,迫切需要一个有效的在高速铁路cloud-computing-based数据放置策略。本文提出了一种新的数据放置策略提出了层次结构数据放置策略。该方法结合了半定规划算法和动态区间映射算法。半定规划算法适用于各种复制文件的放置,确保不同的复制一个文件被放置在不同的存储设备,而动态区间映射算法确保更好的数据存储系统的自适应性。提出了一种层次化的数据放置策略对大规模网络。本文提供了新的理论分析,这是与其他几个以前的数据放置方法相比,显示在几个实验的疗效分析。
随着信息技术的发展和普及,互联网正逐渐成长为各种各样的计算平台。云计算是一个典型的网络计算模式,它强调运行大型应用程序的可伸缩性和可用性在虚拟计算环境(
实施和执行过程中数据密集型应用程序在云计算的环境下,以及建立一个大规模存储系统的过程来满足需求的快速增长的数据存储卷,主要的挑战是如何有效地在拍字节级别数据分发给成千上万的存储设备。因此,一个有效的数据布局算法是必要的。
云计算环境下的网络存储系统由成千上万、甚至十成千上万的存储设备。不同的系统有不同的底层设备,例如,存储设备组设备磁盘块的SAN和gfp,或OSD对象存储系统(对象存储设备)光泽和ActiveScale或PC PVFS和P2P (
云计算环境下的高速铁路数据放置策略旨在实现以下目标。
数据存储在每个设备的大小成正比的存储卷装置(
随着时间的推移,存储设备的体积是动态多变。的情况下添加一个新的设备和删除现有设备的情况下为例。当存储系统的规模发生变化时,数据放置策略应用于重组数据,使数据分布式设备集满足公平标准。此外,它需要保证迁移后的数据量接近最优迁移数据量。这将降低数据迁移的开销。最优迁移数据量等于获得的数据量的添加设备,或等于删除设备上的数据量。的自适应性数据放置策略是衡量其实际迁移的数据量比最优迁移数据量。因此,比率值为1.0时表示的最优条件。
得到几个复制复制数据,或使数据仍然可以通过使用擦除失去一个复制的代码。以便公平IO负载平衡,自适应性可以reensure公平按照存储规模变化、大小和数据迁移和IO带宽占用也可以减少。最后,可以提高数据的可靠性。
它是至关重要的,一个系统在所有情况下都可以正常访问。一旦系统不可用,所有功能无法正常执行。提高系统可用性,有必要定期有数据显示位置调整存储设备的可用性,从而最大限度地提高系统的可用性(
它表明该系统是否可以正常访问一段时间。随着大规模存储系统包含成千上万的存储设备,磁盘故障的概率相当高。应用数据放置策略时,可靠性指标需要使用数据大小等设计参数的放置策略。因此,存储系统具有更高的可靠性。
这意味着一些时间和空间是用于计算的数据位置的数据放置策略。
当设计大规模网络存储系统的数据放置策略,满足某些特定的目标需要根据不同的应用要求。然而,它是不可能同时满足所有目标。
一些云计算环境下数据管理系统目前已经出现,例如,Google文件系统(
PanFS, Panasas开发的公司,基于对象存储是一个Linux集群文件系统(
面向对象的文件系统光泽是全球文件系统透明。光泽文件系统会将该文件视为一个对象,位于由元数据服务器,然后指导实际的文件I / O请求到相应的对象存储目标(ost)。由于技术是采用元数据分开存储数据,计算资源可以完全分开存储资源(
宇宙中所有存储节点并行文件系统(
这里有一些当前流行的数据布局算法。标准的散列是最简单的均匀(指出所有存储设备具有相同的体积)放置算法,可保证公平。但当存储规模不同,所有的数据必须被改变的位置。
一致性哈希(
事实上,云计算环境下的数据存储是异构的,这意味着有巨大的体积差异存储设备。因此,一致的哈希算法改进如下:连续分配的虚拟节点基于设备的重量。设备更大的重量连续覆盖多个虚拟节点。然而,这种方法将引入大量的虚拟节点异构存储系统中极其重要的重量差异,这将增加算法的空间复杂度。
为了解决空间浪费的问题一致的哈希,分割方法提出了基于单位间隔。在这种方法中,间隔分为单位的小区间具有相同的长度,和每个设备占有时间间隔。当添加一个设备,其他设备上的数据迁移到新设备。当设备被删除,最后的设备上的数据同样是迁移到剩余的设备,和要删除设备上的数据迁移到最后一个设备,然后设备最终删除。通过这种方式,可以保证公平。在设备之外,数据迁移量是1时间最优数据迁移量。在数据迁移设备删除,体积是2乘以体积最优数据迁移。<我nl我ne-formula>
为了解决太空垃圾的问题导致的一致性哈希的引入虚拟节点,提出了线性法和对数法。在线性方法,介绍了设备的重量相似。假设<我nl我ne-formula>
随着存储规模的变化,线性方法只能保证数据迁移之间的添加/删除设备和其他设备。就没有其他设备之间的数据迁移。对数试图找到一个装置,使函数的最小值<我nl我ne-formula>
因此,基于动态区间映射的数据对象布局算法,提出了(
随着网络规模的扩大,数据存储设备的数量不断增加。现有的数据布局算法是不够的,以解决系统的自适应性。添加新的或删除现有的设备可能会导致一个新的数据位置,这将导致增加了数据迁移开销,以便占领IO带宽是不可避免的
在该方法中,每个单独的存储设备直接管理通过一个公共数据放置策略,如图
层次结构可以减少数据查询的时间消耗和位置。因此,层次结构的数据放置策略更适合云计算环境下的数据管理,如图
本文认为,大量的存储设备中异构云计算环境下的存储系统。也就是说,每一个设备的存储容量是不同的。这些存储设备分为几个设备集计数数量相对较少。存储文件数据时,它首先是位于一个设备,然后里面的文件数据存储设备集合。这样的地方在这一套设备是保证文件数据,这有助于提高数据读写速度。
的数据放置在与多个复制文件,不同的复制相同的文件应放置到不同的设备集尽可能多。这样,当某一个存储设备内一套存储设备不能正常运行,客户端可以获得目标文件的数据位于其他设备集像往常一样。因此,它可以提高文件的可用性和可靠性。
在层次结构的数据放置策略,当添加存储设备,它的目的是将新添加的存储设备分配给一组设备;存储设备时要删除从一个设备设置、迁移数据可以限制其他不同的存储设备在设备集。这将减少通信的开销与大量的存储设备在其他存储设备集。I / O带宽占领数据迁移期间将会减少。当一个岁的存储设备需要替换为一个新的,首先原始设备上的数据转移到新的设备。自从新更换的存储设备的性能优于原来的存储卷和读/写性能,公平是中断设备组中的每个存储设备之间的数据存储。因此,新的存储设备之间的数据迁移和其他的装置内设置以满足该集合中的每个存储设备之间公平的标准。
我们会组织大量的异构存储设备更少数量的设备设置。已经分组集的数量保持不变。不同的存储设备集的存储总量应保持不变。文件和各种数量的副本将被映射到不同的设备集存储使用基于半定规划的一种算法。文件中的切片设备集,然后切片的数据映射到设备使用不同的卷组使用一个动态区间映射方法。
这样的数据副本放置问题转换为寻求半定规划问题,不同的副本文件放在不同的存储设备集。同时,根据算法,该文件位于一个设备设置和存储在集合内的各种设备带带;因此,确保文件位置。文件数据可以立即访问定位一次,这样文件访问速度提高。
函数<我nl我ne-formula>
半定规划问题的正式描述
解决方案:
让人满意的原因:
也就是说,矩阵<我nl我ne-formula>
解决半定规划问题可以产生一个半正定矩阵<我nl我ne-formula>
假设一些设备<我nl我ne-formula>
算法的伪代码
初始化:
设备组<我nl我ne-formula>
输入:数据块<我nl我ne-formula>
主要项目:<我nl我ne-formula>
将数据块<我nl我ne-formula>
输出:数据量存储在设备上<我nl我ne-formula>
哈希函数<我nl我ne-formula>
本文分层数据放置两个关键算法,即半定规划(SDP)算法和动态区间映射算法,在Matlab平台上实现。矩阵是Matlab语言的基本单位,可直接用于矩阵计算。因此,可以直接应用Matlab优化、线性规划等解决复杂的问题。半定规划问题我们需要解决本文将描述一个数学形式化的矩阵。此外,它很容易形式化一个动态区间映射问题转化为一个正式的矩阵,这是适合在Matlab环境中实现。同时,Matlab一组丰富的工具箱和模块特性。为了寻求半定规划问题的解,一个提供支持Matlab工具箱解决SDP问题应该安装。
假设每个文件有5份。然后,分别分发100年、200年、300年和400年文件到10设备集和20设备集使用半定规划方法。部署图所示
现在让我们进一步讨论的情况下放置5份相同的文件,也就是说,问题关于是否所有5份相同的文件被放置到不同的设备集。如表所示
基于随机函数的原理,它可以推断为数据分配给每个子区间的概率使用动态区间映射算法每个区间的长度成正比。同样,所有设备内的设备的数据量正比于它的开销。已经证明,当存储设备内的存储节点设置改变,动态区间映射方法可以最小化数据迁移的开销的条件下存储节点的数量不是非常高的。这消除了管理费用的变化所导致的沟通和迁移数据存储节点的数量,当直接管理一个非常大量的存储设备。添加一个新设备,每个设备在设备占用的子区间设置相应的变化,重新分配的时间间隔被现有的设备和相应的数据块的新设备,以实现公平。通信和数据传输的开销仅局限于少数设备内部的设备设置。
首先,公平的动态区间映射算法进行测试。让我们看一看该文件数据量存储在每个存储设备在设备集。当1000文件存储在设备集,100个文件存储在没有。5设备设置为显示在图
基于动态区间映射算法和上述的每个存储设备,剥夺了1500条数据都存储在这10个存储设备。理论分配情况如表所示
实现动态区间映射算法时,哈希函数<我nl我ne-formula>
让我们测试动态区间映射算法的自适应性。删除存储设备的情况下,添加一个新的存储设备,分别考虑。
让我们检查文件数据量之间的迁移其他存储设备,存储设备从设备集。例如,删除表
当删除。7存储设备,设备的数据迁移到其余9存储设备。变化的情况与实际数据迁移图所示
从图
现在让我们检查添加到存储设备时,设备集。此案是类似于上述情况删除存储设备。我们会按照以下步骤如下。
首先,当一个新的存储设备添加到设备,每个设备的比例相对于总存储卷重新计算。和间隔的长度(<我nl我ne-formula>
一个层次结构提出了云计算环境下数据布局算法。该算法结合了半定规划算法和动态区间映射方法。半定规划方法将数据文件的复制分发给分组设备集。实验表明,该方法能保证数据可靠性和高速文件可访问性。动态区间映射方法可以分发数据相当设备内与不同的卷设备集。理论上证明了此方法的自适应性。
这项研究得到了国家自然科学基金(通用项目)(批准号61272029),国家关键技术研发项目(批准号:2009年BAG12A10), China Railway Ministry Major Program (2008G017-A), and State Key Laboratory of Rail Traffic Control and Safety, Beijing Jiaotong University, China (Contract no. RCS2009ZT007).