多目标萤火虫群文中针对动态复制算法对实时分布式数据库

文摘

为大规模分布式系统提供资源访问地理位置不同用户的数据请求。在许多情况下,重要的数据文件的复制和存储他们的复制品在多个位置访问请求客户机是至关重要的在提高数据可用性,可靠性,安全性和减少执行时间。重要的是实时分布式数据库维护一致性约束,也保证客户端请求所需的时间限制。然而,当分布式系统的大小增加,用户访问时间也会增加,进而增加副本放置的生命力。因此,出现的主要问题是决定一个最佳的复制数量和确定最佳位置存储复制数据。这些开放的挑战被认为是在这项研究中,将开发一个动态数据复制算法实时分布式数据库使用多目标萤火虫群优化(MGSO)策略。该算法适应随机读写请求,并使用一个动态窗口的模式复制的机制。它还模型副本数量和位置的问题作为解决多目标优化问题,并利用MGSO它。提出了成本模型,确保时间约束满足用户请求服务。MGSO性能的动态数据复制算法研究了使用竞争分析,结果显示该算法的效率的分布式数据库。

1。介绍

分布式系统是一组独立的计算机,出现系统作为一个单独的客户端电脑(1]。在这些系统中,数据对象放置到服务器位于地质遥远的地点。在最近的过去,分布式数据库已经成为一条重要的业务处理。维护数据真实和提供精确和方便处理的数据库查询和更新了许多地区授权组织使用数据的一个关键因素在一系列不同位置在全球范围内(2]。查询语言的标准化,关系和对象模型,帮助协调各种数据库系统框架系统的综合数据服务(3]。保证数据的完整性等问题,合适的更新,客户得到一个统一的响应速度无论他们在系统中的位置有数据库供应商和客户成为真正的困难4]。

复制(5)是共享信息的过程,以保证冗余资源之间的一致性,如软件或硬件组件,以提高可靠性、容错、可访问性。它可以是数据复制如果类似的数据存储在不同的存储设备或计算复制通常如果执行类似的任务。的过程因此分散重复的数据和数据库对象的SQL服务器实例,并保持分布式信息的同步(6,7]。数据复制问题是经典的扩展文件分配问题。受保护的共享信息,这种病是一种不可预测的问题。不同数据源的经营者往往有与众不同的访问和数据的传播,他们持有8]。原则有两种类型的复制约定:动态复制,所有副本形式同时所有输入信息,和被动复制,只有一个副本的形式输入消息和偶尔传递其现状备用副本,以保持一致性(9]。在分布式系统中数据复制的原则目标是扩大执行整个系统的可靠性和提高。数据复制的重要问题是复制品的数量应该是和他们的定位,以满足特定的性能目标,这称为运行总成本(TOC)。

数据分布和复制提供的机会通过并行查询执行,提高执行负载调整,也通过扩大数据的可访问性10]。在分布式数据库系统中,数据经常被复制到提高可靠性和可用性,从而扩大其可靠性。同样,另外数据存储在个人电脑,它通常是可能需要以最小化的成本昂贵的远程访问(11]。决策包括处理或应用信息和知识,适当的混合信息/知识依赖于决策的属性设置(12,13]。复制或共享数据搬迁阻塞在主观领域芯片需要索引的利用率或基于广播查询和情报授权机制,每一块可能会有不同的位置要求(14,15]。股票和客户机相关数据在这些多元化的地区复制是可取的,因为它提供了快速访问附近的复制品和生存灾难情况下所有机器的物理区域崩溃(16]。在任何情况下,当前的分布式数据库系统,复制不给预期的结果由于失败在选择复制品的数量和最好的副本放置位置17]。这些问题形成的基本动力模型。为了应对这些挑战,基于多目标萤火虫群优化——(MGSO)动态数据复制算法提出了分布式数据库系统的研究。本文的其余部分组织如下。部分2提供了文献综述的一些相关工作。部分3描述了上限定理和其局限性。部分4解释该复制算法,而部分5提供了这个模型的仿真结果。部分6给出了结论与算法有关。

复制是在所有分布式系统的一个重要组成部分。两个广泛使用的复制程序包括以下:静态复制(18)和动态复制(19]。不同的研究人员已经开发出基于这两个程序复制策略。手动为每个文件副本的数量是固定的在静态复制预选,而在动态复制,它是由一个自动决策系统,决定在执行期间数量。这些决策模块决定副本数量考虑系统的基础设施和环境和客户的访问策略。一般的云应用,动态策略更喜欢,因为它适合灵活的满足客户的需求。

Khanli et al。20.)开发了预测分层快速传播(公积金)模型对动态复制这降低了延迟的多层网格系统。这个模型是一个增强版的先前利用快速传播(21),旨在灵活利用空间位置(21,22主机服务的用户需求。尽管这个模型减少了延迟和增加本地访问模式的性能,这个模型没有考虑存储约束在优先级评价。这个模型也低适应性在确定合适的阈值和时间间隔特性不同的应用程序。此前,Kunszt et al。23)提出了一个基于文件的复制管理系统,包含功能所需的有效应用程序员和最终用户。然而,类似于(20.),这个模型还旨在提供多级网格与更高的存储,存储受限的系统,因此,它的适用性非常低。林等。24]eStor介绍,为确保节能数据中心存储的数据复制。这个模型使充分利用存储服务器关机限制能源浪费在空闲状态。然而,这个模型没有陪可预测性评估函数,因此,未来可能面临延长延迟客户的请求。Chang et al。25)开发了一个叫最新的动态数据复制机制访问最大重量(LALW)适合网格集群系统。这种机制从数据库中选择一个受欢迎的文件复制到合适数量的系统或电网,以确保有效的数据访问。这个模型也增强了负载平衡或副本的注册过程,选择权重基于请求的时间。主要限制在这个模型是高工作执行时间的时间间隔很短,不适合选择基于指数衰减造成单点故障。董et al。26)引入了一个在多个数据中心复制策略限制用电的骨干网络。然而,这项工作主要围绕各种数据中心之间的复制方法,虽然不是在数据中心。

萍et al。27]开发了最优数据复制模型运行在数据中心来限制数据访问延迟客户端。该模型利用加权k——集群的用户位置来确定最优副本。然而,这个模型并不利用适应不同应用程序的概念和它的存储限制。李等人。28)开发了一种新颖的具有成本效益的动态数据复制策略基于增量复制方法。这种策略减少了存储成本以及满足数据可靠性要求。然而,这种策略是有效的只有当数据可靠性较低,存储单元衰老过程是非常关键的。也成本和性能之间的权衡是不令人满意。佩雷斯et al。11]介绍了复制技术被称为分支复制方案(BRS)异构网格系统。本集团提供优化的存储使用,提高数据访问性能和功能修改副本。这些优势使操作,比如阅读或者更新一个副本以更有效的方式和减少数据访问的开销处理。然而,BRS只适合每个分支的复杂应用程序专用的存储空间在实时电网是极不可能的。类似于br、CDRM(成本效益的动态复制管理)已经提出了异构云系统(29日]。这个模型分析了可用性和副本数量之间的关系,然后确定最小副本对于给定数量的可用性。这个模型也灵活调整副本数量和位置根据不同工作负载条件和节点的能力。然而,这个模型有一定的限制,即延迟分析函数的关系。曲和熊30.)开发出弹性、容错和高效(RFH)复制算法解决分布式系统的flash人群问题。然而,这个模型不一致性维护,降低其性能的可靠性。

林等。31日)提出另一种方法利用优先基于列表的最优副本位置的概念。这种策略解决问题的用户的有限资源访问权限,满足空间需求在布局阶段。这个模型把副本以光学方式,负载平衡是通过测定最低副本数量当工作负载容量最大化。然而,这个模型的局限性解决副本放置问题一般图形,平面图形。同样,Andronikou et al。32)开发了一种动态QoS-aware复制策略,利用数据重要性的概念选择副本的位置。这个模型分析的完整生命周期的复制,然后,生成的新副本和迁移旧副本从他们的当前位置。该模型利用一组可互操作的小说文件复制算法分析和确定基础设施约束来简化基于数据复制过程的声望。然而,这个模型没有考虑所有的QoS的服务提供者和客户机相关需求因素市场相关约束。Bonvin et al。33]介绍了自组织、容错和可伸缩的复制方案运营多个不同的可用性保证的基础上每个应用程序的副本。该方案采用虚拟经济模型作为一个博弈论模型来确定优化器对数据分区和减轻复制到各自的位置。然而,这个模型数据大小的限制,即。,它只适合小得多的数据的应用程序。·博茹et al。34)开发了一个节能数据复制策略通过考虑能源消耗和带宽消耗。该模型降低了能源瓶颈问题,也降低了网络延迟和带宽浪费。这个模型的唯一缺点是实现在现实世界的应用程序的实际困难。Mansouri et al。35)提出了一个动态复制和成本优化模型,以确保后续迁移在云。该模型利用最优离线算法的动态和线性规划分析系统的工作负载。然后,介绍了两种在线算法最小化存储和迁移成本之间的权衡之后的动态选择存储类。这个模型可以减少离线算法的时间复杂度,但主要缺点是它无法解决可用性问题。纳和默罕默德36]介绍了prediction-based动态复制策略利用邻近网站的多个参数。参数被认为是存储容量、带宽和通信成本选择和放置副本。这个模型还修改先验算法用于预测未来需求的网格,但它不关注有效的调度策略是非常不推荐。锅等。37)提出了一种基于负载平衡条件下的动态复制管理策略的分销系统。这种方法提高了副本管理,尽管它只考虑负载平衡状态而忽略的调度等工作。尽管有广泛的研究提供大量的复制策略,仍然存在问题,如最优选择的副本数量和位置来存储它们仍然继续挑战。这项研究提供了一种解决这些问题的方法完全比大多数现有的方法。

3所示。上限定理

上限定理已经显示在web服务的背景下,作为权衡之间的一致性、可用性和分区容忍(38]。上限定理是分布式系统的一个基本假设的一部分。它表示,在看到分区(即。,network failures), it is not possible for a system to be both consistent and available, and therefore, it becomes important to select one of the two. It has really changed the landscape of how distributed storage systems were architected. It can be expressed as “In a network subject to communication failures, it is impossible for any web service to implement an atomic read/write shared memory that ensures a response to each request.” The three fundamental properties of CAP theorem are consistency, availability, and partition tolerance [39]。

帽提供分销系统的结构改进。然而,一个人不能建立一个分布式数据库系统不断,顺序一致,和宽容分区模式。它必须组装只有两个这三个属性。此外,某些限制降低上限定理的效率(40,41]。的局限性限制了(41,42如下图所示:(我)二进制存在证据的目的,方便但不匹配的直觉概念可用性。传统的上限定理的定义没有考虑定量测量网络延迟。根据可用性属性,如果响应没有到达时,仍有希望的响应将到来,但仍然没有一个上限延迟。(2)可用性要求只有nonfailed节点响应。在网络分区的区域,即使一个节点失败在一个给定的时间,阻碍了系统的可用性。为了确保完整的可用性,提出的解决方案之一是强行让所有节点不可用(41]。但是这个简单的解决方案是不可接受的,因为它是不必要的篡改剩余的活跃节点。(3)上限定理未能包含节点故障等问题,损失,或推迟的消息并重启时间流逝的节点以外的其他分区。公平的损失被链接,如果它有一个非零丢包的概率。在这样一个链接,丢失的数据包将由有限数量的重复尝试确保数据包到达目的地。公平链接损失与移动网络密切相关的积分在今天的应用程序。节点失败,重启等问题不再发生意外他们将攻击系统。例如,拒绝服务攻击是很常见的,它是网络上最臭名昭著的一次恐怖袭击。操作(42]。(iv)也可以定义一致性作为定量指标,而不是一个安全属性。然而,这些随机一致性的定义不是盖的主题。(v)在任何分布式系统分区是不可避免的。即使我们假设一个节点有99.9%的机会不是没有在特定的时间段内,五个此类节点在集群将有99.5%的可能会失败的概率40]。因此,一个不能妥协分区宽容。因此,有一个不可避免的选择可用性和一致性。

4所示。MGSO-Based动态复制策略

上限定理的局限性已经认为,这个提议MGSO-based动态模型复制算法为了达到更好的性能。最初,分布式数据库系统被认为是描述。该计划包括n节点,表示为。每个节点包含一个处理器和一个本地内存。当地所有的记忆是远程,可以通过本地处理器。节点之间的通信是通过底层网络发送数据的支持。所有请求,每个都有其相应的时间期限,都被认为达到处理器。同步请求到达一个处理器,和有一个并发控制机制来序列化处理。对于每个请求的数据,预计至少有在数据库系统副本,n是网络节点的数量。这个限制是通常被称为t可用性约束。图1显示了整个流的动态复制策略。整个过程开始于局域网的初始化集群由1服务器结构n客户的数量。选择要复制的数据,他们被加载到主服务器在测试环境中。动态窗口机制是利用在每个处理器访问数据,请求相同的数据储存在一个时间窗口,直到用户请求的固定的时间期限。这个窗口机制决定了并发用户请求到达或查询的执行。根据这个时间窗口,处理器接收更多的请求数量被认为是用于存储一个复制的原始数据从主服务器,以使其可为特定的用户。MGSO应用于确定最优的生产加工企业为主,可以允许复制基于查询/请求,同时在决定哪些处理器适合存储副本数据根据其负载和其他特性。输出从MGSO获得模型是用于最后的副本存储变得无效如果出版商或权威的原始数据往往修改数据更新的内容。在这些阶段,上述过程是重新启动更新副本系统。

在拟议的系统中,实现分布式网络系统中处理器的所有请求。为评价目的,我们使用一个例子存储复制的数据集,其中包含YouTube,传感器和微博内容。这些数据过滤和预处理获得之前完成个人组数据存储在主服务器。一旦数据存储在主服务器,用户的数据请求进行了分析。当一个处理器想要读取数据d如果数据的最新版本d是在其本地内存,那么数据d直接从他们的本地内存中恢复过来,否则,自知道固定处理器集 , 将直接读请求到附近的服务器, ,在。这将维持单位成本。作为一个答复,将恢复数据d从他们的本地内存和发送他们 ,导致单位成本。最后,为了即将到来的请求的服务总成本最小化,可以指定保存数据d到当地的内存中。这个请求被描述为阅读saving-read请求。应该注意到,专属服务器的数据d可以从远程请求处理器读取数据d。此外,每个处理器可以发出写请求任何数据在分布式数据库没有损失的包容性的声明。以这种方式,请求到达的处理器问可以任何这些:从处理器读取请求吗问对数据d在他们附近的内存和处理器的写请求问对系统中的任何数据,或从远程处理器读取请求数据d′如果处理器问服务器的数据吗d′。

4.1。成本模型

这成本模型43)是利用计算的成本维修读请求或写请求到达一个处理器问。服务请求的成本要求的算法一个被定义为。因此,针对服务读请求 ,让是数据的分配模式d由处理器标识问,然后是由成本

这个模型的一个重要特性是,在得到数据d,当保持数据d到其本地内存(saving-read请求),然后将一个单位服务成本大于当不保存数据d(nonsaving-read请求)。此外,是否这个读请求saving-read请求特定的处理器问建立在动态请求窗口机制。一旦处理器问选择该请求是一个saving-read请求,问和将改变相应的分配模式。

同样,考虑维修写请求 ,,让是数据的分配模式d被处理器问。然后,维修的成本这个请求指定如下: 在哪里表示处理器的设置 ,不包括处理器问。写请求生成一个不同形式的数据。为了维持数据的副本之间的一致性,新形式应该搬到那些有这些数据的副本可用的处理器在当地相应的记忆。必须指出每个迁移这些数据到相应的处理器将维持单位成本。

4.2。窗口机制

一定在每个处理器并发控制机制将序列化到达请求,产量最多一个请求δ时间单位,δ不知不觉小。没有损失的共识,预计δ= 1。每个请求着陆在一个处理器创建一个潜在的请求。为了处理这些请求,个人的时间期限是指出放电点的并发控制机制和窗口机制调用响应这个请求。图2显示该窗口机制工作过程定义的新写请求当前可用的读请求。可以看出,并发控制是为每个请求中执行时段。

此外,窗口机制的计划包括一个动态的实践。大量生产动态请求窗口在每个处理器,一个为每个请求的对象。一个请求窗口数据d在一个处理器是象征。每个请求FIFO-type窗口的窗口大小τ收集最τ的请求数量τ类似的数据的时间单位。此外,两个计数器,和 ,为每个连接。有一个初步的值τ和的值由每个时间单位一个递减直到它触及到0。将跟踪请求的时间期限。窗口机制中描述的算法1。

	初始化服务器和subservers
	为每个时间单位
	如果有请求请求数据d随着时间期限
	如果不存在
	生成并将请求插入 ;
	; ;
	如果要求是读请求
	将请求插入 ; ;
	其他的
	服务请求 ;将请求插入 ; ; ;
	如果
	如果
	结束了
	为每个窗口目前现有的请求在处理器问
	; ;
	如果
	服务请求 ;删除 ;
	如果(问是一个服务器的数据 )
	无效的副本适合的处理器 ;
	空 ;

	如果
	其他的如果
	服务请求 ; ; ;
	如果
	结束了

可以看到,处理请求在请求窗口可以由一个特定请求的期限义务和不完全受制于请求的实现窗口。事实上,三个条件可以激活请求的即时服务。在任何时候,的在处理器问范围0,将被删除从问,窗口机制将重置在问来。同样地,如果问是一个服务器的数据d,然后问将直接控制消息处理器我是无效的n无效数据的副本d和空白。成功的请求数据d在处理器问将审议的第一个请求数据d,将重新启动窗口机制。因此,请求结构引入被认为是通过其独特的一生 ,很明显,通过使用窗口机制,一个将主要分为许多阶段P(1),P(2)、…P(r)。每个阶段都符合I型或II型。虽然我阶段包括许多类型的读请求,II型阶段包括写请求进行大量的读请求。每当阶段产生变为现实,窗口机制将请求序列证明阶段没有任何了解即将到来的阶段(44]。

它必须注意到一个请求窗口的程度τ在我们的系统中是一个关键参数。不同的估计τ带来不同的执行系统。的估计τ应该解决基于节点的能力(例如,CPU,内存限制和网络数据传输),系统请求到达率,和最后期限迫使应用程序请求。很明显,估计τ不应该太小了。如果τ= 1,在这一点上,每个请求帧序列的请求,每个请求窗口将会在一个时间单位生产和擦除。这将突然消耗绝大多数的处理器的计算能力。它还必须注意到,如果请求太短的期限由系统过程中,某些请求系统可能会下降。不失一般性,最后期限由一个请求,可以有效地处理系统至少相当于1。这样的下降称为请求阻塞请求要么离开系统或重新提交,取决于底层应用程序。它可以由该模型的接纳控制机制。

4.3。复制品选择和放置问题

副本的选择和放置在分布式系统的问题可以通过考虑定义包含一个分布式系统K被复制到数据对象N服务器。让和服务器的名称n和数据对象k相应地,。和表示服务器的能力n和数据对象的体积k分别在哪里和。在两个服务器之间的联系和(如果发生)有一个整数 ,这提供了沟通成本服务器之间传输的数据单位和。据推测, 。让和是读和写的数量要求请求从服务器n为数据对象k。每个数据对象有一个主服务器 ,该基金持有的主要副本吗。主数据对象的复制不能收回。图3显示了副本的副本放置策略已经被选择后确定位置的约束,然后进行了实际应用。

预计每个主服务器的复制表示kth数据对象, ,由服务器的列表在哪里是复制的。为了实现一个写请求,从源服务器获取更新请求,请求更新数据对象广播到所有服务器的复制表示。分配副本副本放置问题的主要目标是在所有的服务器以降低总运营成本 ,这是由两个模块,和。因此,得到如下: 在哪里总运营成本是由于所有服务器读请求吗和总运营成本由于所有服务器写请求。

和给出如下: 在哪里附近的服务器吗包含的复制品。

因此,简洁的TOC基于总读写请求的成本获得所有数据对象如下:

减少这个方程是复制品选择和放置问题的解决方案在分布式系统。这是实现这个模型通过使用多目标萤火虫群优化算法优化选择复制品的数量和位置的服务器位置的复制品。

4.4。MGSO-Based复制品选择和放置

在这个模型中,每个萤火虫代理( )是一个矩阵与布尔组件(45]。问题是模仿复制到每个萤火虫,它走向光明的萤火虫,即。,确定哪些处理器更适合存储复制数据。利用萤火虫和代理的布尔矩阵,采用逻辑操作。执行的逻辑或操作的处理单元将所选的萤火虫对更好的亮度(即。更好的复制条件)。让元素如果包含的复制品和否则。每个代理的健身价值计算的TOC的百分比,这是保存使用的复制策略算法,相对于最初的一个,即,只有主副本存在。该值指示复制模式的解决方案质量与萤火虫的代理。适应度函数计算如下: 在哪里是复制的TOC方案我th代理和 ,TOC的初始分配,计算只存在当主数据对象的副本而不是复制品。

除了布尔逻辑运算,MGSO的更新和其他进程也需要由指定的代理进行处理。每一个的有效性影响服务器的能力。多目标静止最重要的原则是解决的办法不是绝对的最优解作为共同静止,因为只有选择最可行的最优解中,这不能被认为最佳的100%。人口和步长为一系列初始化随机排序的过程。荧光素更新执行过程如下: 在哪里代表与萤火虫荧光素水平相关我在时间t,荧光素衰变常数吗 ,γ荧光素增强常数,表示目标函数的值在萤火虫我th位置时t。

在运动阶段,每一个萤火虫决定,使用概率机制,走向一个邻居有荧光素值高于自己。然而,为了增加种群多样性和收敛速度,干扰项添加到位置更新公式: 在哪里 ,年代一步,可控制的扰动范围, ,符合正态分布的随机数。算法参数设置提前,这是相关的问题。的范围值0到1,但总的来说,的价值设置为0.001。

当萤火虫只取决于当地的信息来选择他们的动作,预计山峰夹的数量将会是一个函数的径向传感器范围。因此,GSO利用一种自适应社区范围内为了检测多个山峰的存在在一个多通道实用景观。它是代表如下: 在哪里是社区范围,是社区范围对步长,是一个常量参数,是一个参数用来控制数量的邻居。复制过程的完整MGSO过程给出了在分布式系统中所示的算法2。

	初始化种群N,步长年代
	设置服务器(解决方案)
	一个= 0;所有解决方案将被放置在主导一个
	让t= 0;
	计算 ;
	更新 ;
	确定的运动方向 ;
	更新位置;
	一系列排序过程启动;
	更新一个;
	t=t+ 1;
	直到
	副本在在一个;
	结束

最耗时的部分与人口相关的算法初始化和更新最好的位置是通过在每个迭代中明显。初始化的时间复杂度N明显是。为了更新最好的社区位置在每个迭代中,健身价值必须被考虑。健身价值计算的时间复杂度。因此,解决副本放置的时间复杂度通过MGSO是在分布式系统。

5。仿真结果

5.1。Hadoop MGSO-Based复制算法的仿真验证

拟议中的MGSO-based MGSO的动态复制算法使用策略动态窗口机制解决上限定理的局限性。任何算法的理论合理性成为使节时几乎不可行。因此,验证MGSO-based算法执行的Hadoop集群。Hadoop框架由Hadoop分布式文件系统(HDFS)和MapReduce框架,这是高效的局域网设置多个集群服务器和subservers进行评估。HDFS支持利用记忆的目的,而不需要用户购买云或其他存储平台。集群设置确保有足够的客户端系统之间数据传输在遥远的位置没有包丢失和以最小的能源消耗。正如上面说的,为验证,一个原始数据库组成的数据收集从三个不同的领域。原始数据库包括环境传感器采集的数据和社会收集的数据来自Twitter和YouTube。最初,这三种类型的数据是结构化的,这最终将精制复制主副本存储期间使用窗口机制。让帮助我们验证结果证明该模型的性能。

让我们以上述数据库模拟算法。最初的Hadoop设置完成的指令手册,然后模拟完成的主要项目。图4显示了设置的初始过程主要数据拷贝复制在一个分布式系统。这些数据是包含所有的主要来源收集的数据的三种类型,即YouTube、传感器和Twitter。

(一)

(b)

图5显示窗口机制复制过程的影响。图5(一个)说明了所需的实际设置初始化窗口机制,而图5 (b)显示了查询/请求分析基于数据分类的请求。根据请求,每个数据的需求是获得有助于确定副本的数量。

(一)

(b)

图6显示了接纳控制机制后的后端服务器表的存储和处理能力,每个服务器/存储处理器。这些信息将用于选择处理器的数据复制。图7显示了复制品选择和放置过程进行基于图的概念3利用MGSO算法。

图8显示了使用MGSO复制品选择。这个过程是在窗口的初始化机制实现的。当原始数据分为三个单独的类别,最适合存储的促进使用MGSO选择特定类别。

图9显示了MGSO-based副本放置阶段。在这个阶段,基本上是一个类别的数据的副本放置在相关的服务器在另一个集群。这些数据可以通过一个用户获取查询的客户和在需要时。

图10显示的数据复制表位置保持在每个集群服务器作为优先级选择的路由表在任何用户查询时。基于这些表,选择最好的服务器集群中的服务器来获取相关数据查询当客户提出了一个查询。

查询过程中所描述的人物(11日)和11 (b)。当用户需要查询,他们亲密的查询客户端系统,进而转发到相应的服务器上。如前所述,服务器检查查询的数据的可用性,和基于存储服务器的优先位置,它选择服务器以最小的消耗时间。然后转发请求要求,数据获得了写请求,如图11 (b)。

(一)

(b)

5.2。绩效评估

使用Hadoop系统模拟,提出MGSO-based模型的性能相比其他算法。MGSO-based复制算法的性能与以下四个复制算法,即最常用(LFU),最近最少使用(LRU),三级分层算法(3方面),和带宽不能复制算法(BHR)。执行时间是多久运行一个程序在时间复杂度的渐近性态运行时间趋于无穷时作为输入大小。在这种评价,平均执行时间的平均使用时间采取的算法来选择最优副本和随后的位置和时间为12的迭代执行一个读/写请求。我们利用这个参数来评估该模型的效率。

图12说明了复制的平均执行时间比较算法的存储大小,而图13显示的比较算法的平均执行时间对文件大小。它可以观察到,MGSO-based动态复制算法具有较小的执行时间相比其他算法。同样,即使大文件用于复制,该模型具有更少的执行时间,从而证明了模型的性能。可以验证这个偏差的原因是窗口机制和显著减少执行时间最优副本选择的概念。

图14显示了副本的执行时间的选择与位置排列信息,和图15显示1读请求的执行时间不同的文件大小。其他算法的执行时间大大高于该MGSO-based模型最优数量的副本选择更少的时间内执行的处理器和随后的选择也是最优的。由于这个原因,MGSO选择过程的算法具有更好的性能。同样,该模型消耗更少的时间在执行1读请求不同的文件大小。即使增加文件的大小,该模型优于其他模型的速度执行。上还设有一个辅助处理器的可编程加速器更有效地执行各种任务和附加许多外围设备启用有效的性能。摘要平均执行时间被认为是主要的效率标准分析数据的可重用性和并行化。在这方面,选择配置具有可比性。为了确定最佳的实现中,几个选择进行了探讨。最简单的方法是对主机处理器执行整个算法; this approach was used as a benchmark to assess the improvements made by the different implementations. Even though this approach incurs some negligible overhead due to replica operations, the improvement in execution time favours this approach. Thus, from the performance evaluation, it can be concluded that the proposed MGSO-based dynamic replication algorithm is the better algorithm.

6。结论

分布式系统的亮点是大多数数据密集型计算的应用程序。这些系统支配大多数web服务和地理数据处理系统。的问题选择最优副本数量和副本服务器位置仍然继续把挑战是路障高效性能分布式系统的应用程序。本研究致力于开发动态数据复制算法实时分布式数据库使用MGSO,解决了现有开放挑战一个相当大的扩展。仿真结果也说明了高效的性能提出MGSO-based复制算法。在未来,MGSO-based复制算法可以加上适当的调度算法来提高系统的整体性能。模型还可以添加额外的参数,如容错和安全。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突有关的出版。

引用

a . s . Tanenbaum和m . Van Steen分布式系统:原则和范式美国,新世纪,上台北,2007年。
m . t . Ozsu和p . Valduriez分布式数据库系统的原则,施普林格科学与商业媒体,柏林,德国,2011年。
s . w . Ambler对象-关系数据库之间的映射:你需要知道什么,为什么浪人国际,伦敦,英国,2000年。
j . w .尤德r·e·约翰逊和威尔逊,对象-关系数据库之间的连接业务,51卷,伊利诺伊大学乌尔班纳,加尔各答,2005年。
p . Padmanabhan l . Gruenwald A Vallur, m . Atiquzzaman”的调查数据复制技术的移动ad hoc网络数据库、“VLDB杂志,17卷,不。5,1143 - 1164年,2008页。视图:出版商的网站|谷歌学术搜索
m . Wiesmann f . Pedone a . schip计划b . Kemme g·阿隆索,“理解复制数据库和分布式系统”20学报》国际会议在分布式计算系统中,2000年IEEE,页464 - 474年,台北,台湾,2000年4月。视图:谷歌学术搜索
p . Elango和k . Kuppusamy分布式数据库的数据复制使用决策支持系统时,“国际期刊的计算机应用程序,卷69,不。3,28-39,2013页。视图:出版商的网站|谷歌学术搜索
g .弯曲,d .薇薇安,木头,p . Zerfos和美国卡洛,“分布式基于策略的访问网络异构数据源ISR,”学报地面/空中多传感器互操作性,为持续的ISR集成和网络,第7694卷,第769406页,国际社会对于光学和光子学,2010年4月美国佛罗里达州奥兰多市。视图:谷歌学术搜索
z Guessoum, j . p . Briot n . Faci o·马林,“向可靠的多代理系统:一个自适应复制机制,“可替换主体和网格系统》第六卷,没有。1 - 24,2010页。视图:出版商的网站|谷歌学术搜索
r . Akbarinia m . Tlili e . Pacitti p . Valduriez和a . a .利马“dht连续时间戳高效复制管理”国际会议的程序在网格和P2P数据管理系统页,38-49施普林格、毕尔巴鄂、西班牙,2010年9月。视图:谷歌学术搜索
j·m·佩雷斯·f . Garcia-Carballeira j . Carretero a·卡尔德隆和j·费尔南德斯,“分支复制方案:一种新的模式在大规模数据网格数据复制,”未来一代计算机系统,26卷,不。1,12-20,2010页。视图:出版商的网站|谷歌学术搜索
m·h·扎克”,决策支持系统的作用在一个不确定的世界中,“决策支持系统,43卷,不。4、1664 - 1674年,2007页。视图:出版商的网站|谷歌学术搜索
m·g·马丁森和r·m·戴维森”战略决策和支持系统:比较美国、日本和中国管理”决策支持系统,43卷,不。1,第300 - 284页,2007。视图:出版商的网站|谷歌学术搜索
n . Hardavellas m . Ferdman b Falsafi, a . Ailamaki“活性NUCA:算法块位置和复制在分布式缓存,”ACM SIGARCH计算机体系结构的消息,37卷,不。3、184 - 195年,2009页。视图:出版商的网站|谷歌学术搜索
h . Muhleisen、t·沃尔特和r . Tolksdorf”自组织分布式存储系统的数据位置优化,”学报2011年第三世界国会对自然和生物启发计算(NaBIC)IEEE,页176 - 182年,萨拉曼卡,西班牙,2011年10月。视图:谷歌学术搜索
m . Patino-Martinez r . Jimenez-Peris b Kemme, g .阿隆索“MIDDLE-R:一致的数据库复制在中间件层,”ACM交易计算机系统,23卷,不。4、375 - 423年,2005页。视图:出版商的网站|谷歌学术搜索
f . Chang j·迪恩,美国格玛沃特et al .,“Bigtable:结构化数据的分布式存储系统,”ACM交易计算机系统,26卷,不。2,1-26,2008页。视图:出版商的网站|谷歌学术搜索
y Elouerkhaoui,“静态复制”信贷相关,页195 - 202,帕尔格雷夫麦克米伦,贝辛斯托克,英国,2017年。视图:谷歌学术搜索
e·德曼和n n·塔勒布,”动态复制的幻想。”定量金融学,5卷,不。4、323 - 326年,2005页。视图:出版商的网站|谷歌学术搜索
l . m . Khanli a Isazadeh, t . n . Shishavan“公积金:动态复制方法,降低访问延迟多层数据网格,”未来一代计算机系统,27卷,不。3、233 - 244年,2011页。视图:出版商的网站|谷歌学术搜索
k . Ranganathan和培养,确定高性能数据网格的动态复制策略,”国际研讨会网格计算程序施普林格,页75 - 86年,丹佛,有限公司,美国,2001年11月。视图:谷歌学术搜索
m·l·姚n . Mamoulis h . Lu和m . Vaitis”排名的空间数据质量偏好,”IEEE工程知识和数据,23卷,不。3、433 - 446年,2011页。视图:出版商的网站|谷歌学术搜索
p . Kunszt e·罗兰·h·长袜,k .袜子”文件的副本管理”,未来一代计算机系统,21卷,不。1,第123 - 115页,2005。视图:出版商的网站|谷歌学术搜索
林,s .李x辽、吴,杨和美国,“eStor:能源效率和弹性数据中心存储,”云计算和服务计算学报2011年国际会议上(CSC)IEEE,页366 - 371年,香港,中国,2011年12月。视图:谷歌学术搜索
r . s . Chang,惠普Chang和y . t . Wang”数据网格动态加权数据复制策略,”IEEE / ACS学报》国际会议上计算机系统和应用程序,2008年。AICCSA 2008IEEE,页414 - 421年,多哈,卡塔尔,2008年3月。视图:谷歌学术搜索
x盾、t . El-Gorashi和j . m . Elmirghani“绿色IP / WDM网络与数据中心”,光波技术杂志》卷,29号12日,第1880 - 1861页,2011年。视图:出版商的网站|谷歌学术搜索
李x, f . Ping, c·麦康奈尔r . Vabbalareddy和j·h·黄,“对最优跨数据中心,数据复制”分布式计算系统学报2011年31日国际会议研讨会(ICDCSW)IEEE,页66 - 71年,明尼阿波利斯,MN,美国,2011年6月。视图:谷歌学术搜索
w·李、杨y和d元,“小说具有成本效益的动态数据复制策略的可靠性在云数据中心”学报2011年IEEE第九次国际会议上可靠,自主和安全计算(DASC)IEEE,页496 - 502年,悉尼,澳大利亚,2011年12月。视图:谷歌学术搜索
问:魏,b . Veeravalli锣,l .曾和d·冯”CDRM:具有成本效益的动态复制管理方案对于云存储集群,”集群计算学报2010年IEEE国际会议(集群)IEEE,页188 - 196年,伊拉克里翁,希腊,2010年9月。视图:谷歌学术搜索
瞿y和n .熊”RFH:弹性、容错和高效复制算法分布式云存储”学报2012年第41届国际会议上并行处理(ICPP)IEEE,页520 - 529年,2012年9月匹兹堡,宾夕法尼亚州,美国。视图:谷歌学术搜索
y . f .林、吴j。j和p . Liu”基于列表的最优战略副本放置在数据网格系统中,”学报》第37并行处理国际会议,2008。ICPP 08年IEEE,页198 - 205年,波特兰,俄勒冈州,2008年9月。视图:谷歌学术搜索
诉Andronikou k . Mamouras k . Tserpes d . Kyriazis和t . Varvarigou“动态QoS-aware数据复制在网格环境中基于数据“重要性”、“未来一代计算机系统,28卷,不。3、544 - 553年,2012页。视图:出版商的网站|谷歌学术搜索
n . Bonvin t . g . Papaioannou, k .河口”自组织、容错、可伸缩的云存储复制方案,”云计算学报第一ACM研讨会ACM,页205 - 216年,印第安纳波利斯,在美国,2010年6月。视图:谷歌学术搜索
d·博茹,d . Kliazovich f . Granelli p . Bouvry和a . y . Zomaya”在云计算数据中心节能数据复制,”集群计算,18卷,不。1,第402 - 385页,2015。视图:出版商的网站|谷歌学术搜索
y Mansouri、a . n . Toosi和r . Buyya”成本优化动态复制和迁移的数据在云数据中心,“IEEE云计算,2017年。视图:出版商的网站|谷歌学术搜索
诉纳和m·A·m·穆罕默德”prediction-based动态复制策略数据密集型应用程序。”计算机与电气工程57卷,第293 - 281页,2017年。视图:出版商的网站|谷歌学术搜索
锅,l .熊z, y庄,和孟问:“动态分布式GIS中复制管理策略”,电脑与地球科学卷,112年,页1 - 8,2018。视图:出版商的网站|谷歌学术搜索
e·布鲁尔,“一定的自由:上限定理,思想”第29届ACM SIGACT-SIGOPS学报》研讨会上分布式计算的原则ACM, p。335年,苏黎世瑞士,2010年7月。视图:谷歌学术搜索
吉尔伯特和n (merrill Lynch),”观点上限定理”,电脑,45卷,不。2,30-36,2012页。视图:出版商的网站|谷歌学术搜索
b·w·迪亚克,美国Ndiaye和y Slimani,“上限定理之间的索赔和误解:什么是牺牲,”国际先进的科学和技术杂志》上,卷。56岁的1 - 12,2013页。视图:谷歌学术搜索
m . Kleppmann“批判上限定理,”2015年,http://arxiv.org/abs/1509.05393。视图:谷歌学术搜索
o . Patinge诉Karkhanis, a . Barapatre“上限定理的不足”,国际期刊的计算机应用程序,卷151,不。10、18 - 20,2016页。视图:出版商的网站|谷歌学术搜索
n . k .吉尔和s·辛格cost-aware,动态优化的数据复制策略对于异构云数据中心,“未来一代计算机系统卷。65年,10-32,2016页。视图:出版商的网站|谷歌学术搜索
l . Wujuan和b . Veeravalli对象复制算法实时分布式数据库”,分布式和并行数据库,19卷,不。2 - 3、125 - 146年,2006页。视图:出版商的网站|谷歌学术搜索
b . k . Panigrahi y史,m·h·林手册的群体智慧:概念、原理及应用,8卷,施普林格科学与商业媒体,柏林,德国,2011年。