科学的规划

PDF
科学的规划/2020年/文章
特殊的问题

大数据管理和分析在科学编程

把这个特殊的问题

研究文章|开放获取

体积 2020年 |文章的ID 1704258 | https://doi.org/10.1155/2020/1704258

鹏威王Caihui赵、魏,王栋,朝晖, 一种自适应数据放置Multicloud环境中的架构”,科学的规划, 卷。2020年, 文章的ID1704258, 12 页面, 2020年 https://doi.org/10.1155/2020/1704258

一种自适应数据放置Multicloud环境中的架构

学术编辑器:爱宝的歌
收到了 2019年10月23日
接受 2020年2月24日
发表 2020年6月10

文摘

云服务提供商(csp)可以提供无限的存储空间和更便宜的维护成本相比传统存储模式。用户倾向于将它们的数据存储在地理和多样化的csp,避免厂商锁定。静态数据放置在最近作品已被广泛研究。然而,数据访问模式通常是时变和用户可能支付更多成本如果采用静态位置在数据生命周期。因此,它是一个悬而未决的问题和挑战,如何动态地存储用户的数据在时变数据访问模式。为此,我们提出ADPA,一个自适应的数据架构,可以调整位置数据布局方案基于时变数据访问模式和主题总成本最小化和最大化数据的可用性。该建议的体系结构包括两个主要部分:数据检索频率预测模块基于LSTM和数据位置优化模块基于q学习的。ADPA的性能评估通过几个实验场景使用NASA-HTTP工作量和云提供商的信息。

1。介绍

随着云计算的发展,越来越多的公司采用云存储的数据维护成本低、可靠的sla(服务水平协议)比较传统的数据存储模式。许多主流云服务提供商(csp)提供各种数据存储服务,以满足不同用户的要求。相同的功能服务的定价是不同的云服务提供商之间(csp)。相同的价格政策CSP在不同地区不同。数据中心之间的数据迁移的成本相同的CSP是便宜的比不同的CSP。

除了高迁移成本的约束,一个云计算面临的风险供应商锁定;即。,major risks include the price of cloud services and the interruption of SLA. These situations may result in making users pay expensive migration costs. In our previous work, we have proposed an ant colony algorithm-based approach for cost-effective data hosting with high availability in multicloud environments [1]。为了避免厂商锁定,我们可以将原始数据和存储数据块划分为多个csp。此外,有一个更全面的解决这个问题(2]。我们的目标是提供一个具有成本效益和高可用数据放置在multicloud环境中根据用户的要求。

在以前的工作1- - - - - -3),数据对象的工作负载影响数据布局方案的选择。数据相关工作负载数据检索(DAF)(即频率。,获得率)在一个固定的时期。数据生命周期的位置,工作负载是时变的。高的数据对象的数据操作和热点状态,这是更可能是存储在另外csp out-bandwidth成本较低。相反,较低的数据对象来说,存储量和冷点的地位,这是更可能是存储在csp存储成本较低(4]。如果用户适应相对low-accessible频率的数据布局方案的整个生命周期的数据存储,它可能产生更多out-bandwidth当来说,增加成本。在另一起案件中,如果用户使用的策略更适合热点地位在整个生命周期的数据存储、DAF)减少时可能会产生昂贵的存储成本。

为了减少总成本,提高可用性数据对象生命周期期间,有必要开发一种机制来动态调整基于数据对象的数据布局方案的工作量。由于未来的不确定性数据的工作量,总体成本不能得到最好的结果。因此,预测未来工作负载是一个关键的动态数据放置机制的一部分。当未来的工作负载,如何设计一个动态布置方案基于未来的访问频率变成了另一个重要组件。

ADPA,动态主机具有成本效益和高可用性的数据对象基于时变数据的工作量,是一种自适应数据放置架构提出了我们的研究。我们的研究的主要贡献如下。首先,我们提出一个LSTM [5基于负载预测)算法。它可以使用历史负荷数据来预测未来。其次,动态数据放置算法提出了基于强化学习。它可以根据工作负载的变化,以确保数据迁移成本优化和可用性。最后,我们评估ADPA通过一些实验场景。结果表明,ADPA算法优于SOA不仅算法,还可以节省更多的时间比算法和DP算法获得最优数据放置。

本文的其余部分组织如下。部分2讨论了相关工作。部分3介绍了自适应数据放置的动机。部分4描述了自适应数据放置的体系结构。部分5介绍了该算法。我们的算法的性能是通过广泛的实验显示通过使用真实的云信息部分6。最后,部分7总结了这篇论文。

有许多研究在云计算数据布局优化。我们可以把这些研究分为两类基于数据存储方案是否可以调整根据工作负载:静态数据和动态数据放置位置。在静态数据的位置,数据提前布置方案确定,不适应工作负载变量数据对象。然而,在动态数据的位置,可以获得数据布局方案根据DAF的变化。在下面,我们审查和讨论,分别。

2.1。静态数据位置

在[6),作者目前的可用性服务和数据锁定为云计算是两个障碍。在云存储、复制和擦除编码广泛用于提高数据可用性(7]。为了避免数据锁定,multicloud扮演重要的角色在数据存储。

Mansouri et al。8]提出的方法复制数据对象在多个数据中心来提高数据可用性,避免数据锁定。在[9),作者适应擦除编码,以确保数据安全,减少许多不合理的假设下的总成本。阿(10)关注降低数据存储和提出了两种有效的算法来解决这个问题。但out-bandwidth成本被忽略。在这些研究中,每个数据项是固定数量的一个静态方法;瞿et al。11)提出了弹性、容错和高效全球复制算法(RFH)来确定每个数据项的复制、迁移和自杀。

上述的研究只优化以减少货币成本或提高数据可用性在其他QoS指标。之间的权衡成本和可用性是不考虑。王等人。1]提出一种基于蚁群算法的方法,最大限度地减少总成本,提高数据可用性通过擦除编码。这仍然是一个单目标优化问题。在[12),刘等人使用多目标粒子群优化算法来最小化存储空间成本,数据迁移成本和通信成本以及提高存储的可靠性。然而,他们不能确定如何选择帕累托最优的解决方案。

上述所有工作只考虑静态数据放置和忽视工作负载的不确定性数据对象。一旦改变了数据对象的工作负载,数据放置方案需要重新计算。

2.2。动态数据位置

动态数据放置在云存储成为一个热门的研究方向。Zhang et al。3)提出一个数据托管方案包含一个过渡的存储模式基于数据访问频率的变化。然而,他们只提出转会条件而不考虑全局数据放置顺序优化问题。在[13),苏等人提出一个系统的模型,为了制定数据放置优化multicloud环境中复杂的需求。他们也只讨论数据迁移对于开发人员没有做出最后的决定。

由于未知的未来的数据访问模式,以上研究提出的不是自动数据迁移。Mansouri et al。4提出两种在线算法,住宅和迁移成本做出权衡。由于缺乏未来数据对象的工作负载,作者使用确定性的在线算法来解决这个问题。

实现动态数据复制策略基于真实数据访问模式,吉尔和辛格14)提出一个动态cost-aware rereplication和再平衡战略。该方法首先确定哪些文件,当复制基于文件的声望。越受欢迎,可能文件被复制。然后,它计算副本数量,以满足可用性需求。最后,一个副本放置机制提出了。李雅普诺夫优化是一个在线控制方法来解决这个问题,关闭的最佳解决方案。在[15),秋等人适应李雅普诺夫为动态内容分发服务部署不需要任何未来请求到来的信息。在其他作品的动态优化的存储、t . Sreenath Reddy和g MURALI16)使用遗传完全记录传播的替代技术和动态请求分组的重定向的成本降到最低。使用的算法IMPSO [17]也激发了我们的工作。

除了上面的方法,一个方法基于历史工作负载模式也有效解决动态数据的位置。在[18],Papaioannou等人提出一种云存储经纪业务解决方案,它可以定期验算的最佳提供者使用数据访问设置静态采样周期。它可以调整数据位置动态变化数据访问模式。近年来,强化学习(RL)已经收到了广泛的关注。RL是一种强大的方法很长一段时间下决策的不确定性(19]。据我们所知,没有研究使用RL优化动态数据的位置。

在本文中,我们提出一种自适应数据放置方法主要包含数据检索频率预测和数据位置的优化。在数据检索频率预测模块中,我们适应LSTM预测未来工作负载的数据对象。在数据放置优化模块,基于q学习的一种方法用于获取序列数据位置的解决方案根据工作负载预测数据对象。

3所示。动机

3.1。动态数据对象工作负载

DAF时变的数据对象。我们收集的NASA-HTTP跟踪描述所有HTTP请求美国宇航局在佛罗里达州肯尼迪航天中心WWW服务器(24]。我们计算来说,在一个10分钟的循环。如图1,它描绘了DAF的改变从01 / 7月/ 1995:0时:0到07年7月/ 1995:23:59:59。之间的差异最大DAF)值和最小DAF值接近2。在夜间来说是相对较低,但增加了白天。数据布局方案需要根据DAF的变化动态调整,将部分讨论3所示。3

3.2。异构云计算市场

现在有许多csp提供存储服务,我们收集四个最受欢迎的csp的定价策略:Amazon S3 (20.),微软Azure云存储(21阿里巴巴云计算对象存储(),22),谷歌云存储(23如表所示1。从用户的成本,CSP的选择是云计算的一个研究方向。在我们之前的工作中,我们提出了一些方法优化选择的云实例类型(25- - - - - -27]。实际上,价格相同的功能提供的存储服务相同的CSP在不同地区是不同的。同样的价格功能存储服务在csp也是不同的。例如,Amazon S3在纽约,美国、存储价格低于在东京。例如,纽约Amazon S3存储成本低于微软Azure云存储在纽约。


CSP Amazon S3 (20.] 微软Azure云存储(21] 阿里巴巴云计算对象存储(22] 谷歌云存储(23]
纽约 东京 伦敦 纽约 都柏林 香港 北京 旧金山 悉尼 亚特兰大 圣Ghislain 彰化县

存储的价格 0.0125 0.019 0.0131 0.0208 0.022 0.024 0.0226 0.02 0.0209 0.026 0.026 0.026
Out-bandwidth价格 0.05 0.12 0.05 0.02 0.02 0.9 0.117 0.076 0.13 0.02 0.02 0.2
Get请求的价格 0.004 0.0037 0.0042 0.004 0.004 0.004 0.001 0.001 0.002 0.004 0.004 0.004

3.3。讨论

动态数据对象工作负载和异构云市场激励我们提出一种自适应数据布局方案。然后,我们通过NASA-HTTP例子中详细讨论这一点。

访问频率较低时,数据与存储成本低适合csp。但是这些云服务提供商的带宽成本可能相对较高。我们假设Amazon S3在纽约、东京和伦敦选择的数据布局方案,因为降低存储成本。Amazon S3的out-bandwidth价格在纽约、东京和伦敦非常昂贵。随着时间的流逝,DAF逐渐变大,输出带宽价格会非常高。如果用户将他们的数据迁移到csp out-bandwidth较低的成本,他们可以节省更多的钱,即使他们需要支付额外的迁移成本。

在这项研究中,我们提出一种自适应数据布局方案动态调整DAF-based数据存储方案的总成本最小化。

4所示。一种自适应数据放置的架构

在本节中,我们提出一种自适应数据放置建筑成本效益multicloud高可用性。然后,我们制定架构的问题。

4.1。体系结构概述

2描述了体系结构的动态数据位置。有四个部分:云存储信息的收集,优化模块,工作量统计模块,预测模块

云存储信息的收集是用来收集信息的csp包括存储价格,out-bandwidth价格,和操作成本。除此之外,它接收DAF预测调整数据布局方案。

优化模块用于优化数据布局方案根据用户的要求包含数据对象的大小,所需的可用性、初始DAF,等等。

工作量统计和预测模块负责收集历史数据的工作量,根据这些历史数据预测来说,接下来的一段时间。

4.2。问题定义

详细描述动态数据布局架构,我们推出以下定义。本文中使用的符号表中列出2


符号 描述

的数据中心
数据中心的总数
存储的数据中心
Out-bandwidth价格数据中心
操作数据中心的价格
数据中心的位置 ,它包含经度和纬度
数量的时段
数据访问频率在时间槽
所需的可用性
所需的数据检索延迟
擦除编码的参数
数据对象的大小
数据放置在时间槽的解决方案
时间的可用性解决方案的槽
存储解决方案的成本在时间槽
网络解决方案的成本在时间槽
在时间槽运行成本的解决方案
仓储成本的总和,网络成本和操作成本在时间槽
迁移成本
数据中心的数据检索时间槽
数据检索延迟时间槽
候选数据放置的解决方案
放置在最优数据

定义1。(数据中心规范)。假设有 数据中心 每个数据中心 元组: ,在哪里 定义了数据中心的概率 是可用的。

定义2。(数据对象规范)。假设有一个数据对象的大小 和DAF 在哪里 ,所需的可用性 ,和所需的数据检索延迟
在这项工作中,我们也擦除编码适应避免厂商锁定,提高数据可用性,降低存储和out-bandwidth成本相比,复制。值得注意的是,以下定义的可用性和成本(类似1,3,13),这是一种通用的方式来定义他们的数据托管在擦除编码模式。我们给擦除的定义编码。

定义3。(擦除编码)。一个 - - - - - -擦除编码表示的数据对象分为 块和编码 块进 块。用户可以通过任何检索数据 块。

定义4。(数据可用性)。因为用户可以容忍 关闭数据中心的同时,数据可用性是所有情况的概率之和 DCs同时可用, 假设 表示数据存储数据中心选择的时间段 ,在哪里 我们使用 指示病例的数量 数据中心是可用的。 表示 数据中心集合 情况下在时间槽 数据可用性在时间槽 可以定义如下: 在哪里 数据中心是不可用的。

定义5。(存储成本)。存储成本存储成本的总和 数据中心。它可以计算的 在哪里 表示数据存储在每个数据中心的规模。

定义6。(网络成本)。用户可以通过任何检索数据 数据块。我们选择 数据中心out-bandwidth最低的价格来检索数据。由于DAF时变,网络相关的成本 每个时间段的。它可以计算如下:

定义7。(操作成本)。操作成本可以定义如下: 值得注意的是,的价值 在(3)和(4)是相等的。

定义8。(基本费用)。的基本费用 仓储成本的总和,网络成本、经营成本在时间槽 它可以被定义为

定义9。(迁移成本)。不同的是可能对应于不同的最优数据放置的解决方案。产生昂贵的费用如果用户调整前面的解决方案。因此,它可以节省更多的成本来说,动态调整数据显示位置。但位置调整的数据意味着数据迁移也需要成本。数据迁移不是时刻DAF的变化,而是满足成本的条件保存新的解决方案(与旧的相比)可以覆盖迁移成本。我们使用 表示数据的交叉放置时段的解决方案 需要数据迁移的数据中心 迁移成本可以定义如下: 那里的条件如下:

定义10。(数据检索延迟)。数据检索的数据中心 在时间槽 数据中心out-bandwidth最低的成本。数据检索延迟的最大延迟 由于数据检索延迟是由网络延迟,我们使用往返时间指示数据检索延迟4,28,29日]。我们使用的计算方法30.),如下: 在哪里 是用户和数据中心之间的距离。

4.3。优化问题

在ADPD,它旨在获取数据放置的解决方案 在每个时间段的总成本 是最小化。优化问题定义如下: (1) , (2) , (3) ,

约束条件(1)表示 在每个时间段的数据块。约束条件(2)和(3)确保数据放置的解决方案满足用户所需的可用性和数据检索延迟在每个时间段。显然,这个优化问题是np困难的。

5。解决方案

在本节中,我们描述ADPD的实现。首先,我们适应LSTM DAF)预测的数据对象。为了有效地决策,解决这个问题的方法主要是基于q学习的,是一个off-policy时间差异(TD)控制算法31日,32]。

5.1。来说,预测

最近,有许多机器学习方法包括支持向量机(svm),线性回归(LR),随机森林(RF),再邻居(资讯)采用预测。在这项研究中,我们使用LSTM预测未来DAF)。我们还可以使用其他更精确算法代替LSTM算法1

输入:所需的长度 系列的预测,一个训练有素的LSTM模型
输出:预测未来DAF);
(1) = 0;
(2) 提要中的数据窗口 并得到一个预测 ;
(3)
(4) 滑动窗口的一步,把新预测值 结束时的滑动窗口;
(5) 饲料新窗口中的数据 和得到另一个预测
;
(6) ;
(7) 结束时

因为我们以前的工作是云现货实例预测的价格的问题是时间序列数据预测(33]。在这项研究中,我们也使用滑动窗口分割的历史来说,数据。来说,预测,它的目标是找到一个函数 历史是用来预测未来DAF。

5.2。数据位置优化

在本节中,将数据布局优化的目标是获得最优解 根据未来DAF)。假设 代表候选人数据放置的解决方案在每个时间段, 显示数据的最优布置方案 ,在哪里 我们描述数据位置的过程 通过图3。为每一个 ,它具有马尔可夫性质。原因是解决方案的选择下一个时间段只与当前选中的计划和独立于前面的选择。它可以表示为

在数据放置过程中,成本直接决定了计划的选择。和数据位置的优化是一个序贯决策问题在我们的纸上。所以我们可以把它马尔可夫决策过程(MDP)和解决它通过强化学习(RL)。MDP的数据放置过程可以定义如下34]。

定义11。数据放置过程(MDP)。我们可以放置过程分为MDP传输数据,这是一个5-tuple一:(1)用一组有限的状态 (2)一组有限的行动 解决下一个时间段的选择吗(3) 数据放置的概率是 在时间槽t时的选择 结果在溶液中 在时间t+ 1(4)一个奖励函数 是解决方案的负面价值转换总成本 当采取行动 两个时段(5)折现系数 ,这是未来的关注奖励吗RL的目标是找到最优政策基于MDP。RL如图的基本架构4(32]。代理不仅与环境交互通过使行动根据当前状态,但也会立即奖励和观察的状态(32]。RL的目标是找到一个最优策略以最大化从每一步获得的奖励。在此优化问题,奖励函数定义如下: 所以,这个问题可以视为RL的目标 在哪里 在时间段是最优数据放置的解决方案
对于上述问题,q学习是广泛使用的表格RL算法(19,31日)这是一个off-policy TD控制。它被定义为31日] 在哪里 这是定义在(10), 是学习速率。
如前所述,我们将时间序列数据位置优化成一个MDP和适应基于q学习的方法来解决这个问题。为此,我们提出一个MDP,来自数据位置优化最重要的方法。算法2代表了传输方法。为了满足约束(1)- (3)(9),我们过滤所有候选数据位置的解决方案根据他们的可用性和延迟(第5行)。在整个生命周期的数据存储、DAF是时变的,从而导致成本的波动。然后,我们计算的状态矩阵,包含基本的成本都满意的解决方案(例如, )在每一个时间段(6 - 9行)。最后,两种解决方案在时间槽之间的迁移成本 需要计算的传递矩阵 矩阵(12到16行)。因为相同的两个解决方案之间的迁移成本是免费的,对角线上的值矩阵都是0。
与一般的MDP相比,不仅奖励函数包含状态之间的价值,也是国家的价值定义在(10)。基于上面的MDP,我们提出基于q学习的一种方法。该方法的核心是计算和更新的问表格的基础代理选择下一个时间段的行动。本文解决了基于时间的序贯决策问题以来,Q表还有一个时间维度。问列表是基于战略(12)。下一个状态的价值功能是适应更新当前状态,叫做自展(32]。基于q学习的方法是一个off-policy方法;即行动策略和目标策略是不同的。在q学习,行动选择的策略 - - - - - -贪婪和目标是贪婪。算法3代表了基于q学习的数据放置方法。

输入:数据中心的规范, ,来说, ,所需的可用性, ,所需的数据检索延迟,
输出:状态矩阵, ,转移矩阵,
(1) 计算所有 - - - - - -数据中心的组合
(2) 对所有
(3) 计算的可用性 通过(1);
(4) 计算延迟的 通过(8);
(5) 如果 然后
(6)
(7) 计算成本的基础 通过(5);
(8) ;
(9) 结束了
(10) 如果
(11) 结束了
(12) 对所有
(13) 对所有
(14) 计算之间的迁移成本 通过(6);
(15) 结束了
(16) 结束了
(17) 返回 , ;

6。评价

在本节中,我们首先描述实验中使用的数据集。然后,我们提出一个基本算法验证的必要性来说,预测未来。由于蚁群优化算法(ACO)和遗传算法(GA)被广泛用于解决优化问题(1),我们与他们比较ADPA通过不同的实验场景。

6.1。设置

在这部作品中,设置来说,数据中心的规范,和实验参数如下。

但是。来说,

我们使用的实际工作量跟踪NASA-HTTP从[24)包含两个月的所有HTTP请求美国宇航局在佛罗里达州肯尼迪航天中心WWW服务器从01 / 7月31日/ 8月/ 1995 / 1995。每一块数据NASA-HTTP代表一个请求,包括主机、时间戳、请求,HTTP应答代码和字节的回复。在我们的论文中,为了获得数据访问频率,我们统计的数量得到操作在一个特定的时期,也就是600秒。跟踪分离的训练和测试集LSTM比率 ,分别。

输入:状态矩阵, ,转移矩阵,
输出:最优数据位置的解决方案中 ,
(1) 初始化参数的算法,包括学习速率 ,折扣
(2) 初始化列表 为零;
(3) 开始初始化状态;
(4) 初始化数据放置序列 ;
(5)
(6)
(7) 选择可行的数据位置通过方程的解决方案
(8) 选择一个数据位置的解决方案 通过 - - - - - -贪婪的功能;
(9) 附加 ;
(10) 获取下一个状态 ,奖励 ,和下一个状态
(11) ;
(12) ;
(13) 衰变;
(14) 结束了
(15) 结束了
(16) 发现成本最低的序列 ;
(17) 返回 ;
6.1.2。数据中心的规范

数据中心的真实信息,包括存储价格,out-bandwidth价格,得到收集操作价格,经度和纬度,从csp官方网站20.,22,23,35]。我们使用来自不同CSP的18个数据中心,每个CSP的数据中心位于不同的城市。我们还模拟中的每个数据中心的可用性值(95.0%、99.9%)间隔。

6.1.3。实验参数

在实验中,我们选择 - - - - - -擦除编码的数据分割方法。LSTM滑动窗口的大小为12。最初200 GB大小的数据对象。所需的可用性和数据检索延迟最初 和1000 ms。

6.2。ADPA的性能

时变DAF数据位置,我们不能获得的全球数据位置的解决方案,因为未来DAF的缺失。在我们的方法中,我们首先对全球最优预测未来DAF数据放置在数据存储的生命周期解决方案。为了验证ADPA的性能,我们提出一个逐步优化算法称为SOA如下。

6.2.1。SOA算法

所示的算法4。该方法通过贪婪最小化总成本。初时段,该方法发现数据放置在所有候选解决方案基本成本最低的解决方案。然后,数据对象允许总成本最低的解决方案目前槽(第3行)。事实上,SOA是局部优化的最优解。

输入:状态矩阵, ,转移矩阵,
输出:最优数据位置的解决方案中 ,
(1) 计算数据位置最低的解决方案
(2) t= 1 - t - 1
(3) 找到解决方案 ;
(4) 结束了
(5)
(6) 返回 ;

基于DAF的预测,我们可以获得全局最优数据放置的解决方案,但贪婪是局部最优的解决方案。为了验证这种情况下,我们研究ADPA和SOA的总成本由不同数据规模和数据检索延迟,分别如表所示34。显然,ADPA可以保存的结果 , , , , 比较贪婪与数据大小从100 GB 500 GB,分别。由于缺乏未来DAF的情况下,SOA只在当前时间段选择最好的解决方案,而忽略了未来的总成本的重要性。相反,ADPA,基于q学习的,选择当前的解决方案,不仅是基于当前的成本,而且对未来回报。


数据大小(GB) ADPA SOA

One hundred. 1027.01 1042.33
200年 2052.43 2082.52
300年 3077.85 3122.71
400年 4103.26 4162.90
500年 5128.68 5203.09


数据检索延迟(女士) ADPA SOA

200年 6305.49 6370.93
300年 5128.68 5203.95
400年 5128.68 5203.95
500年 5128.68 5203.95

如表所示4,我们研究两种方法的结果与数据检索延迟约束从200毫秒到500毫秒,时间段的数量是12(即。、2小时)和数据大小是200 GB。随着延迟约束的增加从200毫秒到500毫秒,ADPA的成本节约 松散的数据检索延迟时,与严格的延时,成本较低的方法探讨了解决方案在一个更大的范围。算法探索解决方案在附近地区的用户,以满足严格的延时约束。

在实际生活中,有不同程度的数据访问和这些情况有不同的使用场景。为了验证ADPA算法的普遍性,我们扩展NASA-HTTP请求数据的时间范围为一年(24日/ 1995年10月/ 1994 - 11 / 10月/)和执行DAF统计基于为期一天的周期。由于第二个数据集的时间范围宽,来说,它有一个低于我们的第一个数据集。实验环境是相同的;我们使用第二个数据集进行对比实验如表所示56。类似地,很明显,ADPA可以帮助用户节省更多的钱。


数据大小(GB) ADPA SOA

One hundred. 204.35 245.27
200年 408.44 490.10
300年 612.53 734.93
400年 816.62 979.76
500年 1020.71 1224.59


数据检索延迟(女士) ADPA SOA

200年 204.35 245.27
300年 164.65 188.16
400年 126.42 157.22
500年 126.42 157.21

6.3。与其他方法的性能比较

我们比较方法和配电网和DP通过以下实验场景。假设算法和遗传算法可以获得DAF ADPA预测的预测。

6.3.1。成本节约与不同的数据大小

在这个实验场景中,我们评估的成本性能ADPA当数据规模从100 GB增加到500 GB。从实验结果,我们可以知道,三种算法的总成本增加时,数据量的增加,和获得的成本的三个算法在不同数据大小是一样的。自从DP算法可以找到最优解,它可以证明ADPA解决解决方案的正确性。为了演示ADPA的优点,找到最优的解决方案所需的时间的三个算法如图5。可以看出,算法所需的时间大于ADPA和DP算法。算法ADPA高于DP数据大小是200 GB,和其他人比迪拜。

再。成本节约与不同时间段计数

在这个场景中,我们探索的影响时间槽计数( )在总成本 从10到18不等。从这些实验结果,我们可以知道越大 值,优化时间越长和成本的三个算法获得在不同时间段计数( )都是一样的。因为以上的原因一样,这证明了ADPA解决方案的能力。为了反映ADPA的优势,找到最优的解决方案所需的时间的三个算法如图6。可以看出,对于ADPA和DP,除了T= 10,本文提出的算法的运行时间是只有50%的DP算法;也就是说,ADPA可以在最短时间内解决最优解。

6.3.3。成本节约数据中心有不同的候选人

我们调查的影响候选人的数量数据中心( )在总成本。图7给出了结果 增加从12到15。候选人数据中心数量的变化是添加一个新的数据中心在前面集合。例如,当 ,数据中心的指数 我们添加一个新的数据中心指数13时这个集合 增加,候选的解决方案 有一个明确的增长趋势。假设数据检索约束是500 ms, ,数据大小是500 GB和数据可用性是0.999; 792,1287,2002,3003什么时候 从12到15不等。当N= 12日13日ADPA和算法可以解决最优解,但当N= 13,14日ADPA和配电网的成本高于最优方案由0.99美元和1.23美元。然而,从图7体现,ADPA的运行时间小于其他两种算法的N值;也就是说,求解最优解的效率高于华和DP。在本节中,我们也进行比较实验数据集来说较低,实现良好的结果,如表所示78


数据大小(GB) ADPA DP

One hundred. 204.35 238.51 238.51
200年 408.44 476.73 476.73
300年 612.53 714.94 714.94
400年 816.62 953.16 953.16
500年 1020.71 1191.38 1191.38


数据检索延迟(女士) ADPA DP

200年 204.35 238.51 238.51
300年 164.65 165.16 165.16
400年 126.42 141.84 141.84
500年 126.42 141.84 141.84

7所示。结论

用户应该调整数据放置方案基于DAF最小化存储,get操作,out-bandwidth,迁移成本在整个生命周期的数据存储。为了实现这一目标,我们提出一种自适应数据放置建筑命名ADPA。因为没有未来的DAF, DAF预测模块建立LSTM ADPA可以通过历史数据预测未来DAF。然后,数据放置优化模块,基于q学习的强化学习,解决了最优数据放置顺序根据预测DAF的解决方案。NASA-HTTP的实验由一个真正的工作量和云提供商信息表明ADPA不仅优于算法SOA,可以节省更多的时间比算法和DP获得最优数据放置。在未来,我们打算提出一个架构可以调整数据位置基于云市场的变化。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

信息披露

鹏威王和王栋是相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这部分工作是由中国国家自然科学基金(批准号下的国家自然科学基金委)61602109,东华大学杰出青年教授项目批准号下LZB2019003、上海科技创新行动计划下批准号下19511101802,上海自然科学基金批准号19 zr1401900,基础研究基金为中央大学,和联盟PlanSpecial投标难题在批准号LM201819。

引用

  1. 张赵c . p . Wang, z,”一个蚁群算法具有成本效益的方法与高可用性数据托管在多重云环境中,”15日IEEE国际会议上网络、传感和控制,页1 - 6、IEEE、珠海,中国,2018年3月。视图:出版商的网站|谷歌学术搜索
  2. 赵c . p . Wang, w·刘,z . Chen和z,“优化成本效益和高可用的数据放置多重云存储,”计算和信息,39卷,不。1,第1032 - 1001页,2020年。视图:谷歌学术搜索
  3. 问:张,李,z, y, z,和y .戴,“魅力:一个有成本效益的多重云与高可用性数据托管方案,“IEEE云计算,3卷,不。3、372 - 386年,2015页。视图:出版商的网站|谷歌学术搜索
  4. y Mansouri、a . n . Toosi和r . Buyya”成本优化动态复制和迁移的数据在云数据中心,“IEEE云计算,卷99,p . 2017。视图:出版商的网站|谷歌学术搜索
  5. ,的Hochreiter和j。施密德胡贝尔表示“长短期记忆。”神经计算,9卷,不。8,1735 - 1780年,1997页。视图:出版商的网站|谷歌学术搜索
  6. m . Armbrust A·福克斯,r·格里菲斯et al .,“云计算的一个视图,ACM的通信,53卷,不。4、58、2010页。视图:出版商的网站|谷歌学术搜索
  7. y Mansouri、a . n . Toosi和r . Buyya”数据存储管理在云环境中:分类,调查,和未来的发展方向,”ACM计算调查(CSUR),50卷,不。6、2017。视图:出版商的网站|谷歌学术搜索
  8. a . n . Toosi y Mansouri, r . Buyya”代理算法优化云存储服务的可用性和成本”IEEE学报》5日国际会议上云计算的技术和科学589年,页581 - 2013年12月,英国布里斯托尔。视图:出版商的网站|谷歌学术搜索
  9. y辛格、f . Kandah和w·张,“获得成本效益的多重云存储在云计算”计算机学报2011年IEEE会议交流研讨会中国上海,页619 - 624年,2011年6月。视图:出版商的网站|谷歌学术搜索
  10. m·阿”,可伸缩和合算的可靠算法和分布式云存储,”云计算国际会议和服务科学,页样本是里斯本,葡萄牙,2015年5月。视图:出版商的网站|谷歌学术搜索
  11. 瞿y和n .熊”,有弹性,容错分布式云存储和高效复制算法,”学报2012年第41届国际会议上并行处理(ICPP),页520 - 529,宾夕法尼亚州匹兹堡,美国,2012年9月。视图:出版商的网站|谷歌学术搜索
  12. l . x Liu粉丝,l . Wang,孟,“多目标可靠的云存储与粒子群优化算法,”数学问题在工程ID 9529526条,卷。2016年,14页,2016。视图:出版商的网站|谷歌学术搜索
  13. m·苏l . Zhang y,和k, k . Chen”系统的数据放置在多重云存储优化复杂的需求,”IEEE计算机,卷65,不。6,1964 - 1977年,2016页。视图:出版商的网站|谷歌学术搜索
  14. n . k .吉尔和s·辛格cost-aware,动态优化的数据复制策略对于异构云数据中心,“未来一代计算机系统卷。65年,10-32,2016页。视图:出版商的网站|谷歌学术搜索
  15. x秋李·h·c·吴z . Li和f·刘,“Cost-minimizing动态内容分发服务迁移到混合云,“IEEE并行和分布式系统,26卷,不。12日,2015年。视图:出版商的网站|谷歌学术搜索
  16. t . s . Reddy和g Murali实现least-price云存储服务在多个云服务提供商,”学报2018年第三国际会议通信与电子系统(icc)哥印拜陀,页464 - 469年,印度,2018年10月。视图:出版商的网站|谷歌学术搜索
  17. p . Wang y Lei, p . r . Agbedanu >,“Makespan-driven工作流调度使用免疫PSO算法在云,“IEEE访问,8卷,第29290 - 29281页,2020年。视图:出版商的网站|谷歌学术搜索
  18. t . g . Papaioannou n . Bonvin k .河口,”斯卡利亚:一个自适应多重云存储方案有效,”学报2012年国际会议上高性能计算、网络、存储和分析,页1 - 10、盐湖城、UT,美国,2012年11月。视图:出版商的网站|谷歌学术搜索
  19. c .刘、徐x和d,“多目标强化学习:一个全面的概述,IEEE系统,人,和控制论:系统,45卷,不。3、385 - 398年,2015页。视图:谷歌学术搜索
  20. 2018年,Amazon S3, 2018,https://aws.amazon.com/cn/s3/pricing/?nc=sn&loc=4
  21. 微软Azure云存储,https://azure.microsoft.com/en-us/pricing/details/storage/
  22. 阿里巴巴云对象存储,https://www.aliyun.com/price/product/oss/detail
  23. 谷歌云存储,https://cloud.google.com/pricing/
  24. 2018年,,http://ita.ee.lbl.gov/html/contrib/NASA-HTTP.html
  25. 赵c . w . p . Wang周,y,“云实例的动态programming-based方法类型选择和优化,“信息技术和管理的国际期刊,19卷,不。4、358 - 375年,2020页。视图:出版商的网站|谷歌学术搜索
  26. 孟p . w . Liu, y,赵,c .赵>,“一种新的优化模型选择的云实例类型,“IEEE访问7卷,第120521 - 120508页,2019年。视图:出版商的网站|谷歌学术搜索
  27. 孟p . w . Liu, y, g .邹>,“云实例类型的小说优化选择算法在多重云环境中,”学报》第25届IEEE国际会议上并行计算和分布式系统(ICPADS 2019)中国,天津,2019年12月。视图:出版商的网站|谷歌学术搜索
  28. z, m . Butkiewicz d·帕金斯,e . Katz-Bassett和h . Madhyastha”Spanstore:成本效益geo-replicated存储跨越多个云服务,”《第二十四ACM研讨会上操作系统的原则p。292308年,SOSP13),纽约,美国,2013年。视图:出版商的网站|谷歌学术搜索
  29. y, b, c . Wu l . Zhang z . Li和f·刘,扩展社交媒体应用程序到geo-distributed云,“IEEE / ACM交易网络(吨),23卷,不。8,689 - 702年,2015页。视图:出版商的网站|谷歌学术搜索
  30. 库雷希,“大规模geo-distributed系统的电力需求的路由,”麻省理工学院,剑桥,妈,美国,2010年,博士论文。视图:谷歌学术搜索
  31. c·沃特金斯和p·达扬q学习的。”机器学习,8卷,不。3 - 4、279 - 292年,1992页。视图:出版商的网站|谷歌学术搜索
  32. r·萨顿和a . Barto强化学习:介绍美国马剑桥,麻省理工学院出版社,1998年。
  33. 孟p . w . Liu, y, c .赵>,“Amazon EC2实例现货价格预测使用资讯回归,”学报2018年亚太服务计算会议IEEE,珠海,中国,2018年1月。视图:出版商的网站|谷歌学术搜索
  34. r·贝尔曼,”马尔可夫过程的决策过程。”印第安纳大学数学杂志》第六卷,没有。4、679 - 684年,1957页。视图:出版商的网站|谷歌学术搜索
  35. IBM Cloud对象存储定价,https://www.ibm.com/cloud-computing/bluemix/pricing-object-storage

版权©2020鹏威王等。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。


更多相关文章

PDF 下载引用 引用
下载其他格式更多的
订单打印副本订单
的观点215年
下载222年
引用

相关文章