文摘
如今,数以百万计的电信设备、物联网传感器和web服务,尤其是社交媒体网站,每秒钟产生大数据。这样的应用程序与大规模数据生成功能需要快速访问这些数据。其他方法中,云计算提供了内容分发网络,利用数据复制等更好的延迟实时应用程序。及时快速的处理、存储和分析这些数据,这些未来的互联网应用所面临的挑战。然而,云计算是最终的存储和处理模式来解决这些问题和处理大数据,以相同的速度数据的产生。此外,云计算技术已经进化的标记线“现在一切作为服务”,为所有这些服务,提供数据是一项强制性的和重要的任务。为终端用户提供简单和快速访问数据,云维护备份和复制多个数据中心的副本。这些数据中心的地理位置,数据被放置在数据访问时间产生深远影响。应对挑战的有效数据复制和数据访问时间减少到最低限度,我们提出一种基于遗传算法(GA)的技术建议和存储数据几乎位于数据中心。该算法提高了访问时间,因此,云服务器的效率通过提供最终用户的服务质量(QoS)。
1。介绍
云计算为用户提供动态的、可伸缩的虚拟化资源,可以按需或使用率。这些资源可以通过网络在任何时间从任何地方访问(1]。资源包括软件平台、存储、硬件、网络和应用程序按需服务。数据是这些共享资源的一个重要组成部分由于异构大数据是每秒钟产生通讯设备和物联网传感器。云计算和大数据的应用范围从社交网络,医疗信息学、智能城市应用,和城市规划等等2,3,4]。
云平台提供了无限的存储、处理能力和信息服务为个人和企业(5]。虚拟化是云计算最重要的角度,来访问资源池中扮演一个重要的角色在使用率时尚。资本投资可以通过虚拟化(6]。云计算将不负担得起的没有部署虚拟化技术。
这就是为什么虚拟化是在最高的层云基础设施。资源(如硬件、软件、网络、存储和操作系统可以通过这些技术提供给最终用户,他们可以利用的资源而不管他们的地理位置(7]。云计算的主要部件是用户,数据中心和分布式服务器。分布式服务器位于分散的地理区域。多租户是用户访问的能力通过互联网在任何时候任何地方。
虚拟机监控程序是一个相结合的硬件、软件或固件,它定义了虚拟分区的硬件上运行。虚拟机管理器,增强了能力系统上运行多个操作系统和分配资源,每个操作系统没有任何互动。同样,虚拟机监控程序基本上是组织承载多个虚拟机的硬件和拥有所有必要的信息,使这些虚拟机工作(1]。CPU、RAM和磁盘驱动器是一组硬件之间共享多个操作系统。虚拟机监控程序有能力来控制所有的系统。此外,当操作系统数量的增加,风险也在增加。
保护的技术,比如抽象隔离状态恢复,无常,和外部监控被用于数据抽象。为此,在自己的虚拟机分配绑定资源保护。这种抽象提供了额外的安全通过限制硬件资源访问。与备用配置操作系统运行在不同的机器上。隔离允许每个客户操作系统运行主机没有任何依赖关系。
隔离也可以防止攻击一个虚拟机,这可能会影响其他虚拟机服务器或主机上运行操作系统。状态恢复可以很容易地恢复或恢复以前状态的VM操作系统。
作为VM虚拟磁盘上存储的内容,备份是维护后提交每个改变服务器或主机操作系统。在攻击的情况下,虚拟机可以恢复到以前的状态8]。无常是能够远程开启或关闭系统时必需的。最小化服务器操作系统可以防止恶意攻击的时机。例如,如果一个恶意病毒影响电脑,在线虚拟机将受到影响,但在线系统的影响比离线的。外部监控需要观察VM和检测攻击发生在VM。研究社区正在积极致力于先进保护技术来监控客人的活动系统(9]。
数据复制在不同的地理位置提供方便地访问数据,防止数据丢失,也导致数据访问延迟。解决这类问题,一般的机制是预先确定的副本数量不同的分布式和分散的云用户(为了减少响应时间10,11]。部署私有数据中心的成本这就是为什么虚拟化技术可以提供廉价、安全、可靠的服务。随着设备和用户数量的增加,集中的方法可能不是帮助在这样的场景中,创建几个问题由于交通拥挤、高带宽使用情况,延迟和延迟反应的问题。
延迟和延迟问题增加越来越多的设备和用户(12]。这些问题可能会影响云的性能。集中式方法可能会失败由于高流量或增加用户数量,和设备可能影响效率的云在现代车辆等专用应用程序云(13,14]。
为了增加文件跨地域分布式云系统的可用性和减少延迟和缓解资源共享,副本位置和选择策略必须纳入这种系统。在分布式系统中增加数据访问的性能是使用复制(15]。复制文件的多个副本在不同的地方增加了数据访问的性能和减少响应时间16]。
副本的数据复制的数据是相同的副本保存在不同站点的地理分布和数据复制由生产管理庞大的数据副本。副本放置的最重要的方面是选择位置副本,以便访问时间可以改善的地方。这项工作主要贡献给了详细的轮廓的数据复制技术和建议增强遗传算法为了提高服务质量,有效地将副本放置在云数据中心。
剩下的论文结构如下:部分2解释了域借助先进的相关工作。部分3细节的工作副本选择机制在云环境中。部分4给的信息复制算法和其内部工作原理,结合上下文中间件软件。此外,我们提出了遗传算法的复制算法部分5。这是进一步的实验结果和讨论基于最初的概念证明6,而部分7总结了纸和表示方法的局限性与未来工作的方向。
2。相关工作
找到最好的副本放置合适的位置是最重要的,重要的副本放置(因为这个决定可以减少延迟问题17]。是不划算的方式为所有用户访问一个文件从一个数据中心。因此,它将导致增加的数据访问延迟。这些问题变得更糟,当我们想要分享大量的数据存储和网络带宽有限。由于用户数量巨大,这将导致延迟如果所有用户访问数据或从一个中心。
复制是一种策略,证实了用更少的带宽消耗和高效的访问延迟。创建副本最小化延迟问题交通分流到其他数据中心,从而最大限度地减少等待和响应时间,和总体而言,开销是分布在几个数据中心而不是重载一个数据中心。数据复制是解决问题所必需的数据访问延迟的12]。
它是最重要的在分布式环境中,管理副本的开销是一个具有挑战性的问题。八卦算法是一个沟通建立复制算法,参与者有相同的值,或者共同的状态。此外,重复信息的传播会导致巨大的浪费的网络能力,计算和带宽资源(18]。合适数量的副本存储在每个节点处理和计算的每个节点都是不同的19]。陈等人。20.)开发了一种合作复制方案中,加权动态数据复制策略,提出了一个系统的数据复制通过分类为热(目前使用)或冷(过期或当前未使用的)数据通过分配权重根据其访问的声望。
WDDRP减少了空间消耗问题[21]。混合复制策略提出了复制品选择、放置和更换步骤。它包含三个步骤:首先,它选择最好的网站;第二,最好选择副本节点放置在最佳位置;第三,它替代了改进响应时间。小时理解最好的复制品网站最好的复制品(12]。随机扩散搜索(SDS)提出了一种高效的数据复制完整的算法,它使用全局优化多智能主体技术的模仿行为的蚂蚁和代理商之间的沟通减少复制成本。RRSD提出文件复制的方法以减少副本的数量。这种方法使用副本放置和冗余副本删除多次实现其目标(22]。
复制策略是有界的两个因素:第一个是存储在不同的站点,因为存储是一种稀缺,重要的和昂贵的资源,应该有效地利用和智能和第二数据中心内的可用带宽,影响云的分布式计算的数据访问性能。大多数情况下,文件在地理分布位置是大尺寸的。将他们放置在合适的位置很重要,选择位置和适当的数据中心,副本放置在这方面也很重要。数据中心存储。此外,存储匹配检查它是否符合最近的文件的要求。然后,选择合适的位置,限制或减少延迟问题[16]。
因为极端的增长数据使用和数据访问、复制策略和部署在云中心使用。如今,大多数公司复制数据离线,所以在数据损坏或丢失的情况下,它可以很容易地恢复。数据复制提供了更快的备份和恢复选项最小延迟时间和访问时间,所以整体性能提高29日]。
网格和云的出现给了数据复制在研究中一个特殊的地方。数据复制技术包括静态和动态复制机制,这可能是有用的在实时应用程序30.]。在静态复制技术,是定义良好的节点数量和预定。要创建副本的数量,和节点副本应放置在哪里决定云设计或安装时间(8]。这些技术实现简单但不随条件或要求31日]。
一些最重要的静态复制技术包括Google文件系统,MinCopysets, MORM(多目标优化复制管理)(29日]。GFS,复制数据块是通过插入副本在不同块服务器有少量的利用磁盘空间和通过将这些副本在货架形式的块,但算法的缺点是固定数量的副本。MinCopysets技术是基于可伸缩的复制技术,随机节点被选中为并行数据分布和负载平衡。
复制服务器划分为若干个组,一部分是由主节点随机选择复制。提高数据持久性,但延迟和写操作延迟也会增加。MORM(多目标优化复制管理)技术是离线人工免疫算法的复制。人工免疫算法是类似于人类的免疫系统,它可以通过对抗原产生抗体。基于特定目标,选择适当数量的副本,并将节点之一。这样做是为了每个文件得到最优的客观价值(23]。
动态复制策略随需求和管理副本根据带宽和容量。它使决策智能位置和现状。但它有缺点的面对困难收集信息在运行时,所有数据节点的和一致性的数据很难实现在动态复制。运行时动态策略涉及到智能决策,它决定在哪里复制数据和数据复制和在运行时决定所有数据复制的要求(8]。这种策略在面向服务的环境中最有效的位置和用户数据访问模式是决定以动态的方式。它可以优化资源的使用和存储和考虑其他重要因素有效地引入有效性。
智能算法在动态策略的参与增强了其选择和放置功能,和,因此,高智能的认知和决定副本位置根据需求和需要。考虑其他因素也会使动态复制有效,高,和更有效的比静态技术(32]。一些最重要的技术中引入动态策略D2RS(动态数据复制策略)多层分层云系统。它是基于时间局部性,其结果的形式来增加数据的可用性和减少带宽消耗(33]。
CDRM(成本效益的动态复制管理)是一个有效的方案,基于Hadoop分布式文件系统。LRM(本地复制经理)也Hadoop体系结构基于性能,它保证了改进数据块的物理位置和QoS。它是能源资源32]。QADR (QOS-Aware数据复制)是基于最低成本和最大流转的原则,这就增加了平均恢复时间。数据丢失和决定用户的访问模式运行时动态策略是面临的主要挑战。副本创建减少延迟和必须足够快提高可用性(26]。
3所示。复制选择云
在大多数情况下,来自不同地理位置的数据存储或检索。在其他方面,我们可以说,数据分散或分布在不同地理区域的云数据中心节点。Geo-distributed数据可以创建不同的访问延迟、一致性和安全问题34]。访问和存储geo-distributed或分散的数据有效地在这样的场景很重要。最重要的措施,有效地访问geo-distributed数据复制。复制技术来存储不同的副本数据在不同geo-distributed数据中心节点(35]。
通过存储副本的数据在多个站点,如果一个站点失败,那么可以从另一个网站访问数据。同时,请求发现近网站访问数据,提高访问延迟和容错问题。图1显示了一个图形用户界面设计的Web界面形式模拟遗传算法在200点。这些点可以放在屏幕上的随机位置。这些算法的位置是通过屏幕上的坐标来执行的。
仿真开始,开始的过程找到最短路径的帮助下遗传算法提供最好的价值和数量的代与突变速率产生最短路径。
图2显示了路径与最佳值和突变率。它包括200个数据中心中通过点和发展与突变率607代。
4所示。中间件在复制选择
当涉及到云,地理位置的数据中心数据中心选择起着至关重要的作用。任何数据中心的位置是相当重要的因素当你选择云服务提供商,因为速度。最终用户将要求高数据传输速度和站点的性能;即使是最轻微的延迟可以把游客从一个网站,他们可能不会再回到这个网站。
图3显示复制环境的例子。网站站点,站点2、3,网站4是不同的数据中心位置连接通过中间件基础设施。网站2包含数据存储在文件X,这是进一步复制网站1日网站3和4。我们假设用户1试图访问文件X和让距离成正比访问文件简单的成本。我们可以访问文件X更便宜的成本从站点1和站点3因为站点1和站点3更接近用户1相比其他网站。文件是可访问的,不会丢失,即使3 4网站下的36]。
在云计算可靠性、有效性和效率是资源利用率的主要参数(QoS)。这些参数控制云系统的整体效率和性能。减少响应时间,延迟和优化CPU利用率提高了系统的性能。副本创建加速访问和低响应时间(37]。
云存储系统至关重要的部分系统。云计算中使用的存储服务器高性能。在云服务需求增加会导致存储服务器失败。因此,为了解决这个问题,一个开源存储系统是非常有效的云系统,如使用Hadoop分布式文件系统(HDFS)。HDFS被设计以这样一种方式,它可以部署在硬件成本低37]。
可靠性、有效性和效率的服务质量(QOS)参数在云计算的资源利用率。这些参数控制云系统的整体效率和性能。减少响应时间,延迟和优化CPU利用率提高了系统的性能。副本创建加速访问和低响应时间(37]。存储系统是云系统的重要组成部分。云计算中使用的存储服务器高性能。在云服务需求增加会导致存储服务器失败。因此,为了解决这个问题,高效的云系统使用Hadoop分布式文件系统(HDFS)。它是开源的云存储,设计以这样一种方式,它可以部署在硬件成本低(37]。
5。复制体系结构
有三个主要部分的复制架构,即调度代理,代理,复制品和数据中心。主要代理控制、管理和日程安排的任务和数据迁移调度代理。副本管理器包含基本信息位置和日志的副本。复制架构解释在图的特点4。
副本的选择和放置技术提出了流行的数据在一个受欢迎的地点可以选择在一个动态的方式。首先,当数据访问,算法将被触发,并开始计算一个副本的次数是在云中心访问。当数据块或副本访问频率达到一个阈值,它将被认为是受欢迎的和它的副本将被创建。流行的数据访问决定的基础上受欢迎的位置和最近的中心,数据可以存储。这就是所谓的动态策略,因为我们必须采取的决定选择和放置副本在运行时基础上。一个众所周知的数据复制技术在分布式系统是用来减少用户等待时间,文件可用性更高的机会,和减少云系统的带宽消耗39]。
遗传算法(GA)是一种启发式的搜索优化算法通常用来实现近似搜索问题和优化解决方案。问题的解决方案是用字符串表示称为基因或染色体。基本遗传算法与小概率,比赛的选择,和均匀交叉用于查找参数。在GA方法中,创建人口变量或染色体解码。
这些染色体然后转换成实数使用指定的上下极限(39]。然后,健身的新人口计算。和GA开始搜索随机生成新的人口融合提供一个最佳的解决方案。GA使用三个运营商通过人口世代:第一个是选择,选择好的染色体在一代人口形成了交叉;第二个是交叉,传输当前人口未来人口的最佳特性,和它的利率是总人口的70%和90%;最后,变异算子允许进一步的多样性特征如算法1所示。
|
5.1。数据中心使用遗传算法搜索
图5代表数据中心使用GA搜索,产生的人口区域和数据中心,这决定了每个用户的数据传输成本在不同的地区。基本上,前面区域定义为大陆有分歧的领域。当一个用户在一个地区,用户发送数据在不同的位置。数据传输成本是成本的两个用户之间的通信位于不同的区域。
当一个用户传输数据、网络和用户初始化和维护一个索引的数据中心。当网络初始化开始通信,它接收来自用户的消息。然后,代理查询找到的特定目标数据中心控制器和代理发送请求检索该地区。最后,所有数据中心的列表和延迟初始化命令在低延迟的第一人口准备。然后,发生突变,交叉操作达到健身与最低的延迟订单的列表数据中心。然后,两大数据中心选择最低的延迟,和文件被放置在这些数据中心。
云计算实现的算法基本上是分析师,这是一个开源的云计算仿真工具(40]。这是一个图形用户界面在Java中实现。它由几个不同的组件和类。但主要类的组件包括地区,互联网,服务代理,用户群,互联网薄云,控制器和数据中心虚拟机负载均衡器,GUI,见图6。
5.2。使用路由请求选择
部分地区将世界划分为6个区域。这些地区基本上与世界六大洲。地区实现,使虚拟现实中心基本上存在于一个地区,存在在一个大陆。它取决于用户,他希望将数据中心。这种地理分布是必要的维护现实和简单的仿真环境。
图6节目和招募路由请求的过程。互联网是第二个组件显示互联网区域和用户之间的沟通。实际上,它维护一个矩阵的传输延迟和数据传输延迟。因此,传输延迟和带宽都是可配置的。
数据中心代理需要决定履行任何用户的请求。在我们的例子中,用户流量是由代理路由到两个数据中心基础上最低的延迟。用户生成的交通,它是可配置的,取决于用户是否有人配置一个用户或一组用户。互联网薄云团体基于用户请求的请求的数量被组合成一个单一的薄云可以根据需求配置。它维护发起人的交通信息,输入输出文件的请求数量,应用程序id传递给特定的用户使用。
数据中心控制器的主要实体,负责整个数据中心管理包括虚拟机的创建和歼和路由用户请求从用户基地在互联网的帮助下,虚拟机。云分析功能取决于它。虚拟机负载均衡器决定哪个VM是分配给薄云处理用户请求。目前,有三种负载均衡策略:轮询调度:简单的轮循算法分配虚拟机;积极监测确定活动的任务和分配虚拟机;,抑制了负载均衡的分配预定义的互联网薄云单个VM在任何给定的时间。如果一个可用的请求数量小于组的数量,一些请求将排队,直到VM的可用性。
最后,图形用户界面GUI的仿真参数设置并保存配置之后,开始模拟选项阻止它。我们可以保存并查看结果。
5.3。数据传输的延迟
数据传输延迟计算使用
T延迟网络延迟,T转移是时候采取转移数据的大小单请求。T延迟从延迟计算矩阵在互联网特征所示 BW = BW总/ Nr, BW总是总带宽,在传输过程中Nr是用户请求的数量之间的两个用户位于两个区域。当我们使用云分析师模拟器,然后使用这些公式来计算延迟。云分析师给推进特性在文本框输入延迟值矩阵形式。带宽也给出了矩阵,不同地区的用户可以输入不同的值。模拟开始时,云分析师模拟器在图形和图表生成自己的结果。
6。结果与讨论
延迟和带宽矩阵包含静态值包含地区云分析师之间的延迟值。云分析包含数据中心位于大陆和地区。地区之间的延迟矩阵包含了延迟。和带宽是地区之间的可用带宽。
在表125,我们带着50个数据中心虚拟机与峰值不同数量的用户和用户。图在图7表明提出的遗传算法提高了整体响应时间和结果出来是248.94毫秒,而另一个遗传算法是249.19毫秒。这个实验是通过服用50个数据中心和25个虚拟机和100个用户基地产生交通跨数据中心的数据传输。所以,有结果的响应时间进行了优化。
在表2用户配置。UB1是用户群的名字产生流量。并放置在区域2和每个用户创建60请求/人力资源。每个请求数据大小是100字节。高峰时间是3 - 9,在高峰时间,用户峰值1000和100用户。
在表3,数据中心配置的五个数据中心放置在区域0 5每个数据中心的虚拟机在不同的成本。
表4显示,当这些设置配置,那么输出数据处理算法是0.86,0.95和其他。总成本数据中心处理任务的算法比旧算法117.70要低得多。
结果如图所示8。图表显示了两种算法的比较数据处理时间。可以清楚的看到,较低的数据处理时间算法使用遗传算法与最近的位置选择复制品。我们的算法过程在较短的时间内更多的数据,而其他算法需要更多时间处理60每用户请求100字节的数据。吞吐量被定义为单位时间内传输的数据。图在图9表明我们的算法的吞吐量是1000 Mb的数据每小时。每小时60请求生成。吞吐量是每小时1000 Mb。
实验通过100个用户基地执行生成流量和上传数据到云计算中心。50云中心被存储数据,从这些数据中心用户的访问数据。数据中心配置通过将他们在不同地区。作为云分析师由7大洲,这些大陆命名为地区云的分析师。云中心的架构包括操作系统,这是Linux, 32位操作系统融入云计算中心与XEN虚拟机监视器,实际上整个虚拟网络和资源管理。硬件单元的数量是3。同样,用户基地被放置在7个不同的地区要求每个用户/小时是60。这样用户每小时60只创建请求不超过60人。执行仿真模拟时,时间配置为运行5分钟。
当实验被执行时,遗传算法选择最近的数据中心在最近的位置位于用户,然后,用户基础生成流量发送或访问数据从这个位置,仿真运行窗口2。结果,生成的输出是一个最小化延迟0.83,0.95以前通过旧GA算法没有合并两个最近的位置和频率阈值。
图在图10显示配置设置在云分析的结果如表所示5和1。给出了输出值显示总体值比其他算法没有遗传算法实现。所以,最后的结果表明,延迟和数据可用性改进相关的其他算法。
7所示。结论
无效的复制品选择和放置结果延迟等问题,延迟,和有效的带宽利用率。的位置和选择合适的副本包括不仅找到最佳位置或节点存储数据,也决定一个合适的数量的副本延迟率降到最低。在这项工作中,我们提出了一种有效的技术选择副本并将其从云资源访问的方式是通过最小化优化云开销将最好的两个最近的节点数据的副本。为了减少复制成本,这一战略提出了使用遗传算法来搜索最好的云数据中心基础上延迟和选择最好的数据中心。所以,整体复制成本、延迟和减少响应时间和数据副本放置在两个中心;如果数据损坏或丢失在一个数据中心,那么它可以在其他云数据中心,所以数据可用性增加。因为选择最近的云中心的选择,将延迟问题最小化。遗传算法是最有效的,启发式的进化算法,适用于自然选择的原则。采用直观的或聪明的方法找到最佳解决方案。这是广泛采用的优化搜索任务。 Now, the recent advancement in genetic algorithm is the parallel genetic algorithm that can be applied in future to further minimize replication cost and latency and searching can be optimized. It further reduces the latency issue by optimizing searching of best solution from a given search space.
数据可用性
没有数据被用来支持本研究。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作是支持的https://doi.org/10.13039/501100002383沙特国王大学、沙特阿拉伯、通过研究支持项目RSP-2021/184数量,在一定程度上https://doi.org/10.13039/501100012226基础研究基金中央大学(排名2462020 yjrc001)。