基于模型提取的知识关于云应用程序上下文的影响应用程序服务成本和服务质量

文摘

与云计算的使用增加在生产环境中,为科学工作流和工业应用程序,应用程序提供商的焦点转向服务成本最优化。实现最小化服务执行成本的方法之一是优化的位置服务在云计算数据中心的资源池。越来越多的研究方法是专注于使用机器学习算法来处理动态云的工作负载自适应地分配资源来服务。许多这样的解决方案仅供云基础设施提供商和只处理特定类型的云服务。在本文中,我们提出一个基于模型的方法针对供应商的应用程序在云中托管,这是适用于服务生命周期的早期阶段,可以用于任何云应用服务。使用几种机器学习方法,我们创建模型来预测云服务成本和两个云应用程序的响应时间。我们也探讨如何提取知识云应用程序上下文的作用对服务成本和服务质量,以便获得知识可以用在服务位置决策过程。实验结果证明的能力提供相关信息的影响,云应用程序上下文参数对服务成本和服务质量。结果还表明我们的方法的相关性为应用程序在生产前阶段,因为应用程序提供者可以获得有用的见解关于服务位置决定不收购大量的训练数据集。

1。介绍

近年来,大量的应用程序服务提供者的工作负载迁移到云环境(1),向客户提供他们的服务软件即服务(SaaS)的解决方案。根据当前业务分析投影(2),它是预测,83%的企业工作负载将在云2020年投入使用。服务迁移到云环境可以减少服务成本减少资本支出。然而,往往不是简单的选择最好的基础设施提供者或确定正确的大小的虚拟机实例服务或其组件将被部署。云计算基础设施提供商提供计算资源(cpu、网络、内存和存储资源)相应的充电需求,他们使用各种计费模型基于消费的资源(3]。最近的一项调查(4)的挑战与云计算相关的模式采用确定成本管理作为一种成熟的云用户报告的最突出的问题。这种方法可以减少资源浪费和云服务的成本应该确定优化服务放置在云环境中,无论是基础设施供应商选择和实例裁员。找到这样的服务放置SaaS提供者是一个复杂的任务,由于大量的云基础设施提供商和市场上的定价模型5),以及服务的潜在复杂性。通常是不直观的哪些资源主要是服务和消耗的量,根据动态服务负载。

在机器学习领域,统计技术被用于从数据中提取知识不使用显式的指令。由于越来越多的人意识到的潜在价值收集的数据在不同的行业领域和机器学习框架,促进增加统计和机器学习应用在多个领域,包括云服务位置的优化。许多这样的解决方案处理云资源分配的优化基础设施提供商的角度。方法用于应用程序提供者通常局限于一个特定类型的应用程序,或者他们试图优化服务动态位置一旦应用程序已经部署在生产环境中。

在这项工作中,我们审查的可能性,使用机器学习技术来创建模型预测的服务质量(QoS)和服务执行成本,评估最影响他们的参数,基于统计模型观察到的服务。这样的话,最重要的参数影响可以被识别,并了解他们可以用来最小化服务执行成本和保持服务质量。此外,服务模型可以预测特定基础结构参数(例如,实例规模和定价)会影响服务性能和成本。这种普遍的方法可以使用任何应用程序的应用程序服务供应商的预部署过程识别最好的服务就业政策的高服务执行成本和潜在的供应商是可以避免的。

以大量的科学工作流执行在云环境中,我们发现这种基于模型的方法由应用程序类型的上下文中重要的科学计算,因为它是一个跨学科的领域,覆盖范围广泛的软件任务类型。在本文中,我们使用两种服务应用程序来演示的方法知识服务及其资源利用率可用于优化的过程中他们的位置在云中。实验结果证明它是可行的,使用机器学习模型和技术来检测哪些参数影响服务执行成本和服务质量,以及预测。可以使用这些知识的提供者应用程序托管在云环境中确定的决策过程优化云服务位置减少服务成本。

剩下的纸是组织如下。我们总结相关工作领域的云成本优化部分2。部分3介绍了云应用程序上下文参数,这将被视为预测模型的特点,其次是用例的描述分析了本文的部分4。部分5描述了数据收集方法和测量数据映射模型的特性。服务资源的使用特点可以分析一节中找到6。部分7包含方法应用于信息成本和QoS的实现模型,模型精度指标和功能评估的重要性。节8,我们分析实现模型和讨论结果,其次是部分9我们总结本文,以下步骤在这个研究。

随着云计算的模式越来越成熟,各种云环境正越来越多地用于生产环境中,为科学工作流和工业应用。一些市场分析1,4)证实,云计算是在工业环境中得到更多的礼物,但有限的知识成本优化的服务部署在云(4]。

处理成本优化的研究是在云环境中,包括不同的策略实现成本最小化的目标。一些最常见的方法包括优化的负载均衡6)和服务扩展算法(7),时间安排的任务调用和执行8,9),和优化服务的战略位置降低执行成本(10,11]。各种优化方法的云成本利用运筹学的方法,特别是博弈论(12]和metaheuristics [13,14)关注基因和其他进化算法(8,15]。最近的解决方案专注于机器学习算法的应用问题的成本优化(11,13,16,17),尤其是针对动态分配资源的方法在云环境中,因此经常使用机器学习技术来实现自适应性。作为一个例子,Zhang et al。11)提出一个架构的云环境资源管理系统基于强化学习。建议的体系结构包括一个智能资源管理器,不断监控资源利用率和应用QoS参数,结合几种优化算法,和地图应用程序的资源在第二系统component-resource投票。作为一种优化算法,提出多层autoencoder Q-network (SAQN)算法和评估它对另一个以前开发的基于强化学习(SmartYARN优化算法17]。

除了实现优化通过使用不同的技术和策略,优化方法不同所关注的工作负载,比如科学工作流8,18,19,游戏20.),医疗卫生(16,21)、教育(22,23),和大数据24,25工作流。我们致力于提供基于服务资源利用的一般方法适合任何应用程序可以部署为SaaS服务的类型。

研究方法在云计算领域的成本优化也除以优化的角度。为观察通过文献综述和调查6,13,14,26- - - - - -28],许多资源调度解决方案和优化算法用于基础设施服务提供商,处理资源分配的优化数据中心(29日- - - - - -32]。更少的解决方案为SaaS提供最优化的服务提供者,经常需要一种方法来评估如果的位置服务在云环境中是最优的执行成本和服务质量。服务位置优化的一个示例应用程序提供者提出了(10]。虽然这种方法考虑应用程序服务提供者的角度来看,解决方案是为资源开发市场,提供谈判价格,不考虑特定于应用程序的资源需求,会严重影响服务成本。

最近的两项研究在本文中介绍的方法(33]和[34]。在[33),使用神经网络和线性回归预测CPU利用率与电子商务相关的基准应用程序使用时间序列数据。类似的方法提出了(34),神经网络用于预测观察到任务的执行时间。然而,这种方法侧重于特定任务的建筑规范在一个在线存储库中。所提出的预测模型的输入变量包含repository-specific信息,如编程语言,并创建一个模型为每个存储库,这使得这个解决方案非常具体的用例。两个作品的作者不模型的成本在公共云基础设施云服务执行。他们还关注预测资源利用率和不检查参数影响的服务质量或服务成本在最大的程度上。在这项工作中,我们使用可解释性技术来识别最重要的预测因子对模型输出的影响预测,这通常是没有可用的文献中解决。

方法评估服务放置策略之前云基础设施提供商的选择是使进一步优化成本和避免潜在的供应商。这种动机的指导下,在这个工作中,我们的目标是一个方法,将允许云应用程序提供商决定最好的云服务基于应用程序负载位置的选择,资源利用和其他云服务执行应用程序上下文参数,以减少成本和维持一个适当的QoS级别。我们描述的参数在以下部分云应用程序上下文。为了证明我们的方法,我们使用两类云应用程序中标识的例子(35和描述的部分4。

3所示。云应用程序上下文

当我们想观察各种参数的影响,影响云应用服务的执行成本和QoS,我们认为云应用程序上下文(图的参数1)。

创建一个云应用程序上下文的整体视图,我们定义两个飞机。应用平面由特定属性的应用程序服务本身,不管它在哪里部署。这些属性包括应用程序资源使用配置文件,它定义了计算资源的数量(CPU,内存,存储,网络)执行所需的应用程序服务,或特定的服务任务分析,定义在一个负载。负载是由应用程序用户生成的,这取决于并发用户数发送请求到云应用程序,以及使用应用程序服务操作在执行,通常定义的用户类型。作为一个例子,一个在线学习平台可能用户上传课程资料平台和编辑课程网页和那些使用流媒体视频课的课程内容。在上述情况下,用户执行的操作类型需要不同的计算资源。另一个属性通常指定为应用程序服务水平协议(SLA),它定义了QoS需求,通常通过一组服务水平目标(SLOs),保证一定的服务质量交付给最终用户的应用程序。的一个例子可能是应用程序的一部分的SLO SLA是用户请求的响应时间,一般不应超过一个特定的时间在一个定义用户对应用程序请求服务总量的百分比。

每个云应用服务部署在云基础设施上。部署的飞机云应用程序的上下文包含功能相关的应用程序将被托管的基础设施,即。,它的部署环境。选择的部署环境定义了应用程序提供者数量和性质每个计算资源的类型。作为一个例子,云基础设施提供商可以提供硬盘和固态硬盘存储,不同数量的虚拟CPU核心,等等的资源可能提供的预定义的实例或自定义应用程序提供者要求的,客户是谁的云基础设施提供者。每个部署环境都有一个或多个(云联合会)的情况下基础设施提供商。基础设施提供者定义定价模型据资源将被用户的云基础设施。定价模型通常由价格的资源,预定义的资源包,决定将哪些资源计费资源,他们的消费测量。作为一个例子,基础设施提供商经常提供免费进入网络流量吸引应用程序提供者和减少应用程序的初始成本服务迁移或部署环境。一些供应商免费提供有限的网络流量(例如,10 GB的入口流量可能不是每月收取)。提供各种基础设施提供商的收费也不同的粒度,使云基础设施的价格体系非常异构和复杂的评价的影响应用程序的成本,考虑什么可能是一个不错的选择的基础上,应用程序负载和资源利用率。

在我们的分析中,我们的目标是检查的效果描述了云应用程序上下文属性和定义方法,提供了一个全面的建模方法应用服务部署在云环境中,预测其执行成本和QoS,以及获得知识的最重要的贡献者和QoS成本。我们也想检查如果适当级别的预测精度可以达到使用选定的属性作为模型的特性。

节5,我们描述如何提出的云应用程序上下文属性被映射的测量数据将作为训练数据,实现应用程序的服务成本和QoS模型(部分7)。

4所示。用例

为各种应用程序类型不同的资源需求对用户请求的执行,在这项工作中,我们考虑两种服务不同的应用程序类型的观察差异资源利用率在执行和检查哪些参数会影响每个服务的成本或QoS的最高学位。

作为第一个云应用程序用例中,我们选择了一个医疗记录系统(夫人)。在我们的分析中,我们观察到的场景夫人用户执行一个查询检索一个特定的病人的医疗记录。获取数据的目的,我们选择的一个开源实现系统[夫人36]。夫人服务有三个主要components-user接口,应用程序逻辑,数据库存储医疗记录。我们测量的实现场景由一系列的三个用户请求(图2)。第一个请求访问的用户界面用于女士服务,其次是提供用户凭证,最后发送请求获取定义的医疗记录病人的医疗记录数据库。对于我们的测试,用户请求使用负载生成器生成部署在机器实验之外的云环境。所需的响应时间测量的时间序列描述的最终用户执行的请求和检索病人的医疗记录。

当我们想要检查服务资源利用和基础设施的影响参数对服务执行成本和QoS,我们定义服务级别目标规范物资货柜的可接受的应用程序为女士服务QoS级别。我们确定不是违反作为一个用户请求的响应时间超过5秒。这样的请求的数量不应超过用户请求总数的95%。

作为第二个云应用程序用例中,我们选择一个视频流服务部署在云环境。我们使用灵活等浮电缆视频服务器(37)和一个场景的视频点播与用户访问外部的云环境为短视频内容(图生成的请求3)。视频流是使用HTTP协议实现,传输视频数据流分为块。在这种情况下的响应时间是整个视频文件的传输所需的时间给最终用户。考虑到服务的部署在云环境中,视频服务器部署为一个单独的组件在一个Ubuntu虚拟机。客户端包括最终用户外的云环境生成请求的视频内容。

观察到的QoS指标用于不是视频流服务的定义,类似于女士服务,用户请求的响应时间。为分析目的在接下来的部分,我们看到如果有超过95%的响应时间超过10秒,它定义为不是侵犯。

5。数据收集

创建一个服务模型基于资源利用率,我们需要收集的数据集允许我们观察服务负载之间的关系,请求响应时间的选择QoS度量,和平均资源利用率在特定数量的并发用户请求,和一定量的资源分配给一个服务。为此,我们建立了一个基于云的测量环境中,我们有两个用例服务部署和使用负载生成器工具生成的负载也收集的性能指标,包括请求的响应时间。

作为测量环境中,我们使用一个私有云基础设施部署使用OpenStack [38]平台(图4)。基础设施包括三个服务器,一个用作控制器节点和两个计算节点(即。虚拟机主机),规格表1。


节点的作用	系统	CPU	内存	存储

控制器	惠普把BL460c Gen8	32×2.00 GHz	16×16.0 GB 256.0 GB总	2驱动 0.6结核病总
计算	惠普把BL460c Gen8	32×2.00 GHz	16×16.0 GB 256.0 GB总	2驱动 0.6结核病总
计算	惠普把DL 380 G6	16×2.93 GHz	8×8.0 GB 64.0 GB总	1驱动 1.9结核病总

这两个用例服务部署在测量环境使用几个实例大小(表2)通过不同的资源数量被分配给服务我们可以观察instance-sizing QoS和成本的影响。


实例类型	RAM (MB)	CPU核心(虚拟)	存储(GB)

小	2048年	1	20.
媒介	4096年	2	40
大	8192年	4	80年

夫人服务的web应用程序,提供了应用程序逻辑和用户界面,和夫人数据库部署在两个不同的实例。视频服务器上部署一个虚拟机实例。对用例(用户请求数据2和3使用JMeter[负载测试工具生成)39),安装在个人电脑以外的云环境(图4)。

我们测量了消费的资源提出了云应用程序上下文定义的属性(图1),表中列出3。服务资源使用数据和参数相关的服务质量,例如请求响应时间,收集每分钟在测量时间的15分钟。在固定负载下每15分钟收集的样本。测量进行并发用户的数量从1增加用户高达150,10个并发用户的步骤为每个样本。我们记录的测量值为每个样本资源的消耗。


参数ID	参数域	参数名称	计量单位	云应用程序上下文相关的属性(图1)

1	应用程序	平均CPU利用率	%	的应用,资源使用情况简介:CPU
2	应用程序	虚拟CPU核的数量	整数	的应用,资源使用情况简介:CPU
3	应用程序	网络:平均输入字节	B / s	的应用,资源使用情况简介:网络
4	应用程序	网络:入口流量	GB	的应用,资源使用情况简介:网络
5	应用程序	网络:平均输出字节	B / s	的应用,资源使用情况简介:网络
6	应用程序	网络:出口流量	GB	的应用,资源使用情况简介:网络
7	应用程序	平均内存使用	MB	的应用,资源使用情况简介:RAM
8	应用程序	平均磁盘读取字节	B / s	的应用,资源使用情况简介:存储
9	应用程序	平均磁盘写入字节	B / s	的应用,资源使用情况简介:存储
10	应用程序	使用存储	GB	的应用,资源使用情况简介:存储
11	应用程序	请求响应时间	女士	SLA需求
12	应用程序	并行用户的数量	整数	服务用户:并发用户
13	部署	个vCPU内核实例	整数	资源属性:CPU
14	部署	实例内存	MB	资源属性:内存
15	部署	实例存储	GB	资源属性:存储
16	部署	提供者_n	不适用	基础设施提供商
17	部署	价格	美元	定价模型和资源价格

后进行性能测量和收集资源利用率数据,我们计算的成本运行两个服务24小时使用公开价格计算器七云基础设施提供商(40- - - - - -46)和计算的方法描述在我们以前的工作(47]。

表3带来的比较测量参数和云应用程序上下文(图的属性1)。对于这一分析,我们不考虑不同的用户类型。我们专注于为单个应用程序用户请求任务在前一节中描述的场景。对于更复杂的服务,然而,不同的用户类型应该包括一个全面的基于用户方面的照片,可能会影响到负载。在这项工作中,我们观察并发用户的数量,一个参数直接影响应用程序的负载。同样,我们计算成本仅仅基于基础设施提供商的定价提供了可以通过在网上公开可用信息和计算器,因此不包括广泛的不同的定价模型或定价包提供给客户在协议的基础设施服务提供商。

6。服务资源使用情况分析

探索数据和准备模型训练数据集,以及能够更好的解释结果,我们检查前一节中描述观察到的参数之间的关系。我们也分析之间的差异两个选择的用例应用程序的资源利用率。

数据5和6目前的平均资源利用率值夫人和视频流服务,分别。每个图包含的信息服务资源消耗取决于负载,即。,并发用户的数量,以及实例服务部署在(表的大小2)。展示传播的平均值的数据,我们提出的响应时间和CPU利用率的标准偏差值。作为两个服务请求响应时间观察,显示线性增长的负荷范围调查。夫人服务响应时间证明相似的价值观在中型和大型实例的情况下,但他们得到大大延长当服务部署在一个小实例。这种观察是有用的服务放置自一个非常相似的QoS级别实现不同的图像大小,不管媒体实例的CPU利用率就越高。QoS参数,我们观察到的响应时间和数量SLO违反请求的响应时间,这是明显高于当夫人服务部署在一个小实例。中型和大型实例部署之间的差异的百分比的SLO违反不可观。例如,如果响应时间SLO违反SLA允许5%,中实例能够提供110个并发用户在不违反SLA,和大型实例将能够提供最多120个并发用户。相比较而言,在一个小实例的大小的情况下,5%的极限SLO违规将达到低于50个并发用户。观察到的最大并发用户数量表明大小面向实例的选择应该基于成本最小化预期的服务负载和定义的SLA。

(一)

(b)

(c)

(d)

(e)

(f)

(g)

(h)

(我)

(一)

(b)

(c)

(d)

(e)

(f)

(g)

(h)

(我)

预期的和观察到的两个服务、CPU利用率随小的数个vcpu通过实例的分配大小可用较少的处理能力。内存利用率随加载和实例的大小,因为它是可能的分配更多的内存请求数量的增加。

夫人服务的网络利用率为中型和大型实例演示了相似值,显著减少交通和字节率为小实例由于其有限的用户请求处理速度。

其他比之前说的CPU和内存使用率的差异造成的资源分配给服务的数量,我们还进行了分析资源利用率的视频流服务(图6)。它演示了没有显著差异的网络利用率或质量服务交付给最终用户的任何观察实例大小,预计,考虑到低水平的CPU利用率(最大30%小实例)。

代表特定于磁盘的指标,我们也显示平均磁盘写入速度。因为无论是服务的数据密集型的读或写数据,磁盘写入速度的增加主要是相关应用程序的日志记录。

当两个服务相比,基于资源的使用,它可以发现服务利用更多的CPU和RAM夫人相同数量的并发用户。网络入口流量数量相似的服务,因为它是在两种情况下组成的简单的HTTP请求。正如所料,视频流服务有更高的出口流量比夫人服务作为其出口流量是由于流媒体视频文件生成的。

获得更好的理解之间的依赖关系实例的大小,数量的并发用户,一个用户请求的响应时间,我们进一步考察经验累积分布函数(ECDF)不同载荷下的响应时间(以并发用户)两个服务部署在小型、中型和大型的实例,大小(数字7- - - - - -12)。

经验提供描述随机变量的概率,在这种情况下,响应时间,必须小于等于价值。夫人的ECDF情节服务(数据7- - - - - -9响应时间)显示显著差异,根据实例的大小和并发用户的数量。累积分布函数的响应时间观察并发用户证明的响应时间与负荷快速增长在所有三个尺寸检查实例。当比较的数据7- - - - - -9,它可以观察到,响应时间更慢的并发用户数量越来越多随着资源分配给服务的数量增加与实例的大小,这是与数据一致5(一个)和5 (d)。

ECDF情节的视频流服务(数据10- - - - - -12)显示密度累积分布函数;他们少分化和显示增加响应时间与负载相比,女士服务。几乎没有可观察到的差异相关ECDFs视频流服务部署在中型和大型实例大小,表明部署服务的大型实例将overcapacitating观察范围的并发用户。某些差异是可见的在比较小的实例部署(图10),中等(图11),大(图12视频流服务的)实例部署。小实例有陡ECDFs指示更快速增长更多的并发用户的响应时间(超过130的并行用户)。然而,有大约相同的ECDFs中型和大型实例,如图6。观察不能在这样的女士服务,服务响应时间获得更多可用资源通过不同大小的实例。说明,最大响应时间150个并发用户的服务是83027 ms夫人当部署在一个小实例,21901 ms培养基实例,为大型实例11703 ms。正如所料,视频流服务的差异并不considerable-maximal响应时间150个并发用户达到127420 ms为一个小实例,71229 ms培养基实例,为大型实例部署79906 ms。

7所示。预测和功能的重要性

更好地理解服务执行成本和QoS,我们的目标是创建成本和响应时间模型描述的两个用例,为了准确地预测模型输出和使用这种模型作为提取的基础知识模型特性显著影响成本和QoS。在本节中,我们描述方法用于实现模型和分析功能的重要性。我们还描述指标用于评价模型预测精度。

我们选择算法模型的实现是基于收集的数据集的大小,预测性质的模型,使云应用程序提供商的目标的一个简单方法评价最好的基础设施提供者和服务位置选项,只需要获得较小的实验数据集。因为我们想要探索的可能性预测模型,我们使用回归技术进行分析,包括线性回归、regularisation回归技术和神经网络。

7.1。线性回归

线性回归(48)是用来确定一条直线的方程,最适合观测数据和模型输入和输出变量之间的关系。一种最常用的线性回归是多元线性回归,更加独立变量和使用一个连续的因变量。

模型的输入变量和输出之间的关系被定义为(1),预计产值,β₀是拦截模型,是一个模型输入变量的系数β_我:

回归系数β_我是由最小化残差平方和用RSS和由吗在哪里是我^th观察和的预测价值吗我^th观察计算根据(1)。

7.2。至少绝对收缩和选择操作符(套索)

至少绝对收缩和选择算子(套索)回归49)使用regularisation技术,可以处理多重共线性数据的惩罚系数的绝对规模的回归模型。这个方法将概括模型,从而避免过度拟合,否则发生由于变量之间的复杂关系。套索方法用回归系数的绝对值作为惩罚项的损失函数,根据以下方程: 在哪里λ是regularisation惩罚参数,回归系数向量,米输入变量的数量,是我^th观察的n的观察,的预测价值吗我^th观察。

7.3。角回归(LARS)

最小的角回归(LARS) [49)提供一种方法为分段线性路径的建设有效地解决套索回归前面描述的。佬司的方法是基于逐步回归,这意味着它将增加标准化预测模型正在建设一个接一个。佬司每一步的方法,选择最佳变量包含基于其绝对的相关性与残余,罚分系数是,类似于套索方法,使用regularisation惩罚参数执行λ。整个方法应用于解决套索的问题可以在找到50]。

7.4。多元自适应回归样条函数(火星)

多元自适应回归样条函数(火星)51)是一种非参数自适应回归方法常用问题大量的输入和潜在的非线性数据。火星实现策略的模型建立与逐步线性回归的区别使用基函数的输入变量直接。以下表格中定义的模型是: 在哪里是预测输出值,β₀是拦截模型,h_我是一个基函数,β_我基函数的系数h_我。类似于线性回归,β_我系数估计通过最小化残差平方和(2),基函数的最佳子集h_我选择包含在模型是基于广义交叉验证(51]。

7.5。神经网络

人工神经网络(ANN) [48)因变量的模型可以作为非线性函数回归模型使用模型输入变量的线性组合。人工神经网络是由几个layers-an输入层,一个或多个隐藏层和输出层。神经元的连接在不同的层在安训练过程中确定权重。

培训是由喂养观察到网络输入层。初始化方法应用于分配权重的初始值,其次是计算激活在每个网络层,并最终生成预测输出。后获得预测输出值,使用反向传播来更新网络权重,以减少损失函数。参数,确定权重更新的速度称为学习速率。权重被更新后,另一个迭代,称为一个时代,激活和更新网络参数的计算可以开始,直到一个特定的终止条件,例如,一个足够小的预测误差。

7.6。模型评价指标

评估模型的准确性,以及比较模式使用不同的机器学习方法,实现我们使用几个指标:平均绝对误差(MAE) [52),平均绝对百分误差(日军)[52),均方根误差(RMSE) [53),确定系数(R²)[48]。

平均绝对误差(MAE)之间的平均绝对差是一个衡量预测和定义一个变量的观测值(5),n的观测数据集,米是测量(观察)值,预测的值:

平均绝对误差百分比(日军)根据定义(6),n的观测数据集,米是测量(观察)值,预测的价值。低的日军度量值显示更好的模型精度:

均方根误差被定义为下面的公式: 在哪里n的观测数据集,米是测量(观察)值,预测的价值。由于它的定义,RMSE值永远是积极的,较低的RMSE指示一个更好的模型。

确定系数,也被称为R²,是一种统计评估准确性的百分比因变量方差解释模型预测。用于比较的模型,价值就越高R²通常是一个更好的结果的一个指标。R²被定义为下面的公式: 在哪里n的观测数据集,米是测量(观察)值,观测值的均值,预测的价值。在多元线性回归的情况下,形式的调整R²是用来惩罚的输入变量不为预测变量的方差。的调整形式R²根据以下公式计算: 在哪里n是观察,的数量k中使用的是独立变量的数量模型,然后呢R²根据(确定系数值计算8)。

7.7。排列重要性

机器学习研究的最新方法包括解释和解释复杂的结果,但往往复杂的机器学习和深入学习算法。检查模型特征的重要性,我们使用重要性排列方法。排列重要性,Breiman推出了(54]。在这项工作中,我们使用排列重要性分析主旨是回归模型。

排列重要性计算模型后安装。单一特征值的算法使用排列的验证数据和措施效果排列对预测的准确性。排列方法背后的概念是基于事实,最大的特性影响预测输出数据,即。,模型取决于广泛的预测,将导致最重要的随机排列时精度下降。输出值的方法是预测误差的增加相比,单一的预测价值交换的所有变量的预测误差在完好的状态。因此,重要性排列措施每个特性对模型做出了多少贡献,我们检查最高的特点积极排列重要性值显示最重要的影响变量的预测模型。

8。模型实现和结果分析

在本节中,我们描述了模型的实现和评估模型的准确性使用前一节中指定的评估指标。报告的准确性模型后,我们提出基于排列的功能重要性分析技术的重要性。

8.1。模型实现

检查数据后,我们实施模型预测因变量的兴趣。当我们想要探索的影响模型功能服务成本和QoS和预测,我们为每个服务创建两个模型,使用成本和请求的端到端响应时间作为预测的值。我们应用一组机器学习算法在这两个用例数据集观察算法将提供最好的结果和结果两个用例之间的不同,以及因变量之间。我们也分析哪些特性最对模型输出的影响。作为潜在的模型特征,我们认为表中提供输入变量3,高度相关的功能被移除的特性集。输入变量都是标准化和正常数据准备过程的一部分。后进行特征选择,以下预测两种模型的选择:网络出口(GB),平均内存使用量(MB),平均CPU利用率(%),使用存储(GB)。除了常见的预测,对于QoS模型,并行的数量用户被用作预测。成本模型的信息基础设施提供者作为额外的模型输入变量。

创建模型,我们使用机器学习算法实现的前一节中描述的面向环境(源代码https://github.com/cloudSPO/cloudappcontext)。数据收集过程中,部分中描述5,导致了336个样本的成本计算和响应时间测量。模型在本文中,我们使用70%的训练,获得数据,其余用于模型的验证。作为基线,我们从最简单的开始选择线性回归与创建的目标成本和QoS的用例模型。我们使用了一个开源的机器学习面向框架scikit-learn [55)实施线性回归、套索和LARS模型,除了与py-earth库(56火星)模型。自回归模型使用scikit-learn库的发展有直接的,我们简要报告基本参数中使用的模型。regularisation惩罚参数(λ)值中使用套索和LARS模型,证明了最小的模型(图13),表中列出4。在火星的模型中,我们使用了两个模型所产生的最大程度的术语前进传球和1.0作为惩罚参数用于全面交叉验证。


模型	λ_套索	λ_拉尔斯

夫人成本	10.08	3.506
视频流的成本	8.687	0.3955
夫人响应时间	0.021	1.481
视频流的响应时间	0.020	0.007

除了回归模型,我们还部署了一个神经网络模型为每个观察因变量来检查是否有可能获得更好的预测结果。神经网络的实现中,我们使用了开源面向图书馆Keras [57),使开发和评价的神经网络模型。我们使用多层反向传播神经网络架构,由一个输入层,三个隐藏层和一个输出与单个神经元用于预测响应时间或成本。

学习速率参数被设置为0.01。块模型的损失值在时代显示这个值是一个很好的学习速率的选择的ANN模型。作为一个例子,我们展示模型在训练时期损失数安夫人的成本预测服务(图14)。

指出的部分2,作者的34)神经网络模型参数的选择基于文献综述和建议使用双曲正切激活函数(双曲正切)[58)作为一个激活函数一起泽维尔(59重初始化算法。因为我们解决利用预测的类似的问题,我们尝试用建议的参数模型。在我们的实验中,得到了更好的结果使用修正线性单元(线性整流函数（Rectified Linear Unit）)激活函数(60和泽维尔初始化函数,除了安预测的成本使用视频流服务,展示了更好的结果双曲正切激活功能。ANN模型的比较结果时使用不同的激活函数,与一个固定的学习速率(0.01)和培训时期的数量(500),可以看到在桌子上5。由于神经网络模型实现的随机性质,我们报告的平均度量值基于50模型运行。


激活函数	美	日军	RMSE	Adj。R²

响应时间,夫人
线性整流函数（Rectified Linear Unit）	221.05	6.24	363.62	0.9953
双曲正切	362.35	8.75	523.66	0.9899

响应时间、视频流
线性整流函数（Rectified Linear Unit）	144.96	7.23	218.15	0.9867
双曲正切	196.03	9.17	263.05	0.9860

成本,夫人
线性整流函数（Rectified Linear Unit）	169.51	16.37	248.86	0.9954
双曲正切	124.91	10.66	192.71	0.9979

成本,视频
线性整流函数（Rectified Linear Unit）	531.55	17.26	719.94	0.9738
双曲正切	553.18	19.71	782.90	0.9750

从表可以看出5,安模型使用双曲正切激活函数和泽维尔初始化算法相同数量的时代表现稍差,学习速率相比,ANN模型使用relu激活功能,除了夫人服务的成本模型。我们为每个ANN模型选择最好的结果和报告他们在下一节。

8.2。模型的准确性

在本节中,我们报告的模型准确性实现模型和比较基于误差估计指标在7.6节中指定section-MAE,日军,RMSE和调整R²。我们的报告值误差指标表6。


度规	线性回归	套索	拉尔斯	火星	安

	响应时间,夫人
美	243.39	476.62	181.11	181.47	221.05
日军(%)	9.33	19.82	5.79	5.61	6.24
RMSE	368.56	653.35	263.47	270.47	363.62
Adj。R²	0.9942	0.9817	0.9968	0.9969	0.9953

	成本,夫人
美	142.98	113.68	99.00	106.25	124.91
日军(%)	22.82	13.47	6.33	15.19	10.66
RMSE	270.99	257.48	212.86	200.94	202.71
Adj。R²	0.9963	0.9967	0.9977	0.9980	0.9979

	响应时间、视频流
美	266.80	287.26	168.65	104.87	221.05
日军(%)	10.54	20.50	11.98	5.09	6.24
RMSE	495.25	401.45	226.01	149.86	363.62
Adj。R²	0.9588	0.9729	0.9914	0.9962	0.9867

	成本,视频
美	331.24	234.18	123.59	72.77	531.55
日军(%)	10.98	5.88	3.84	2.02	17.26
RMSE	463.54	333.45	209.41	186.87	719.94
Adj。R²	0.9982	0.9991	0.9996	0.9997	0.9750

最佳值为每个模型和度量被标记为粗体。

它可以注意到最好的精度是在几乎所有情况下与火星模型实现。作为一个例子,我们现在的响应时间的预测误差模型为女士服务使用火星实现方法如图15。安成本模型的两个用例模型精度稍低外,QoS模型相比,可以解释为不同的价格和定价模型提供的云基础设施提供商影响服务执行成本。不同的定价方案可能会更难生产成本预测模式,尤其是当不使用一个广泛的数据集。与我们的期望相反,结果呈现在34),ANN模型演示了不准确的结果相比regularisation回归技术。ANN模型的准确性很可能会提高更大的样本量。尽管有人可能会认为,我们使用一个小的数据集,根据(61年),用于分析样品的数量是足够的,考虑到我们技术用于实现模型和输入变量的数量。结果证明,主旨的能力回归技术生产精确模型即使相对较小的样本大小从而证明特别有用在原型和生产前阶段的云服务的发展。

8.3。排列重要性

除了模型准确性,我们观察的重要性特征用于预测成本和响应时间都用例我们可以获得知识的因素影响服务执行成本和QoS在最大的程度上。评估观察功能的重要性,我们计算重要性排列使用基于python库Eli5 [62年]。作为排列重要性的基础方法,我们选择模型(表精度最好的结果6)。我们报告的结果火星模型,因为他们证明了最好的两个用例模型的准确性。对于所有的模型,我们使用150次迭代得到排列重要性值变量。重量值表示每个变量对预测精度的影响,即。,h我gher positive values indicate the more significant impact of the feature on the predicted variable. Negative values, not present in our results, would suggest that the permutation of the feature values resulted in the increased model accuracy, hence making such features dispensable in their initial intact state. The absence of negative values is a good indicator that the relevant set of features was selected to build our models. We report the top four features for each model. The higher feature weight value rank indicates the higher importance of the feature in comparison to other predictors.

我们首先检查服务的成本模型。重要性排列的四大特性模型的流媒体视频服务成本表中可以看到7。最高的功能重要性视频流成本模型出口网络流量的数量,这可以解释为沉重的网络负载由传输视频文件生成的。由于出口流量是指控基于即用即付的基础,它的数量直接影响到整体服务执行成本。排名最高的功能成本模型(表夫人8)也是网络出口流量的数量。然而,网络出口流量的重量值低于相同的重量特性在视频流成本模型中,表示不影响执行成本金额由于出口产生的少夫人的交通服务相同的负载。网络出口特点是紧随其后的是变量标记云基础设施的提供者,类似于视频流服务成本模型与基础设施服务提供商要求不同。这样的排名可能表明资源相关的观察任务执行的价格最高的提供者提供的重量特性列表的价值导致了执行成本最高的服务。夫人虽然排名有所不同和视频流服务,基础设施提供商1和2在这两种情况下有类似的排列重要性权重值,和基础设施供应商3的重量为两个服务价值较低,表明一致性方面的影响价格和定价模型对整个应用程序服务执行成本。


重量	功能

1.6223±0.4371	西北出口(GB)
0.9892±0.4441	服务提供者1
0.8785±0.4269	服务提供者2
0.6277±0.2374	服务提供者3


重量	功能

1.0311±0.5252	西北出口(GB)
0.9498±0.5958	服务提供者2
0.8550±0.5181	服务提供者1
0.6938±0.3571	服务提供者3

的秩为成本模型的特性提供了应用程序提供者的服务方向布置优化和降低服务成本的目标。根据观察到的结果有两个服务在我们的分析中,好的选择对于降低成本,服务条款的放置方法,包括云基础设施提供商提供网络出口价格的下降,因为这是最影响的功能执行成本。另一个选择可能是优化服务通过网络发送的内容减少整体生成的出口流量,如果可能的话。

除了成本之外,我们观察哪些特性影响响应时间最多的人。结果重要性排列QoS的视频流(表模式9服务(表)和夫人10)展示相同的功能,最影响预测并行用户的响应时间。这是一个预期的结果由于并行用户请求的数量影响资源利用率和有效地处理请求的能力。因为我们感兴趣的是识别功能足够有效的响应时间的服务位置,我们另外观察特性,并发用户的数量后排名最高。在视频流服务的情况下,该功能网络出口流量排名第二,表明流媒体的视频数据块有一个对响应时间的影响由于有限的带宽。其他功能似乎有很少或没有影响视频流服务的响应时间。并发用户请求的数量后,夫人服务响应时间主要取决于使用的内存,这意味着用户请求的处理更重要的影响比带宽消耗夫人服务响应时间,而与视频流服务。应用程序可以使用这个观察的提供者来识别关键实现足够的服务QoS级别的资源。考虑到功能重要性等级视频流服务,应用程序提供者应该在选择服务位置时,优先考虑网络带宽和网络端口提供更大的吞吐量,以避免瓶颈实现足够的服务质量。夫人服务的应用程序所有者应该优先使用实例的位置服务,提供足够的RAM来有效地处理用户请求。


重量	功能

2.2935±0.7169	用户
0.0299±0.0147	西北出口(GB)
0.0001±0.0001	Avg。RAM使用(MB)
0±0.0000	磁盘读取字节


重量	功能

2.0382±0.3191	用户
0.8644±0.1578	Avg。RAM使用(MB)
0.4996±0.1399	磁盘读取字节
0.4075±0.1038	西北出口(GB)

9。结论

云计算使云应用程序提供者,即。,SaaS providers, to host their applications in the cloud environments and to be charged for the used computing resources in a pay-per-use manner. Renting public cloud infrastructure will undoubtedly cut down capital investments, but it can still be a very complex task for the SaaS providers to determine what is the optimal service placement and how to choose the cloud infrastructure provider to minimise the service cost while maintaining the appropriate QoS levels.

在本文中,我们提出一个方法,允许SaaS提供者来预测服务执行成本和观察到的QoS参数为云应用和提取知识云应用程序上下文的特性影响的成本和QoS在最大的程度上。对我们的实验中,我们使用两个应用程序作为云服务使用情况下医疗记录系统和视频服务。我们提出一组特性用于实现服务模型。我们使用的特征选择是适用于任何应用程序可以部署为SaaS服务,与许多可用的解决方案在文献中使用功能具体实现的服务模型的特定类型的应用程序。这样的话,该方法可以应用于广泛的应用托管在云环境中。

在我们的方法中,我们使用各种机器学习方法适合我们收购的大小dataset-linear回归,regularisation回归和神经网络。评估模型,我们使用几个误差指标为目的的比较实现模型。结果显示能力的回归模型准确预测成本和QoS参数的应用程序部署在云端。可以应用该方法即使在一个广泛的数据集不是可供分析,相比之下,文学的许多可用的解决方案,需要服务已经部署在生产环境中。我们认为这特别相关的服务仍在运营初期阶段时不可能获得大型数据集,但决定生产环境和云基础设施提供商尚未。我们进一步证明能力提取知识的主要贡献者观察预测变量,使用重要性排列方法,甚至可以应用在模型使用先进的技术,如神经网络实现的。这个属性重要性排列的方法使我们的方法的适用性广泛的模型,让云应用程序上下文的影响的分析应用程序的成本甚至QoS的复杂的云服务。

总结,本文中给出的结果表明,可以实现模型精度高,使用普遍特性相关的云应用程序和基础设施,它可以应用于任何应用服务部署在云环境中。同时,我们表明,重要性排列方法可以用来提取知识云服务应用程序上下文参数的影响成本和QoS。最后,我们表明,该方法可以执行没有收购大型数据集,这使得它的使用在生产前阶段服务的生命周期。

我们未来工作的主要目的是利用知识云应用程序上下文参数最重要影响服务成本和QoS云应用服务位置的优化。信息预测的效果可以用作为算法的输入处理决策cost-minimising服务放置在云环境中,这将同时满足要求的服务质量。应用程序所有者可以获得这些知识在其生产环境部署服务之前,各种服务和基于模型的方法使预测位置的结果。我们相信,这种方法可以对云应用服务提供商有价值,尤其是在科学应用的背景下,包括一个广泛的各种各样的应用程序类型。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

信息披露

进行这项研究的一部分的就业研究中心的通讯作者爱立信尼古拉·特斯拉公司代码。

的利益冲突

作者宣称没有利益冲突有关的出版。

引用

k·巴克利,到2019年,60%的工作负载将运行在云中美国,451年的研究中,波士顿,MA, 2018年,https://451research.com/blog/1910 -, - 2019, 60-of-it-workloads-will-run-in-the-cloud。
l·哥伦布83%的企业工作负载将在2020年在云中福布斯传媒LCC,纽约,纽约,美国,2019年,http://www.forbes.com/sites/louiscolumbus/2018/01/07/83-of-enterprise-workloads-will-be-in-the-cloud-by-2020/。
下午干预和t .光亮型,NIST的云计算的定义,NIST的特殊出版国家标准与技术研究所的盖瑟斯堡,医学博士,美国,2011年,https://nvlpubs.nist.gov/nistpubs/legacy/sp/nistspecialpublication800 - 145. - pdf。
RightScale 2019 Flexera云的状态报告,2019年,https://www.rightscale.com/lp/state-of-the-cloud。
o·罗杰斯和w·研究员,云定价法典- 2013451 Research LLC,波士顿,MA,美国,2013年。
Kaur Kaur a, b, d·辛格“优化资源配置和负载平衡技术在云环境:复习一下,”国际期刊的信息工程和电子商务,9卷,不。1,28-35,2017页。视图:出版商的网站|谷歌学术搜索
A.-F。安东内斯库和t·布劳恩,”模拟cloud-distributed应用到基于sla的VM-scaling算法”,未来一代计算机系统54卷,第273 - 260页,2016年。视图:出版商的网站|谷歌学术搜索
j . Yu和r . Buyya调度科学工作流应用程序使用遗传算法与期限和预算限制,”科学的规划,14卷,不。3 - 4、217 - 230年,2006页。视图:出版商的网站|谷歌学术搜索
l .气j . Yu, z周,”一个调用web服务的成本优化方法在云环境中,“科学的规划卷,2017篇文章ID 4358536、9页,2017。视图:出版商的网站|谷歌学术搜索
t·约翰·w·李,美国培特,e . Erik”Cost-optimal云服务放置在动态定价计划,”学报2013年IEEE / ACM国际会议6日在实用和云计算德国德累斯顿,IEEE计算机协会,2013年12月。视图:谷歌学术搜索
张y, j .姚明,h .关”与深强化学习智能云资源管理”,IEEE云计算,4卷,不。6日,60 - 69、2017页。视图:出版商的网站|谷歌学术搜索
g . Skourletopoulos c . x Mavromoustakis g . Mastorakis j . n . Sahalos j . m . Batalla和c . Dobre”游戏理论制定的技术债务管理问题在云系统,”学报》2017年第14届国际会议电信(ConTEL),7 - 12页,IEEE,克罗地亚的萨格勒布,2017年6月。视图:谷歌学术搜索
s . Memeti s Pllana a . Binotto j . Kołodziej i Brandic,“使用meta-heuristics软件优化和机器学习并行计算系统:一个系统的文献回顾,“计算,卷101,不。8,893 - 936年,2018页。视图:出版商的网站|谷歌学术搜索
s . h . h . Madni m . s . a . Latiff y Coulibaly,和s . m . Abdulhamid”的评价meta-heuristic IaaS云资源分配技术,”印度科学和技术杂志》上,9卷,p。2016。视图:出版商的网站|谷歌学术搜索
z朱、张g、m·李和x,“云工作流调度多目标进化,”IEEE并行和分布式系统,27卷,不。5,1344 - 1357年,2016页。视图:出版商的网站|谷歌学术搜索
作为礼尚往来,m . Elhoseny A . s . Salama和A . m .利雅得,“改善医疗保健服务的机器学习模型在云计算环境中,“测量卷,119年,第128 - 117页,2018年。视图:出版商的网站|谷歌学术搜索
y, j .姚明,H.-A。雅各布森和h .关”的谈判与强化学习在多个资源,”学报2017年IEEE / ACM 25日的服务质量(IWQoS)国际研讨会,页1 - 6,IEEE,巴塞罗那,西班牙,2017年6月。视图:谷歌学术搜索
z, j . Ge h . Hu w .歌曲,h . Hu和b·罗”成本和能源意识到科学工作流调度算法与期限约束云,“IEEE服务计算,11卷,不。4、713 - 726年,2018页。视图:出版商的网站|谷歌学术搜索
m·a·罗德里格斯和r . Buyya Budget-driven调度的科学工作流与细粒度的计费时间IaaS云,“ACM交易自治和自适应系统(taa),12卷,不。2、22页,2017页。视图:出版商的网站|谷歌学术搜索
b·艾哈迈德·s . McClean查尔斯·d·g·帕尔,”分析,节能技术在CloudSim使用游戏工作负载,”云计算,第2018卷,第143页,2018年。视图:谷歌学术搜索
r . Pakdel和j·赫伯特”,可扩展的基于云的医疗大数据分析框架”学报2016年IEEE 40计算机软件和应用年会(COMPSAC),卷2,IEEE,亚特兰大,乔治亚州,美国,2016年6月。视图:谷歌学术搜索
一个。Salanki, g . Kincses l . Gonczy,即柯奇士便因“VCL云,数据分析能力规划”云计算的国际期刊》第六卷,没有。4、370 - 383年,2017页。视图:出版商的网站|谷歌学术搜索
f·科赫,m . d . Assuncao c . Cardonha和m . a . s .清爽的“优化教育资源云计算的成本。”未来一代计算机系统,55卷,第479 - 473页,2016年。视图:出版商的网站|谷歌学术搜索
a . n . Toosi r·o·辛诺特和r . Buyya”是数据密集型应用程序的资源配置与使用Aneka期限限制混合云,“未来一代计算机系统卷,79年,第775 - 765页,2018年。视图:出版商的网站|谷歌学术搜索
c·b·豪泽j . Domaschka, s . Wesner“资源密集型大数据的可预测性和HPC工作在云数据中心”学报2018年IEEE国际会议软件质量,可靠性和安全性的同伴(QRS-C)IEEE,页358 - 365年,里斯本,葡萄牙,2018年7月。视图:谷歌学术搜索
e . n . Alkhanak s p . Lee和s·r·汗”Cost-aware挑战在云计算环境中工作流调度的方法:分类法和机会,”未来一代计算机系统卷,50 3-21,2015页。视图:出版商的网站|谷歌学术搜索
r .野生动物,b . Benatallah、美国Dustdar和m . p . Papazoglou“云资源编排编程:概述、问题和方向,”IEEE网络计算,19卷,不。5,46-56,2015页。视图:出版商的网站|谷歌学术搜索
f . Fakhfakh、h·h·Kacem和a . h . Kacem”工作流调度云计算:一项调查,”学报2014年IEEE 18国际企业分布式对象计算会议研讨会和示威(EDOCW)IEEE,页372 - 378年,乌尔姆,德国,2014年9月。视图:谷歌学术搜索
h, c . Filelis-Papadopoulos d .董g . g . Castane和j·p·莫里森,“对一个可扩展性和适应性在云计算环境中,资源分配框架”学报2017年第46位并行加工车间(ICPPW)国际会议上IEEE,页137 - 144年,2017年8月,英国布里斯托尔。视图:谷歌学术搜索
k . m . Maiyama d·d·Kouvatsos b·穆罕默德·m·Kiran和m·a·卡玛拉”的性能建模和分析OpenStack IaaS云计算平台”进行2017年IEEE第五国际会议上未来的物联网和云(FiCloud)IEEE,页198 - 205年,布拉格,捷克共和国,2017年8月。视图:谷歌学术搜索
j .追逐和d . Niyato”,在云计算联合优化资源配置,”IEEE服务计算,10卷,不。3、396 - 409年,2017页。视图:出版商的网站|谷歌学术搜索
s . g . Li徐、吴j .和h .叮”资源调度计算基于改进的谱聚类算法的优势,”科学的规划ID 6860359条,卷。2018年,13页,2018。视图:出版商的网站|谷歌学术搜索
美国伊斯兰教,j·亚强、k·李和a .刘“经验预测模型的自适应资源配置云,“未来一代计算机系统,28卷,不。1,第162 - 155页,2012。视图:出版商的网站|谷歌学术搜索
m . Borkowski s舒尔特,c . Hochreiner“预测云资源利用率”学报2016年IEEE / ACM 9日效用和云计算国际会议(UCC)页37-42 IEEE,上海,中国,2016年12月。视图:谷歌学术搜索
c .费林f . Leymann r . ret p . Arbitter和w·Schupeck云计算模式:基础设计、构建和管理云应用程序施普林格科学与商业媒体,柏林,德国,2014年。
b·a·沃尔夫b·w·Mamlin p·g . Biondich et al .,“OpenMRS系统:合作对一个开源EMR为发展中国家”《AMIA年度研讨会论文集卷。2006年,美国医学信息学协会,华盛顿特区,美国,2006年11月。视图:谷歌学术搜索
灵活的流光,2018,https://wmspanel.com/nimble。
OpenStack, 2018,http://www.openstack.org。
Apache jMeter, 2018年,http://jmeter.apache.org/。
2018年CenturyLink价格计算器,https://www.ctl.io/estimator/。
谷歌价格计算器,2018,https://cloud.google.com/products/calculator/。
2018年亚马逊价格计算器,https://calculator.s3.amazonaws.com/index.html。
阿里巴巴云计算价格计算器,2018,https://www.alibabacloud.com/pricing。
2018年数字海洋价格计算器,https://www.digitalocean.com/pricing/。
Azure价格计算器,2018,https://azure.microsoft.com/en-us/pricing/calculator/。
甲骨文价格计算器,2018,https://cloud.oracle.com/en_US/cost-estimator。
即Stupar和d . Huljenić分析服务资源使用优化概要文件的云服务执行成本,”IEEE EUROCON学报》2017 - 17智能技术国际会议IEEE,页79 - 84年,奥赫里德,马其顿,2017年7月。视图:谷歌学术搜索
m·h·库特纳c . j . Nachtsheim j .净和w·李,应用线性统计模型美国麦格劳-希尔,欧文,纽约,2005年。
t . Hastie r . Tibshirani, m·温赖特统计学习与稀疏:套索和概括美国佛罗里达州波卡拉顿,CRC新闻,2015年。
r . Tibshirani b·埃夫隆、t . Hastie和约翰斯通,“至少角回归,”统计年报,32卷,不。2、407 - 499年,2004页。视图:出版商的网站|谷歌学术搜索
j·弗里德曼,t . Hastie和r . Tibshirani统计学习的元素:数据挖掘、推理和预测,施普林格系列统计,柏林,德国,第二版,2009年版。
a . De Myttenaere黄金,b . Le Grand f·罗西,“平均绝对百分比误差回归模型,”Neurocomputing38 - 48,卷,192,页2016。视图:出版商的网站|谷歌学术搜索
j·s·Bendat和a·g·Piersol随机数据:分析和测量程序卷。729年,约翰·威利& Sons霍博肯,新泽西,美国,2011年。
l . Breiman“随机森林”,机器学习,45卷,不。1,5-32,2001页。视图:出版商的网站|谷歌学术搜索
f . Pedregosa g . Varoquaux a Gramfort et al .,“Scikit-learn:机器学习在Python中,”机器学习研究杂志》上》12卷,第2830 - 2825页,2011年。视图:谷歌学术搜索
Py-Earth库文件,2019年,https://contrib.scikit-learn.org/py-earth/。
答:Gulli和美国朋友,深度学习与Keras英国伯明翰,Packt出版有限公司,2017年。
b . Karlik和a . Vehbi Olgac”,性能分析各种激活函数的广义MLP神经网络的体系结构。”人工智能和专家系统的国际期刊,1卷,不。4、111 - 122年,2011页。视图:谷歌学术搜索
x Glorot和y Bengio”理解的难度训练前馈神经网络,”《十三人工智能国际会议上和统计2010年5月,意大利撒丁岛。视图:谷歌学术搜索
诉Nair g·e·辛顿,“修正线性单位改善限制玻耳兹曼机,”学报》第27届国际会议上机器学习(ICML-10)以色列海法,页807 - 814,,2010年6月。视图:谷歌学术搜索
s . b .绿色”,几门课程才能做回归分析,“多元行为研究,26卷,不。3、499 - 510年,1991页。视图:出版商的网站|谷歌学术搜索
ELI5库文件,2019年,https://eli5.readthedocs.io/en/latest/。

科学的规划