视交叉上核 安全性和通信网络 1939 - 0122 1939 - 0114 Hindawi 10.1155 / 2021/8340925 8340925 研究文章 基于协作学习的流浪者预防大规模分布式计算框架 https://orcid.org/0000 - 0003 - 4669 - 088 x 德斯穆克 Shyam 1 https://orcid.org/0000 - 0002 - 0907 - 6824 Thirupathi饶 科马提河 1 https://orcid.org/0000 - 0001 - 5106 - 7609 Shabaz 默罕默德 2 考尔 Manjit 1 计算机科学与工程系 Koneru Lakshmaiah教育基金会 Vaddeswaram 托尔522502 美联社 印度 kluniversity.in 2 亚明奇大学 亚明奇 埃塞俄比亚 amu.edu.et 2021年 24 5 2021年 2021年 7 4 2021年 9 5 2021年 13 5 2021年 24 5 2021年 2021年 版权©2021 Shyam德斯穆克等。 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

现代大数据应用程序倾向于集群计算的方法,因为他们与分布式计算框架,提供用户按需求工作。它执行快速处理的任务细分成并行执行的任务。由于复杂环境,硬件和软件问题,任务可能运行缓慢导致延迟作业完成,和这种现象也被称为掉队。分布式计算框架的性能改善是由离散瓶颈节点由于各种因素,例如共享资源,系统负载,或硬件问题导致长时间工作执行时间。许多先进的方法使用独立的每个节点模型和工作负载。增加节点和工作负载,将增加的数量模型,即使有大量的节点。不是每个节点能够捕获的流浪汉可能没有足够的训练数据的流浪者模式,产生次优流浪者的预测。缓解这些问题,我们提出一种新颖的基于协作学习方法流浪者预测,乘数的交替方向方法(小组ADMM),这是资源节约型和学习如何有效地处理减轻流浪汉没有将数据移动到一个集中的位置。拟议的框架股票信息的各种模型,允许我们使用更大的训练数据和降低训练时间,避免数据传输。我们严格评估该方法在不同的数据集与高精度的结果。

1。介绍

任何组织依赖于云计算环境中主要关注因素,如CPU使用率,内存、I / O和网络性能优化。然而,所有这些参数易受性能下降,并可能导致次优的服务质量(QoS)。谷歌集群的跟踪研究是一个里程碑的分析与多个服务器工作负载在云环境中研究了迪恩和格玛沃特( 1];陈等人。 2];Reiss et al。 3]。这提供了集群工作负载数据记录在谷歌分析跟踪。最重要的贡献是许多任务和工作的分析提供了一种有效的分配资源的新的即将到来的任务到云数据中心,从而提高吞吐量的数据中心。由于固有的本质并行执行在分布式计算系统中,有时,它经历了缓慢运行任务称为掉队,可能导致延迟执行的工作。云计算和高性能计算框架通常监控任务完成状态和启动备份任务工作执行过程中掉队。这种冗余方法产生巨大的运营和财务成本。甚至,他们不提供postevent分析诊断掉队的原因和他们积极的预防。典型的流浪者识别执行在两种模式:(1)活性(在线)和(2)积极主动(离线)。反应技术通常使用一个标准的比较任务执行时间和一个阈值计算基于中值在所有任务( 4]。监测数据可能不总是可以从用户侧自监视工具很难安装和调优。因此,一些研究集中在离线策略通过分析日志,而不是陆监测et al。 5]。集群管理,例如,纱线在Vavilapalli et al。 6),Isard et al。 7Verma)等。 8),有不同的重点。他们提供资源隔离和分配基于用法,工作优先级,和公平。他们不提供答案,这任务在工作或掉队为什么这些任务更慢。

另一方面,积极主动的方法分析动态特性,比如资源利用率,节点的性能,和随时间变化的非均质性。使用毫升,可以使用训练数据构建模型未知的值可以预测未来并确定流浪者( 9]。流浪者检测和分析使用毫升可以分类下积极的方法。Javadpour et al。 10)提出一个动态方法,应用神经网络识别流浪者任务提高效率。straggler-identification比较了任务的执行时间的另一个方法(或进程),基于中值在阈值计算的所有任务。此外,还有一个流浪者识别技术基于CPU利用率。被确认,之间有很强的相关性高系统CPU利用率和流浪者发生在赖斯等检查。 3];沈和李 11]。原因发生资源争用。这进一步加剧是因为Head-of-Line阻塞(HOL阻塞),任务执行期间干扰,繁忙的锁,队列问题,危险的任务执行,并推出额外的投机性副本,这就需要额外的时间来执行。

最先进的主动模型作为研究分析的工作量和计算节点作为一个单独的流浪者与独立模型估计的任务。追求一个单独的动机之一毫升模型每个工作负载和节点独立是因为存在各种各样的资源配置从节点到节点的工作量和工作负载。因此,各种各样的流浪者模式出现,因为这样的异质性。这是证明了Yadwadkar et al。 4]。因此,一个单独的ML模型训练被认为是必要的。然而,这种模式面临的主要挑战:(1)独立的节点和工作负载,需要一套新的培训导致增加了数据采集的时间,和(2)数据匮乏可能出现的对于一个给定的工作负载为各自的节点产生次优毫升模型。这组的ML模型可以有效地解决的挑战学习流浪者预测任务协作。在这种方法中,节点,无法获得足够的训练数据,得到数据,执行其他工作负载时,或从其他节点运行相同的工作负载。这可以实现在实践中使用多任务学习(MTL)证明了Yadwadkar et al。 9]。另一种方法中提到德斯穆克et al。 12]试图避免落伍的士兵发生通过mpi库等数据并行性技术。

开发一个分布式机器学习方法,有效地分配大型数据,具有挑战性。标准的ML技术需要的训练数据聚集在一个集中的位置,即,在一台机器上或在一个数据中心。这样的数据收集和分析可能在实践中很难进行,因为资源的约束。在一个分布式环境中,多个节点协同工作朝着一个共同的优化目标通过一个交互式的本地计算和通信的过程,理想情况下应该导致所有模型收敛于全局最优。

缓解问题,在本文中,我们提出一个基于协作学习(CL)制定学习的预测非常准确和推广比多个独立的模型。这是基于乘数的交替方向方法——(小组ADMM)为基础的支持向量机(SVM),博伊德提出的et al。 13]。该模型允许节点共同学习共同预测模型,同时保持所有训练数据节点,解耦能力做毫升的需要存储中的数据集中的方式。CL允许智能模型、更低的延迟和更少的电力消耗,同时确保隐私。之间存在着微妙的差异并行变异模型和传统的毫升CL-based的;传统的单指令多数据(SIMD)体系结构,而后者有分散/分布式优化模型参数。当地的模型进行预测节点通过把模型训练的节点。

在CL,存在两种类型的节点:(1)共同的处理程序与其他节点共享模型更新,和(2)独立的节点数据中心的成员。独立节点下载当前的模型中,通过学习提高节点本身的数据,然后执行模型参数变化作为一个更新。只有这种模型更新发送到常见的节点,是立即处理其他节点更新改进共享模型。上的所有训练数据仍然是节点,和任何个人更新存储在常见的节点。因此,没有数据传输发生在节点使其高度资源节约型和快速。流浪者的识别,每个独立的节点将被训练在本地数据,因此,形成一个当地流浪者识别模型(a),和所有这类节点的参数变化(B)聚合,形成一个共识。注意,所有的数据驻留在本地节点,而只有毫升共享模型参数。共识变化形式(B)是反映在全球流浪者识别模型(C),由于分散协同过滤的属性。最后,(C)的副本是可用的(a)在每个流浪者的预测。为此,我们的主要贡献如下:

流浪者的小说CL-based技术识别问题是资源节约型和抓住了异构资源争用模式工作负载和节点。

严格的评估提出了系统的预测和避免掉队在生成的数据和实际生产集群痕迹。

流浪者的健壮CL-based制定检测即使少量的流浪汉,因此解决类不平衡问题,这种现象经常发生在ML问题由于缺乏足够的训练例子。

接下来,我们首先给出一些背景部分的流浪汉 2。然后我们描述提出CL-based流浪者检测框架部分 3。节 4我们经验评估我们的配方,不同的工作负载。节 5我们描述结果充实声称,在本文中提出。我们结束的前景提出工作改进和讨论。

2。相关工作

考虑到云环境的动态特性包括nonreliable资源异构负载,和服务质量(QoS)需求,一个静态资源管理解决方案可能不会工作。因此,一个静态资源管理器扩展监测模块,收集有价值的信息的应用程序的性能和资源利用率的系统组件的系统状态。另一方面,进步machine-learning-based (ML)方法提供的所有监控组件的行为模式和有趣的变化。获得知识不服从的模式,这是通常被称为一个异类诱导因为各种各样的原因,有助于提高系统的性能。并行计算框架遵循MapReduce的院长和格玛沃特 1]模式广泛应用于现实世界的大数据应用处理批处理和流数据。在这其中,Zaharia et al。 14)最近获得广泛采用。不同于Hadoop框架Manikandan和拉维( 15),Vavilapalli et al。 16),火花支持一个更一般的编程模型,在一个内存技术,称为弹性分布式数据集(抽样),Zaharia et al。 17),用于存储输入和中间数据生成的计算阶段。火花是Hadoop MapReduce的实现模型,该模型优于包装多个操作到单一任务,并利用RAM内存缓存中间数据。我们目标Apache火花,因为它是一个广泛使用,高效、先进的数据分析平台,它是目前增长最快的这样的开源平台,Zaharia et al。 14]。

Apache火花是一个开源集群计算引擎对于大型数据处理。在处理大型数据集的最重要的因素之一是在内存中运行的速度通过计算。在其核心,火花是一个负责的计算引擎的调度、分配、和监控应用程序组成的许多计算任务在许多工人的机器,或者计算集群。火花是为了有效地扩大从一对多的成千上万的计算节点。实现这一目标,同时最大化的灵活性,火花可以运行在不同的集群经理,包括Hadoop纱,和一个简单的集群管理器包含在火花本身独立的调度器。火花上下文连接到集群管理器,然后在工作节点为应用程序分配资源。集群管理器分配执行人跨集群工作节点。它将应用程序的jar文件复制到工人,最后它分配任务。

后期通过Zaharia et al。 18)使用进步的分数提高性能比投机执行。但它施加压力在其他运行任务由争夺资源和假定任务使开发大致恒定速率,这并非总是如此。提出的Mantri Ananthanarayanan et al。 19)更关注于节约计算资源的一个集群,即。、任务槽。如果备份的工作有非常大的概率完成早期,Mantri将停止初始任务在集群活动(kill-restart方法)。然而,kill-restart方法不能保证新任务将比原来提前完成。在所有活性技术,问题会更糟一些任务何时开始离散时到它们的执行。提出的克隆机制像多莉Ananthanarayanan et al。 20.)积极主动,但只关注互动工作,在本质上是重复的,导致额外的资源。

负载均衡策略的详细调查使用Hadoop队列调度和虚拟机迁移提出了由总督和Gunasekhar [ 21]。提出了一种方法通过Sravanthi和拉奥( 22],它是一个动态的、处理意识到作业调度器,技术执行负载分配工作节点基于他们之前的表现。同样,一个方法提出了Naresh et al。 23)表现最佳的资源发现和动态资源分配。它是基于改进的粒子群优化和布谷鸟搜索算法。负载平衡的适应过程增加和减少相关的资源消耗在数据中心的工作负载,提高系统的整体性能达到客户满意度。一个有效的测量研究了Talasila et al。 24]为有效的交通处理解决负载平衡现象在公共云。另一种方法基于蚁群优化基于负载均衡技术在云中心的性能分析研究了Reddy et al。 25),以防止延迟等实时流处理引擎Apache火花流,一个额外的技术像多莉撤退机制有效地避免掉队和过程数据,研究了Srikanth和Reddy [ 26]。罗陀,饶 27]提供了一个全面审查技术增加MapReduce异构云环境下的性能通过中间数据分区数据本地化的减速器。通过应用MapReduce的延迟调度通过提高数据局部性,罗陀,饶 28]显示槽利用率和Hadoop集群的性能改进。Praveen et al。 29日)提出了一种有效的资源配置使用一个社会群体优化算法结合shortest-job-first调度的调度任务的应用技术来最小化最大完工时间的时间和最大化吞吐量。

许多研究人员试图通过机器学习的方法避免掉队。表现差的节点标识和列入黑名单 30., 31日在任务调度阶段。这些技术又导致资源浪费,因为他们无法参与执行作为流浪汉主要非持久的。毛等。 32),Du et al。 33张,et al。 34)应用减轻掉队的强化学习方法,减少作业完成时间,但严谨的流浪汉可能不是最优的识别。现有方法中使用的分散数据由交替方向方法基于乘数(小组ADMM)算法的喜欢 35- - - - - - 39]。

3所示。提出工作 3.1。框架

我们引入一个新的框架来确定掉队,如图 1基于两个主要阶段。第一阶段包括两个部分:(1)提取特征向量的各工作节点资源利用率指标;(2)全球训练一个分类器的帮助下多个独立的局部模型作为当前和下一个部分中描述如图 2。第二阶段由验证测试工作负载的或看不见的环境中通过应用学习模型。的功能设计测试数据与上面提到的相同。测试执行节点通过复制一个节点的全局模型。

提出了流浪者检测框架的工作流程。

训练阶段的建议的体系结构。

拟议的框架的培训发生在多个阶段如图 2。它显示了通过小组ADMM分布式SVM的学习阶段,个体劳动者同时训练支持向量机模型和分开。一开始,每个工人的本地支持向量机将是不同的,但在与全球交换模型参数的模型,它在每个迭代中变得更加相似。全球总当地的模型参数,模型将生成的共识模型。

3.2。ADMM-Based协作学习

我们认为一组 n节点和一个中央聚合器。每个节点 n 有独立的训练数据集。 D : = 一个 , j , b , j : j 在哪里 训练样本数据集的数量吗 D , 一个 , j R d d 特征向量的 jth训练样本, b , j R p 是相应的 p维数据标签。在这篇文章中,我们考虑一个星形网络拓扑中,每个节点可以与中央聚合,聚合器是负责消息传递和聚合。流浪者标识的目的是培养一个监督学习模型在种族隔离的数据集 D , n n 节点 。这使得预测一个标签对任何新的数据利用率指标特征矢量的工作。学习目标可以制定以下正规化的经验风险最小化的问题: (1) 最小值 w = 1 n j = 1 1 l 一个 , j , b , j , w + λ R w , w R d × p 是全球毫升训练模型。 l : R d × R p × R d × p R 损失函数是用来测量的质量训练模型, R(·)指的是规范介绍了防止过度拟合函数,和 λ> 0是调整参数控制正则化的影响。铸造方程( 1)可以转换为二进制逻辑回归的损失函数分类器如下: (2) l 一个 , j , b , j , w = ln 1 + 经验值 b , j w T 一个 , j

应用小组ADMM,用方程( 1), (3) 最小值 w n = 1 n j = 1 1 l 一个 , j , b , j , w + λ n R w , 这样 w = w , = 1 , , n

在标准小组ADMM,与这个问题相关的增广拉格朗日函数( 3)是 (4) l ρ w , w n , γ n = = 1 n l ρ , w , w , γ , 在哪里 (5) l ρ , w , w , γ = j = 1 1 l 一个 , j , b , j , w + λ n R w γ , w w + ρ 2 w w 2 , γ n R d × p × n 是双变量与约束, ρ> 0是惩罚参数。在方程(标准小组ADMM解决问题 3高斯-赛德尔的方式)通过最小化方程( 4)对 w n w另外,后跟一个双重更新的 γ n 。中给出的配方是基于工作( 13]。

3.3。离群的动物使用概率分类预测模型

训练数据集 D = 一个 , b | 一个 R d , b 1 , + 1 = 1 −1或+ 1,表示数据点ai所属的类。使用逻辑回归的目标概率分类学习class-posterior概率是如上所述 p( b |训练样本数据集 D 。基于class-posterior概率、分类的新样品 一个 测试 可以进行了 b 测试 := 马克斯 b 1 , + 1 p b | 一个 有信心 p b | 一个 。让 b∈{−1 + 1}代表nonstraggler和流浪者类,分别。流浪者检测的任务是分配的价值估计 p ^ 一个 对于测试数据,给定的训练数据和模型。流浪者是由的条件概率 p ^ 一个 , θ ,在那里 θ向量的参数学习吗 第三节 2 - w w ,ρ和γ分别。

4所示。实验研究 4.1。配置

中提到的各种配置参数表 1

硬件和软件配置。

属性
Hadoop集群安装模式 完全分布式模式
集群节点数 5
RAM在节点 1、2、3 和4 4 GB
网络拓扑结构 明星与主从
硬盘空间 500 GB
主节点 有一份工作追随者
奴隶节点 数据节点和任务跟随者
文件块大小 128 MB
时钟频率 2.7 GHz
4.2。集群设置

我们有一个网络节点的Hadoop集群的配置如表所示 1。我们已经构建了五个节点的Hadoop集群来估计节点发现流浪者的提出解决方案。其中一个节点选为一个主节点,它运行Hadoop分布式文件系统(名字节点)和MapReduce运行时(资源管理器)。剩下的四个节点从节点(数据节点和节点管理员)。Hadoop的固定块大小是128 MB。当一个大文件插入到HDFS,它将被分解成128 MB的块,分为数据节点。所有系统在多节点设置使用Ubuntu v16.04操作系统,JDK 1.7, Hadoop 2.7.1版性能。

4.3。工作负载

我们执行两种不同类型的工作在密集的Hadoop记忆和密集的CPU利用率。内存密集型的任务,比如机上优于邻居和图像处理进行。CPU密集型任务是由内核支持向量机和类似的算法。一些网络密集型任务使用重型上传和下载也创造了与前两个类型的负载创建机制。

4.4。数据集 4.1.1。特性

我们使用22特性,其中大部分是与CPU利用率(例如,CPU空闲时间,用户时间,系统中,CPU等等,I / O和CPU速度,等等),磁盘利用率(例如,数量的自由空间,本地读/写数据从数据节点,最大百分比用于所有分区,等等),内存利用率(例如,数量的缓冲、缓存、共享、自由和总数量的可用内存,等等),网络利用率(例如,每秒数据包进出,等等),和系统级特性(如的进程总数,运行进程的总数、总金额的交换内存,可用交换内存,等等)。作业历史服务器跟踪作业执行时间通过开始时间,完成时间,任务执行时间,读取数据的字节,字节写入数据,运行时间也。我们没有使用任何功能减少技术随着特征数量的人数已经降低,和性能证明使用该方法部分 5似乎并没有受到影响的特性。

10/24/11。数据集生成

对于构建预测模型,我们需要一个标签数据集{功能,标签}对组成。我们使用Ganglia-based node-monitor通过大规模的et al。 40)来捕获节点的资源利用率指标。我们从Hadoop获得与工作相关的特性。我们选择一个子集组成的五个特性,也就是说,执行时间,平均CPU利用率、内存使用情况,磁盘I / O的时间,和每个指令周期,使用该小组ADMM经验。流浪者的指标用于决定标准化的持续时间(执行)时间建议Yadwadkar et al。 4]: (6) n d t = 任务执行时间 的工作量字节读 / 写的任务 t

一个 th任务 t的工作 J被称为流浪者如果 n d t > β × 中位数 n d t ,在那里 β是阈值系数,作为1.3,作为一个经验法则。然而,我们看到的变化在不同值的性能指标 β

4.5。实验装置

标签数据集,我们评估流浪者预测的性能在所有工作负载使用ADMM-based SVM。首先,每个节点构建其本地分类模型通过收集数据节点。流浪者节点相关的特性,我们每个节点超载或者然后捕获它的特性。捕获的过程数据集的流浪者和nonstraggler训练阶段需要一些时间,我们的数量逐步增加系统中掉队。规范化数据标准的特性是美联储的小组ADMM SVM用火花环境Dhar et al。 41]。这减少了建模时间和少量的模型参数传递。这就完成了模型训练阶段。这个全局模型将驻留在每个节点的分类。

在这个实验中,我们选择一个二进制分类方法,为流浪者和1 + 1是标签nonstraggler。ADMM-SVM逻辑回归,物流损失。的实际实现ADMM-LR被称为( 34]。与最小二乘法公式,ADMM-SVM最小平方损失函数的方法,和正则化参数是有弹性的网络。的参数 λ ρ设置为1。为MPI逻辑回归从Scikit-learn Pedregosa et al。 42),我们使用 L2点球,正规化常数C被设置为1。

我们考虑一个5倍交叉验证法确定性能指标。在这里,我们提供的结果ADMM-SVM逻辑回归和最小二乘支持向量机和集中式并行(消息传递接口)SVM (LIBLINEAR) Pedregosa et al。 42和风扇等。 43然后评估他们使用以下场景:

有足够的数据的分类精度

分类精度足够数据时不可用我们还提供性能不同 β。总的来说,我们有724个流浪汉和21000年nonstraggler记录。

5。结果和讨论 5.1。绩效评价指标

我们使用精度,回忆,和 F 1 分数(表示为 F 1 )来评估所有模型的性能:真正的阳性( TP )由系统检测到真正的流浪者。假阳性( 《外交政策》 )是nonstraggler数据点检测掉队。真正的底片(TN)是正确的nonstragglers检测到的系统,和假阴性(FN)掉队nonstragglers的检测系统。这个集合的定义, (7) 精度 = TP TP + 《外交政策》 , 回忆 = TP TP + FN , F 1 分数 = 2 × 精密回忆 精度 + 回忆

5.2。评价

我们报告的量化改进识别流浪汉:人物 3介绍了F1的分数(精度和召回的调和平均数)流浪者检测平均在5倍80/20比例的训练和测试。情节上的所有数据点是5倍量的平均水平。图 3报告的F1值分数不同的值 β。从这些数据,我们的方法比基于mpi方法。我们有一个非常高的F1-score超过98%的β值1.6至1.8。基准的方法具有较低的性能。潜在的mpi的SVM进行稍差的原因是因为它不容易扩展。此外,流浪汉类失衡和nonstragglers对于大多数监督学习方法是有问题的。我们的框架缓解了这些问题,其中包括每个类的训练数据集评估正确的数据分布。图 4代表了分类精度,当足够的数据不可用。它代表了5倍的准确性流浪者检测平均有80/20的比例训练和测试。情节上的所有数据点是5倍量的平均水平。数量增加的流浪者类的例子可供训练,流浪者检测得到改善。ADMM-LR-SVM表现最佳,而其变体ADMM-LS-SVM不远。只有183套流浪者的例子,我们的框架实现超过94%的准确率。这两种方法的性能与包容的流浪者记录增加保持不变。

F1-score变化在不同的值 β

与越来越多的流浪汉精度的变化。

基于MPI的SVM性能相对较差,因为类不平衡的例子。同样,图 5代表流浪者的F1分数计算对不同的数字记录。增加流浪者的例子,F1-score流浪者检测提高了。ADMM-LR-SVM表现最佳,而其变体ADMM-LS-SVM不远。只有183套流浪者的例子,我们的框架实现F1-score超过98%。见数据 3- - - - - - 5,有相当大的改善损伤检测,多亏了拟议的框架。

与越来越多的流浪汉F1-score变化。

6。结论

我们引入了一个新颖的方法基于支持向量机的流浪者检测变体乘数的交替方向方法。我们的方法的有效性对散乱数据均通过严格的评估。我们已经证明了我们的方法达到更好的性能比基准的方法:基于mpi SVM。我们的配方可以达到更好的准确性只有三分之一的训练数据和可以概括比其他方法更好的学习任务与很少或没有数据。因此,类不平衡问题是自然解决。我们的方法更适合流浪者分析,因为它捕获能力异构分布正确掉队。这种性能表明,它可以提供有价值的帮助与高可靠性检测的生产。拟议的框架在本质上是通用的,可以扩展到各种类型的工作负载,例如,工作负载在不同数据中心,独立于大数据的计算框架。这里描述的框架允许探索节点和工作利用资源的额外信息。例如,一个可以考虑注入分布节点利用率指标与任务利用率指标,从而可以进一步帮助调度管理工作。 The adaptation of ADMM-SVM investigated for learning a comprehensive predictor with better accuracy and reduced job completion along with improved data privacy as no data movement from client site is required for sensitive applications.

数据可用性

数据是可用的。

的利益冲突

作者宣称没有利益冲突。

迪安 J。 格玛沃特 年代。 MapReduce ACM的通信 2008年 51 1 107年 113年 10.1145/1327452.1327492 2 - s2.0 - 37549003336 Q。 C。 Z。 提高mapreduce性能使用智能投机执行策略 电气和电子工程师协会事务在电脑上 2013年 63年 4 954年 967年 瑞斯 C。 威尔克斯 J。 Hellerstein j·L。 谷歌Cluster-Usage痕迹:格式模式 2011年 谷歌(goog . o:行情) 1 14 白皮书 Yadwadkar n . J。 Ananthanarayanan G。 卡茨 R。 牧人:可预测的和更快的工作使用更少的资源。 云计算程序的ACM研讨会 2014年11月 美国西雅图佤邦 1 14 年代。 X。 B。 LADRA:基于任务异常检测和根源分析大数据处理火花 未来一代计算机系统 2019年 95年 392年 403年 10.1016 / j.future.2018.12.002 2 - s2.0 - 85060279327 Vavilapalli 诉K。 没吃 a . C。 道格拉斯 C。 Apache hadoop纱:另一个资源谈判代表 第四年度研讨会上云计算的程序 2013年10月 美国加利福尼亚州圣克拉拉 1 16 Isard M。 普拉巴卡兰 V。 Currey J。 Wieder U。 犯错误 K。 戈德堡 一个。 昆西:公平调度分布式计算集群 诉讼的ACM SIGOPS 22日研讨会上操作系统的原则 2009年10月 美国大的天空,太 261年 276年 一个。 Pedrosa l Korupolu m·R。 奥本海默 D。 调优 E。 威尔克斯 J。 大规模集群管理在Google和borg 欧洲计算机系统的程序(EuroSys) 2015年4月 法国波尔多葡萄酒 Yadwadkar n . J。 Hariharan B。 冈萨雷斯 j·E。 卡茨 R。 多任务学习流浪者避免预测作业调度 机器学习的研究》杂志上 2016年 17 1 3692年 3728年 Javadpour 一个。 G。 雷扎 年代。 k . C。 在大数据处理基础设施检测流浪者mapreduce任务由神经网络 《华尔街日报》的超级计算 2020年 2020年 25 H。 芝诺 李C。 一个流浪者诊断系统为分布式计算使用机器学习 国际会议高性能计算的程序 2020年12月 印度浦那 施普林格 144年 162年 德斯穆克 年代。 Aghav J。 k . T。 b . T。 避免缓慢运行节点的分布式系统,网络和系统的课堂讲稿 《计算机通信、网络和网络安全 2017年 柏林,德国 施普林格 411年 420年 10.1007 / 978 - 981 - 10 - 3226 - 4 - _41 博伊德 年代。 帕瑞克豪 N。 E。 分布式优化和统计学习通过乘数的交替方向方法 2011年 代尔夫特,荷兰 现在出版商公司。 Zaharia M。 Konwinski 一个。 约瑟夫 答:D。 卡茨 r·H。 斯托伊卡 我。 改善mapreduce异构环境下的性能 Osdi 2016年 8 7 Manikandan s G。 拉维 年代。 大数据分析使用Apache hadoop 《2014年国际会议上收敛和安全(ICITCS) 2014年10月 中国,北京 IEEE 1 4 Vavilapalli 诉K。 没吃 a . C。 道格拉斯 C。 Apache hadoop纱:另一个资源谈判代表 诉讼的第四届年度研讨会上云 2013年10月 美国加利福尼亚州圣克拉拉 Zaharia M。 r S。 温德尔 P。 Apache火花:一个统一的大数据处理引擎 ACM通讯” 2012年 59 11 56 65年 Zaharia M。 Chowdhury M。 达斯 T。 戴夫 一个。 弹性分布式数据集:一个容错集群计算抽象的——记忆 学报作为第九届USENIX研讨会上提出网络系统设计和实现R12 2008年4月 佤邦伦,美国 15 28 Ananthanarayanan G。 Kandula 年代。 格林伯格 a·G。 控制使用映射-规约模式集群使用mantri的异常值 Osdi 2010年 10 24 Ananthanarayanan G。 Ghodsi 一个。 Shenker 年代。 斯托伊卡 我。 有效的流浪者缓解:克隆人的进攻 13 学报作为第十届USENIX研讨会上提出网络系统设计和实现 2013年4月 美国加利福尼亚州伯克利 185年 198年 戴伊 n S。 Gunasekhar T。 负载均衡策略的全面调查使用hadoop队列调度和虚拟机迁移 电气和电子工程师学会访问 2019年 7 92259年 92284年 10.1109 / access.2019.2927076 2 - s2.0 - 85073889310 Sravanthi 年代。 K。 高效的大数据分析与优化的并行处理 11 《2014年IEEE 28日国际并行计算和分布式处理研讨会 2016年5月 凤凰城,亚利桑那州,美国 312年 318年 Naresh T。 拉克希米 一个。 Reddy V。 一个有效的资源分配策略基于改进粒子群优化(ipso) 巴基斯坦《生物技术 2017年 14 125年 128年 Talasila 年代。 Havisha V。 Koushik 年代。 M。 Reddy V。 负载均衡技术在云环境中有效的交通管理 国际期刊的电气和计算机工程(IJECE) 2016年 6 963年 10.11591 / ijece.v6i3.7943 2 - s2.0 - 84979211111 Reddy V。 苏利耶 K。 Praveen M。 Lokesh B。 Vishal所在 一个。 (Akhil K。 性能分析云计算环境的负载平衡算法 印度科学和技术杂志》上 2016年 9 10.17485 / ijst / 2016 / v9i18/90697 2 - s2.0 - 84971476734 Srikanth b . v . S。 克里希纳Reddy V。 流处理引擎处理BIGDATA流的效率 印度科学和技术杂志》上 2016年 9 14 10.17485 / ijst / 2016 / v9i14/84797 2 - s2.0 - 84965157946 罗达 K。 d·B。 地图上加强审查在异构环境中减少性能与数据局部性 国际期刊的控制理论和应用程序 2016年 9 8463年 8472年 罗达 K。 b . T。 槽在hadoop集群利用率和性能改进 先进的智能系统和计算 2016年 72年 49 62年 10.1007 / 978 - 81 - 322 - 2752 - 6 - _5 2 - s2.0 - 84958950462 Praveen 年代 科马提河 t·R。 Janakiramaiah B。 有效的重新分配资源和任务调度使用社会群体在云环境的优化 阿拉伯科学与工程》杂志上 2017年 43 10.1007 / s13369 - 017 - 2926 - z 2 - s2.0 - 85049509626 Yadwadkar n . J。 W。 积极的流浪者避免使用机器学习 2012年 美国加利福尼亚州伯克利 加州大学。 白皮书 欧阳 X。 C。 J。 减轻掉队避免QoS违反时间要求严格的应用程序通过动态服务器黑名单 未来一代计算机系统 2019年 101年 831842年 10.1016 / j.future.2019.07.017 2 - s2.0 - 85069727407 H。 施瓦茨科普夫 M。 Bojja Venkatakrishnan 年代。 Z。 Alizadeh M。 学习数据处理集群调度算法 2018年 http://arxiv.org/abs/1810.01963 Lubell-Doughtie P。 Sondag J。 实际分布因子算法的分类采用交替方向法 学报2013年IEEE国际会议上大数据 2013年10月 美国硅谷,CA 773年 776年 10.1109 / BigData.2013.6691651 2 - s2.0 - 84893212855 H。 年代。 P。 K。 B。 猎豹:一个动态性能优化方法在集群异构大数据分析 《第五届国际会议上大数据计算和通信(BIGCOM) 2019年8月 中国青岛 169年 177年 H。 年代。 鹰眼:适应性流浪者识别与强化学习异构集群火花 电气和电子工程师学会访问 2020年 8 57822年 57832年 10.1109 / access.2020.2982320 E。 Ozdaglar 一个。 分布式乘数的交替方向方法 学报2012年IEEE第51 IEEE会议决定和控制(CDC) 2012年12月 Wailea,嗨,美国 5445年 5450年 10.1109 / CDC.2012.6425904 2 - s2.0 - 84874222524 波拉 J。 索尼 年代。 Cheema g·K。 基于遗传算法优化的leach协议能量高效的无线传感器网络 环境智能和人性化计算杂志》上 2019年 11 3 1281年 1288年 10.1007 / s12652 - 019 - 01382 - 3 2 - s2.0 - 85069160681 Q。 里贝罗 一个。 分散线性化乘数的交替方向方法 声学学报》,演讲和信号处理(ICASSP), 2014年IEEE国际会议 2014年5月 意大利的佛罗伦萨 IEEE 5447年 5451年 Q。 Y。 W。 Z。 加权小组admm快速分散的网络优化 电气和电子工程师学会交易信号处理 2016年 64年 22 5930年 5942年 10.1109 / tsp.2016.2602803 2 - s2.0 - 84991493150 宏伟的 m . L。 b . N。 卡勒 d E。 ganglia分布式监控系统:设计、实现,和经验 并行计算 2004年 30. 7 817年 840年 10.1016 / j.parco.2004.04.001 2 - s2.0 - 3342966061 达哈 年代。 C。 Ramakrishnan N。 沙阿 M。 可扩展的机器学习小组Admm基于火花 学报2015年IEEE国际会议上大数据(大数据) 2015年11月 美国加利福尼亚州圣克拉拉 IEEE 1174年 1182年 Pedregosa F。 Varoquaux G。 Gramfort 一个。 在python Scikit -学习:机器学习 机器学习的研究》杂志上 2011年 12 2825年 2830年 风扇 r·E。 k W。 谢长廷 c·J。 x R。 凌ydF4y2Ba c·J。 对于大型线性分类Liblinear:图书馆 机器学习研究杂志》上 2008年 9 1871年 1874年