基于协作学习的流浪者预防大规模分布式计算框架

文摘

现代大数据应用程序倾向于集群计算的方法,因为他们与分布式计算框架,提供用户按需求工作。它执行快速处理的任务细分成并行执行的任务。由于复杂环境,硬件和软件问题,任务可能运行缓慢导致延迟作业完成,和这种现象也被称为掉队。分布式计算框架的性能改善是由离散瓶颈节点由于各种因素,例如共享资源,系统负载,或硬件问题导致长时间工作执行时间。许多先进的方法使用独立的每个节点模型和工作负载。增加节点和工作负载,将增加的数量模型,即使有大量的节点。不是每个节点能够捕获的流浪汉可能没有足够的训练数据的流浪者模式,产生次优流浪者的预测。缓解这些问题,我们提出一种新颖的基于协作学习方法流浪者预测,乘数的交替方向方法(小组ADMM),这是资源节约型和学习如何有效地处理减轻流浪汉没有将数据移动到一个集中的位置。拟议的框架股票信息的各种模型,允许我们使用更大的训练数据和降低训练时间,避免数据传输。我们严格评估该方法在不同的数据集与高精度的结果。

1。介绍

任何组织依赖于云计算环境中主要关注因素,如CPU使用率,内存、I / O和网络性能优化。然而,所有这些参数易受性能下降,并可能导致次优的服务质量(QoS)。谷歌集群的跟踪研究是一个里程碑的分析与多个服务器工作负载在云环境中研究了迪恩和格玛沃特(1];陈等人。2];Reiss et al。3]。这提供了集群工作负载数据记录在谷歌分析跟踪。最重要的贡献是许多任务和工作的分析提供了一种有效的分配资源的新的即将到来的任务到云数据中心,从而提高吞吐量的数据中心。由于固有的本质并行执行在分布式计算系统中,有时,它经历了缓慢运行任务称为掉队,可能导致延迟执行的工作。云计算和高性能计算框架通常监控任务完成状态和启动备份任务工作执行过程中掉队。这种冗余方法产生巨大的运营和财务成本。甚至,他们不提供postevent分析诊断掉队的原因和他们积极的预防。典型的流浪者识别执行在两种模式:(1)活性(在线)和(2)积极主动(离线)。反应技术通常使用一个标准的比较任务执行时间和一个阈值计算基于中值在所有任务(4]。监测数据可能不总是可以从用户侧自监视工具很难安装和调优。因此,一些研究集中在离线策略通过分析日志,而不是陆监测et al。5]。集群管理,例如,纱线在Vavilapalli et al。6),Isard et al。7Verma)等。8),有不同的重点。他们提供资源隔离和分配基于用法,工作优先级,和公平。他们不提供答案,这任务在工作或掉队为什么这些任务更慢。

另一方面,积极主动的方法分析动态特性,比如资源利用率,节点的性能,和随时间变化的非均质性。使用毫升,可以使用训练数据构建模型未知的值可以预测未来并确定流浪者(9]。流浪者检测和分析使用毫升可以分类下积极的方法。Javadpour et al。10)提出一个动态方法,应用神经网络识别流浪者任务提高效率。straggler-identification比较了任务的执行时间的另一个方法(或进程),基于中值在阈值计算的所有任务。此外,还有一个流浪者识别技术基于CPU利用率。被确认,之间有很强的相关性高系统CPU利用率和流浪者发生在赖斯等检查。3];沈和李11]。原因发生资源争用。这进一步加剧是因为Head-of-Line阻塞(HOL阻塞),任务执行期间干扰,繁忙的锁,队列问题,危险的任务执行,并推出额外的投机性副本,这就需要额外的时间来执行。

最先进的主动模型作为研究分析的工作量和计算节点作为一个单独的流浪者与独立模型估计的任务。追求一个单独的动机之一毫升模型每个工作负载和节点独立是因为存在各种各样的资源配置从节点到节点的工作量和工作负载。因此,各种各样的流浪者模式出现,因为这样的异质性。这是证明了Yadwadkar et al。4]。因此,一个单独的ML模型训练被认为是必要的。然而,这种模式面临的主要挑战:(1)独立的节点和工作负载,需要一套新的培训导致增加了数据采集的时间,和(2)数据匮乏可能出现的对于一个给定的工作负载为各自的节点产生次优毫升模型。这组的ML模型可以有效地解决的挑战学习流浪者预测任务协作。在这种方法中,节点,无法获得足够的训练数据,得到数据,执行其他工作负载时,或从其他节点运行相同的工作负载。这可以实现在实践中使用多任务学习(MTL)证明了Yadwadkar et al。9]。另一种方法中提到德斯穆克et al。12]试图避免落伍的士兵发生通过mpi库等数据并行性技术。

开发一个分布式机器学习方法,有效地分配大型数据,具有挑战性。标准的ML技术需要的训练数据聚集在一个集中的位置,即,在一台机器上或在一个数据中心。这样的数据收集和分析可能在实践中很难进行,因为资源的约束。在一个分布式环境中,多个节点协同工作朝着一个共同的优化目标通过一个交互式的本地计算和通信的过程,理想情况下应该导致所有模型收敛于全局最优。

缓解问题,在本文中,我们提出一个基于协作学习(CL)制定学习的预测非常准确和推广比多个独立的模型。这是基于乘数的交替方向方法——(小组ADMM)为基础的支持向量机(SVM),博伊德提出的et al。13]。该模型允许节点共同学习共同预测模型,同时保持所有训练数据节点,解耦能力做毫升的需要存储中的数据集中的方式。CL允许智能模型、更低的延迟和更少的电力消耗,同时确保隐私。之间存在着微妙的差异并行变异模型和传统的毫升CL-based的;传统的单指令多数据(SIMD)体系结构,而后者有分散/分布式优化模型参数。当地的模型进行预测节点通过把模型训练的节点。

在CL,存在两种类型的节点:(1)共同的处理程序与其他节点共享模型更新,和(2)独立的节点数据中心的成员。独立节点下载当前的模型中,通过学习提高节点本身的数据,然后执行模型参数变化作为一个更新。只有这种模型更新发送到常见的节点,是立即处理其他节点更新改进共享模型。上的所有训练数据仍然是节点,和任何个人更新存储在常见的节点。因此,没有数据传输发生在节点使其高度资源节约型和快速。流浪者的识别,每个独立的节点将被训练在本地数据,因此,形成一个当地流浪者识别模型(a),和所有这类节点的参数变化(B)聚合,形成一个共识。注意,所有的数据驻留在本地节点,而只有毫升共享模型参数。共识变化形式(B)是反映在全球流浪者识别模型(C),由于分散协同过滤的属性。最后,(C)的副本是可用的(a)在每个流浪者的预测。为此,我们的主要贡献如下:(1)流浪者的小说CL-based技术识别问题是资源节约型和抓住了异构资源争用模式工作负载和节点。(2)严格的评估提出了系统的预测和避免掉队在生成的数据和实际生产集群痕迹。(3)流浪者的健壮CL-based制定检测即使少量的流浪汉,因此解决类不平衡问题,这种现象经常发生在ML问题由于缺乏足够的训练例子。

接下来,我们首先给出一些背景部分的流浪汉2。然后我们描述提出CL-based流浪者检测框架部分3。节4我们经验评估我们的配方,不同的工作负载。节5我们描述结果充实声称,在本文中提出。我们结束的前景提出工作改进和讨论。

考虑到云环境的动态特性包括nonreliable资源异构负载,和服务质量(QoS)需求,一个静态资源管理解决方案可能不会工作。因此,一个静态资源管理器扩展监测模块,收集有价值的信息的应用程序的性能和资源利用率的系统组件的系统状态。另一方面,进步machine-learning-based (ML)方法提供的所有监控组件的行为模式和有趣的变化。获得知识不服从的模式,这是通常被称为一个异类诱导因为各种各样的原因,有助于提高系统的性能。并行计算框架遵循MapReduce的院长和格玛沃特1]模式广泛应用于现实世界的大数据应用处理批处理和流数据。在这其中,Zaharia et al。14)最近获得广泛采用。不同于Hadoop框架Manikandan和拉维(15),Vavilapalli et al。16),火花支持一个更一般的编程模型,在一个内存技术,称为弹性分布式数据集(抽样),Zaharia et al。17),用于存储输入和中间数据生成的计算阶段。火花是Hadoop MapReduce的实现模型,该模型优于包装多个操作到单一任务,并利用RAM内存缓存中间数据。我们目标Apache火花,因为它是一个广泛使用,高效、先进的数据分析平台,它是目前增长最快的这样的开源平台,Zaharia et al。14]。

Apache火花是一个开源集群计算引擎对于大型数据处理。在处理大型数据集的最重要的因素之一是在内存中运行的速度通过计算。在其核心,火花是一个负责的计算引擎的调度、分配、和监控应用程序组成的许多计算任务在许多工人的机器,或者计算集群。火花是为了有效地扩大从一对多的成千上万的计算节点。实现这一目标,同时最大化的灵活性,火花可以运行在不同的集群经理,包括Hadoop纱,和一个简单的集群管理器包含在火花本身独立的调度器。火花上下文连接到集群管理器,然后在工作节点为应用程序分配资源。集群管理器分配执行人跨集群工作节点。它将应用程序的jar文件复制到工人,最后它分配任务。

后期通过Zaharia et al。18)使用进步的分数提高性能比投机执行。但它施加压力在其他运行任务由争夺资源和假定任务使开发大致恒定速率,这并非总是如此。提出的Mantri Ananthanarayanan et al。19)更关注于节约计算资源的一个集群,即。、任务槽。如果备份的工作有非常大的概率完成早期,Mantri将停止初始任务在集群活动(kill-restart方法)。然而,kill-restart方法不能保证新任务将比原来提前完成。在所有活性技术,问题会更糟一些任务何时开始离散时到它们的执行。提出的克隆机制像多莉Ananthanarayanan et al。20.)积极主动,但只关注互动工作,在本质上是重复的,导致额外的资源。

负载均衡策略的详细调查使用Hadoop队列调度和虚拟机迁移提出了由总督和Gunasekhar [21]。提出了一种方法通过Sravanthi和拉奥(22],它是一个动态的、处理意识到作业调度器,技术执行负载分配工作节点基于他们之前的表现。同样,一个方法提出了Naresh et al。23)表现最佳的资源发现和动态资源分配。它是基于改进的粒子群优化和布谷鸟搜索算法。负载平衡的适应过程增加和减少相关的资源消耗在数据中心的工作负载,提高系统的整体性能达到客户满意度。一个有效的测量研究了Talasila et al。24]为有效的交通处理解决负载平衡现象在公共云。另一种方法基于蚁群优化基于负载均衡技术在云中心的性能分析研究了Reddy et al。25),以防止延迟等实时流处理引擎Apache火花流,一个额外的技术像多莉撤退机制有效地避免掉队和过程数据,研究了Srikanth和Reddy [26]。罗陀,饶27]提供了一个全面审查技术增加MapReduce异构云环境下的性能通过中间数据分区数据本地化的减速器。通过应用MapReduce的延迟调度通过提高数据局部性,罗陀,饶28]显示槽利用率和Hadoop集群的性能改进。Praveen et al。29日)提出了一种有效的资源配置使用一个社会群体优化算法结合shortest-job-first调度的调度任务的应用技术来最小化最大完工时间的时间和最大化吞吐量。

许多研究人员试图通过机器学习的方法避免掉队。表现差的节点标识和列入黑名单30.,31日在任务调度阶段。这些技术又导致资源浪费,因为他们无法参与执行作为流浪汉主要非持久的。毛等。32),Du et al。33张,et al。34)应用减轻掉队的强化学习方法,减少作业完成时间,但严谨的流浪汉可能不是最优的识别。现有方法中使用的分散数据由交替方向方法基于乘数(小组ADMM)算法的喜欢35- - - - - -39]。

3所示。提出工作

3.1。框架

我们引入一个新的框架来确定掉队,如图1基于两个主要阶段。第一阶段包括两个部分:(1)提取特征向量的各工作节点资源利用率指标;(2)全球训练一个分类器的帮助下多个独立的局部模型作为当前和下一个部分中描述如图2。第二阶段由验证测试工作负载的或看不见的环境中通过应用学习模型。的功能设计测试数据与上面提到的相同。测试执行节点通过复制一个节点的全局模型。

拟议的框架的培训发生在多个阶段如图2。它显示了通过小组ADMM分布式SVM的学习阶段,个体劳动者同时训练支持向量机模型和分开。一开始,每个工人的本地支持向量机将是不同的,但在与全球交换模型参数的模型,它在每个迭代中变得更加相似。全球总当地的模型参数,模型将生成的共识模型。

3.2。ADMM-Based协作学习

我们认为一组n节点和一个中央聚合器。每个节点有独立的训练数据集。训练样本数据集的数量吗特征向量的jth训练样本, 是相应的p维数据标签。在这篇文章中,我们考虑一个星形网络拓扑中,每个节点可以与中央聚合,聚合器是负责消息传递和聚合。流浪者标识的目的是培养一个监督学习模型在种族隔离的数据集。这使得预测一个标签对任何新的数据利用率指标特征矢量的工作。学习目标可以制定以下正规化的经验风险最小化的问题: 是全球毫升训练模型。损失函数是用来测量的质量训练模型,R(·)指的是规范介绍了防止过度拟合函数,和λ> 0是调整参数控制正则化的影响。铸造方程(1)可以转换为二进制逻辑回归的损失函数分类器如下:

应用小组ADMM,用方程(1),

在标准小组ADMM,与这个问题相关的增广拉格朗日函数(3)是在哪里是双变量与约束,ρ> 0是惩罚参数。在方程(标准小组ADMM解决问题3高斯-赛德尔的方式)通过最小化方程(4)对和w另外,后跟一个双重更新的。中给出的配方是基于工作(13]。

3.3。离群的动物使用概率分类预测模型

训练数据集 −1或+ 1,表示数据点ai所属的类。使用逻辑回归的目标概率分类学习class-posterior概率是如上所述p(b |训练样本数据集。基于class-posterior概率、分类的新样品可以进行了 := 有信心。让b∈{−1 + 1}代表nonstraggler和流浪者类,分别。流浪者检测的任务是分配的价值估计对于测试数据,给定的训练数据和模型。流浪者是由的条件概率 ,在哪里θ向量的参数学习吗第三节。2 - w w_我,ρ和γ分别。

4所示。实验研究

4.1。配置

中提到的各种配置参数表1。


属性	值

Hadoop集群安装模式	完全分布式模式
集群节点数	5
RAM在节点 ,和图4	4 GB
网络拓扑结构	明星与主从
硬盘空间	500 GB
主节点	有一份工作追随者
奴隶节点	数据节点和任务跟随者
文件块大小	128 MB
时钟频率	2.7 GHz

4.2。集群设置

我们有一个网络节点的Hadoop集群的配置如表所示1。我们已经构建了五个节点的Hadoop集群来估计节点发现流浪者的提出解决方案。其中一个节点选为一个主节点,它运行Hadoop分布式文件系统(名字节点)和MapReduce运行时(资源管理器)。剩下的四个节点从节点(数据节点和节点管理员)。Hadoop的固定块大小是128 MB。当一个大文件插入到HDFS,它将被分解成128 MB的块,分为数据节点。所有系统在多节点设置使用Ubuntu v16.04操作系统,JDK 1.7, Hadoop 2.7.1版性能。

4.3。工作负载

我们执行两种不同类型的工作在密集的Hadoop记忆和密集的CPU利用率。内存密集型的任务,比如机上优于邻居和图像处理进行。CPU密集型任务是由内核支持向量机和类似的算法。一些网络密集型任务使用重型上传和下载也创造了与前两个类型的负载创建机制。

4.4。数据集

4.1.1。特性

我们使用22特性,其中大部分是与CPU利用率(例如,CPU空闲时间,用户时间,系统中,CPU等等,I / O和CPU速度,等等),磁盘利用率(例如,数量的自由空间,本地读/写数据从数据节点,最大百分比用于所有分区,等等),内存利用率(例如,数量的缓冲、缓存、共享、自由和总数量的可用内存,等等),网络利用率(例如,每秒数据包进出,等等),和系统级特性(如的进程总数,运行进程的总数、总金额的交换内存,可用交换内存,等等)。作业历史服务器跟踪作业执行时间通过开始时间,完成时间,任务执行时间,读取数据的字节,字节写入数据,运行时间也。我们没有使用任何功能减少技术随着特征数量的人数已经降低,和性能证明使用该方法部分5似乎并没有受到影响的特性。

10/24/11。数据集生成

对于构建预测模型,我们需要一个标签数据集{功能,标签}对组成。我们使用Ganglia-based node-monitor通过大规模的et al。40)来捕获节点的资源利用率指标。我们从Hadoop获得与工作相关的特性。我们选择一个子集组成的五个特性,也就是说,执行时间,平均CPU利用率、内存使用情况,磁盘I / O的时间,和每个指令周期,使用该小组ADMM经验。流浪者的指标用于决定标准化的持续时间(执行)时间建议Yadwadkar et al。4]:

一个我^th任务t的工作J被称为流浪者如果 ,在哪里β是阈值系数,作为1.3,作为一个经验法则。然而,我们看到的变化在不同值的性能指标β。

4.5。实验装置

标签数据集,我们评估流浪者预测的性能在所有工作负载使用ADMM-based SVM。首先,每个节点构建其本地分类模型通过收集数据节点。流浪者节点相关的特性,我们每个节点超载或者然后捕获它的特性。捕获的过程数据集的流浪者和nonstraggler训练阶段需要一些时间,我们的数量逐步增加系统中掉队。规范化数据标准的特性是美联储的小组ADMM SVM用火花环境Dhar et al。41]。这减少了建模时间和少量的模型参数传递。这就完成了模型训练阶段。这个全局模型将驻留在每个节点的分类。

在这个实验中,我们选择一个二进制分类方法,为流浪者和1 + 1是标签nonstraggler。ADMM-SVM逻辑回归,物流损失。的实际实现ADMM-LR被称为(34]。与最小二乘法公式,ADMM-SVM最小平方损失函数的方法,和正则化参数是有弹性的网络。的参数λ和ρ设置为1。为MPI逻辑回归从Scikit-learn Pedregosa et al。42),我们使用L2点球,正规化常数C被设置为1。

我们考虑一个5倍交叉验证法确定性能指标。在这里,我们提供的结果ADMM-SVM逻辑回归和最小二乘支持向量机和集中式并行(消息传递接口)SVM (LIBLINEAR) Pedregosa et al。42和风扇等。43然后评估他们使用以下场景:(1)有足够的数据的分类精度(2)分类精度足够数据时不可用我们还提供性能不同β。总的来说,我们有724个流浪汉和21000年nonstraggler记录。

5。结果和讨论

5.1。绩效评价指标

我们使用精度,回忆,和 - - - - - -分数(表示为 )评估所有模型的性能:真正的阳性( )由系统检测到真正的流浪者。假阳性( )就像流浪汉nonstraggler数据点检测到。真正的底片(TN)是正确的nonstragglers检测到的系统,和假阴性(FN)掉队nonstragglers的检测系统。这个集合的定义,

5.2。评价

我们报告的量化改进识别流浪汉:人物3介绍了F1的分数(精度和召回的调和平均数)流浪者检测平均在5倍80/20比例的训练和测试。情节上的所有数据点是5倍量的平均水平。图3报告的F1值分数不同的值β。从这些数据,我们的方法比基于mpi方法。我们有一个非常高的F1-score超过98%的β值1.6至1.8。基准的方法具有较低的性能。潜在的mpi的SVM进行稍差的原因是因为它不容易扩展。此外,流浪汉类失衡和nonstragglers对于大多数监督学习方法是有问题的。我们的框架缓解了这些问题,其中包括每个类的训练数据集评估正确的数据分布。图4代表了分类精度,当足够的数据不可用。它代表了5倍的准确性流浪者检测平均有80/20的比例训练和测试。情节上的所有数据点是5倍量的平均水平。数量增加的流浪者类的例子可供训练,流浪者检测得到改善。ADMM-LR-SVM表现最佳,而其变体ADMM-LS-SVM不远。只有183套流浪者的例子,我们的框架实现超过94%的准确率。这两种方法的性能与包容的流浪者记录增加保持不变。

基于MPI的SVM性能相对较差,因为类不平衡的例子。同样,图5代表流浪者的F1分数计算对不同的数字记录。增加流浪者的例子,F1-score流浪者检测提高了。ADMM-LR-SVM表现最佳,而其变体ADMM-LS-SVM不远。只有183套流浪者的例子,我们的框架实现F1-score超过98%。见数据3- - - - - -5,有相当大的改善损伤检测,多亏了拟议的框架。

6。结论

我们引入了一个新颖的方法基于支持向量机的流浪者检测变体乘数的交替方向方法。我们的方法的有效性对散乱数据均通过严格的评估。我们已经证明了我们的方法达到更好的性能比基准的方法:基于mpi SVM。我们的配方可以达到更好的准确性只有三分之一的训练数据和可以概括比其他方法更好的学习任务与很少或没有数据。因此,类不平衡问题是自然解决。我们的方法更适合流浪者分析,因为它捕获能力异构分布正确掉队。这种性能表明,它可以提供有价值的帮助与高可靠性检测的生产。拟议的框架在本质上是通用的,可以扩展到各种类型的工作负载,例如,工作负载在不同数据中心,独立于大数据的计算框架。这里描述的框架允许探索节点和工作利用资源的额外信息。例如,一个可以考虑注入分布节点利用率指标与任务利用率指标,从而可以进一步帮助调度管理工作。 The adaptation of ADMM-SVM investigated for learning a comprehensive predictor with better accuracy and reduced job completion along with improved data privacy as no data movement from client site is required for sensitive applications.

数据可用性

数据是可用的。

的利益冲突

作者宣称没有利益冲突。

引用

j·迪恩和s .格玛沃特”MapReduce,“ACM的通信,51卷,不。1,第113 - 107页,2008。视图:出版商的网站|谷歌学术搜索
问:陈,c·刘,z,“提高mapreduce性能使用聪明的投机执行策略,”电气和电子工程师协会事务在电脑上,卷63,不。4、954 - 967年,2013页。视图:谷歌学术搜索
c·赖斯、j·威尔克斯和j·l·Hellerstein谷歌Cluster-Usage痕迹:格式模式,2011岁的谷歌(goog . o:行情)白皮书。
n . j . Yadwadkar g . Ananthanarayanan r . Katz,“牧人:可预测的和更快的工作使用更少的资源。,“在云计算程序的ACM研讨会美国西雅图,页1 - 14,佤邦,2014年11月。视图:谷歌学术搜索
陆,x, b . Rao et al .,“LADRA:基于任务异常检测和根源分析大数据处理的火花,“未来一代计算机系统卷,95年,第403 - 392页,2019年。视图:出版商的网站|谷歌学术搜索
v . k . Vavilapalli a . c .没吃,道格拉斯c . et al .,“Apache hadoop纱:另一个资源谈判”第四年度研讨会上云计算的程序圣克拉拉,页1 - 16,CA,美国,2013年10月。视图:谷歌学术搜索
m . Isard诉Prabhakaran j . Currey Wieder, k .犯错误和a·戈德堡,”昆西:公平调度的分布式计算集群”诉讼的ACM SIGOPS 22日研讨会上操作系统的原则,页261 - 276,大的天空,太,美国,2009年10月。视图:谷歌学术搜索
a . Verma l . Pedrosa m . r . Korupolu d·奥本海默e .调整和j·威尔克斯,“大规模集群管理在Google和borg,”欧洲计算机系统的程序(EuroSys)2015年4月,波尔多,法国,。视图:谷歌学术搜索
n . j . Yadwadkar b . Hariharan j·e·冈萨雷斯和r . Katz,“流浪者避免预测作业调度,多任务学习”机器学习的研究》杂志上,17卷,不。1,第3728 - 3692页,2016。视图:谷歌学术搜索
雷,a . Javadpour g . Wang和k·c·李,“检测流浪者mapreduce任务由神经网络在大数据处理基础设施,“《华尔街日报》的超级计算卷。2020年,25页,2020。视图:谷歌学术搜索
h .沈和李c .芝诺“流浪者诊断系统为分布式计算使用机器学习”国际会议高性能计算的程序施普林格,页144 - 162年,浦那(印度,2020年12月。视图:谷歌学术搜索
德斯穆克,j . Aghav k·t·拉奥和b . t . Rao,“避免缓慢运行节点的分布式系统,网络和系统的课堂讲稿,”《计算机通信、网络和网络安全施普林格,页411 - 420年,2017年。视图:出版商的网站|谷歌学术搜索
美国博伊德:帕里克说,e .楚分布式优化和统计学习通过乘数的交替方向方法现在出版商Inc .,代尔夫特,荷兰,2011。
m . Zaharia a . Konwinski公元约瑟夫·r·h·卡茨和斯托伊卡,“提高mapreduce性能在异构环境中,“Osdi,8卷,不。7日,2016年。视图:谷歌学术搜索
s . g . Manikandan和s·拉维,“大数据分析使用Apache hadoop,”《2014年国际会议上收敛和安全(ICITCS),页1 - 4,IEEE,北京,中国,2014年10月。视图:谷歌学术搜索
v . k . Vavilapalli a . c .没吃,道格拉斯c . et al .,“Apache hadoop纱:另一个资源谈判”诉讼的第四届年度研讨会上云美国圣克拉拉,CA, 2013年10月。视图:谷歌学术搜索
m . Zaharia r . s .鑫p·温德尔et al .,“Apache火花:统一对大数据处理引擎,”ACM通讯”卷,59号11日,56 - 65,2012页。视图:谷歌学术搜索
m . Zaharia m . Chowdhury t Das,答:戴夫,“弹性分布式数据集:一个容错抽象的——记忆集群计算”学报作为第九届USENIX研讨会上提出网络系统设计和实现R12页,15-28兰佤邦,美国,2008年4月。视图:谷歌学术搜索
g . Ananthanarayanan Kandula, a·g·格林伯格et al .,”控制在使用映射-规约模式使用mantri集群中,异常值”Osdi2010年,10卷,p。24日。视图:谷歌学术搜索
g . Ananthanarayanan a . Ghodsi s Shenker,斯托伊卡,“有效的流浪者缓解:克隆人的进攻》学报作为第十届USENIX研讨会上提出网络系统设计和实现卷。13日,页。185 - 198年伯克利分校,美国,2013年4月。视图:谷歌学术搜索
n s·戴伊和t . Gunasekhar负载平衡策略的全面调查使用hadoop队列调度和虚拟机迁移,”电气和电子工程师学会访问7卷,第92284 - 92259页,2019年。视图:出版商的网站|谷歌学术搜索
美国Sravanthi k . Rao,“高效的大数据分析与优化的并行处理,”《2014年IEEE 28日国际并行计算和分布式处理研讨会卷。11日,页。312 - 318年,凤凰城,阿兹,美国,2016年5月。视图:谷歌学术搜索
t . Naresh a Lakshmi诉Reddy,“一个有效的资源分配策略基于改进粒子群优化(ipso)”巴基斯坦《生物技术,14卷,第128 - 125页,2017年。视图:谷歌学术搜索
s . Talasila诉Havisha s Koushik m .深v . Reddy,“负载平衡技术有效的交通管理在云环境中,“国际期刊的电气和计算机工程(IJECE)》第六卷,963页,2016年。视图:出版商的网站|谷歌学术搜索
诉Reddy, k苏亚m . Praveen b . Lokesh Vishal, a和k . Akhil”性能分析的负载平衡算法在云计算环境中,“印度科学和技术杂志》上,9卷,2016年。视图:出版商的网站|谷歌学术搜索
b . v . s . Srikanth诉克里希纳Reddy,“流处理引擎的效率处理BIGDATA流,”印度科学和技术杂志》上,9卷,不。14日,2016年。视图:出版商的网站|谷歌学术搜索
罗陀与d·k·b·饶”,审查加强地图上减少性能与数据局部性在异构环境下,“国际期刊的控制理论和应用程序9卷,第8472 - 8463页,2016年。视图:谷歌学术搜索
罗陀与b . k . t . Rao,”在hadoop集群槽利用率和性能改进,”先进的智能系统和计算卷。72年,49 - 62年,2016页。视图:出版商的网站|谷歌学术搜索
Praveen, t·r·科马提河和b . Janakiramaiah”有效的重新分配资源和任务调度在云环境中使用社会群体优化”阿拉伯科学与工程》杂志上,43卷,2017年。视图:出版商的网站|谷歌学术搜索
n . j . Yadwadkar和w·崔积极的流浪者避免使用机器学习美国加州大学伯克利分校CA, 2012年白皮书。
x欧阳,c . Wang和j .徐“减轻掉队避免QoS违反时间要求严格的应用程序通过动态服务器黑名单,”未来一代计算机系统文章ID 831842卷,101年,2019年。视图:出版商的网站|谷歌学术搜索
毛h . m·施瓦茨科普夫s Bojja Venkatakrishnan z孟,和m . Alizadeh“学习数据处理集群调度算法,”2018年,http://arxiv.org/abs/1810.01963。视图:谷歌学术搜索
p . Lubell-Doughtie和j . Sondag”实际分布式分类使用乘数的交替方向方法算法,”学报2013年IEEE国际会议上大数据,页773 - 776年,硅谷,CA,美国,2013年10月。视图:出版商的网站|谷歌学术搜索
h·杜,s, p .汉,k,和徐,“猎豹:动态性能优化方法在异构大数据分析集群”《第五届国际会议上大数据计算和通信(BIGCOM)青岛,页169 - 177年,中国,2019年8月。视图:谷歌学术搜索
h·杜和美国,“鹰眼:自适应流浪者与强化学习识别集群异构的火花,“电气和电子工程师学会访问,8卷,第57832 - 57822页,2020年。视图:出版商的网站|谷歌学术搜索
魏和a . Ozdaglar“分布式乘数的交替方向方法”学报2012年IEEE第51 IEEE会议决定和控制(CDC)Wailea,页5445 - 5450年,美国,2012年12月,你好。视图:出版商的网站|谷歌学术搜索
j·波拉、美国索尼和g·k . Cheema“基于遗传算法的优化leach协议能量高效的无线传感器网络,”环境智能和人性化计算杂志》上,11卷,不。3、1281 - 1288年,2019页。视图:出版商的网站|谷歌学术搜索
问:和a·里贝罗“乘数的分散线性化交替方向方法,”声学学报》,演讲和信号处理(ICASSP), 2014年IEEE国际会议IEEE,页5447 - 5451年,佛罗伦萨,意大利,2014年5月。视图:谷歌学术搜索
刘问:凌,y, w·史和z田,“加权小组admm快速分散的网络优化,电气和电子工程师学会交易信号处理,卷64,不。22日,第5942 - 5930页,2016年。视图:出版商的网站|谷歌学术搜索
m . l .宏伟,b . n .春,d·e·卡勒”ganglia分布式监控系统:设计,实现,和经验,“并行计算,30卷,不。7,817 - 840年,2004页。视图:出版商的网站|谷歌学术搜索
达,c .咦,n . Ramakrishnan, m .沙“小组Admm可扩展的机器学习基于火花,”学报2015年IEEE国际会议上大数据(大数据)IEEE,页1174 - 1182年,2015年11月,美国圣克拉拉。视图:谷歌学术搜索
f . Pedregosa g . Varoquaux a Gramfort et al .,“Scikit -学习:机器学习在python中,“机器学习的研究》杂志上》12卷,第2830 - 2825页,2011年。视图:谷歌学术搜索
r . e .粉丝,k . w . Chang c . j .谢长廷x r . Wang和c j .林”Liblinear:图书馆大型线性分类”机器学习研究杂志》上9卷,第1874 - 1871页,2008年。视图:谷歌学术搜索

安全性和通信网络