现代大数据应用程序倾向于集群计算的方法,因为他们与分布式计算框架,提供用户按需求工作。它执行快速处理的任务细分成并行执行的任务。由于复杂环境,硬件和软件问题,任务可能运行缓慢导致延迟作业完成,和这种现象也被称为掉队。分布式计算框架的性能改善是由离散瓶颈节点由于各种因素,例如共享资源,系统负载,或硬件问题导致长时间工作执行时间。许多先进的方法使用独立的每个节点模型和工作负载。增加节点和工作负载,将增加的数量模型,即使有大量的节点。不是每个节点能够捕获的流浪汉可能没有足够的训练数据的流浪者模式,产生次优流浪者的预测。缓解这些问题,我们提出一种新颖的基于协作学习方法流浪者预测,乘数的交替方向方法(小组ADMM),这是资源节约型和学习如何有效地处理减轻流浪汉没有将数据移动到一个集中的位置。拟议的框架股票信息的各种模型,允许我们使用更大的训练数据和降低训练时间,避免数据传输。我们严格评估该方法在不同的数据集与高精度的结果。
任何组织依赖于云计算环境中主要关注因素,如CPU使用率,内存、I / O和网络性能优化。然而,所有这些参数易受性能下降,并可能导致次优的服务质量(QoS)。谷歌集群的跟踪研究是一个里程碑的分析与多个服务器工作负载在云环境中研究了迪恩和格玛沃特(
另一方面,积极主动的方法分析动态特性,比如资源利用率,节点的性能,和随时间变化的非均质性。使用毫升,可以使用训练数据构建模型未知的值可以预测未来并确定流浪者(
最先进的主动模型作为研究分析的工作量和计算节点作为一个单独的流浪者与独立模型估计的任务。追求一个单独的动机之一毫升模型每个工作负载和节点独立是因为存在各种各样的资源配置从节点到节点的工作量和工作负载。因此,各种各样的流浪者模式出现,因为这样的异质性。这是证明了Yadwadkar et al。
开发一个分布式机器学习方法,有效地分配大型数据,具有挑战性。标准的ML技术需要的训练数据聚集在一个集中的位置,即,在一台机器上或在一个数据中心。这样的数据收集和分析可能在实践中很难进行,因为资源的约束。在一个分布式环境中,多个节点协同工作朝着一个共同的优化目标通过一个交互式的本地计算和通信的过程,理想情况下应该导致所有模型收敛于全局最优。
缓解问题,在本文中,我们提出一个基于协作学习(CL)制定学习的预测非常准确和推广比多个独立的模型。这是基于乘数的交替方向方法——(小组ADMM)为基础的支持向量机(SVM),博伊德提出的et al。
在CL,存在两种类型的节点:(1)共同的处理程序与其他节点共享模型更新,和(2)独立的节点数据中心的成员。独立节点下载当前的模型中,通过学习提高节点本身的数据,然后执行模型参数变化作为一个更新。只有这种模型更新发送到常见的节点,是立即处理其他节点更新改进共享模型。上的所有训练数据仍然是节点,和任何个人更新存储在常见的节点。因此,没有数据传输发生在节点使其高度资源节约型和快速。流浪者的识别,每个独立的节点将被训练在本地数据,因此,形成一个当地流浪者识别模型(a),和所有这类节点的参数变化(B)聚合,形成一个共识。注意,所有的数据驻留在本地节点,而只有毫升共享模型参数。共识变化形式(B)是反映在全球流浪者识别模型(C),由于分散协同过滤的属性。最后,(C)的副本是可用的(a)在每个流浪者的预测。为此,我们的主要贡献如下:
流浪者的小说CL-based技术识别问题是资源节约型和抓住了异构资源争用模式工作负载和节点。
严格的评估提出了系统的预测和避免掉队在生成的数据和实际生产集群痕迹。
流浪者的健壮CL-based制定检测即使少量的流浪汉,因此解决类不平衡问题,这种现象经常发生在ML问题由于缺乏足够的训练例子。
接下来,我们首先给出一些背景部分的流浪汉
考虑到云环境的动态特性包括nonreliable资源异构负载,和服务质量(QoS)需求,一个静态资源管理解决方案可能不会工作。因此,一个静态资源管理器扩展监测模块,收集有价值的信息的应用程序的性能和资源利用率的系统组件的系统状态。另一方面,进步machine-learning-based (ML)方法提供的所有监控组件的行为模式和有趣的变化。获得知识不服从的模式,这是通常被称为一个异类诱导因为各种各样的原因,有助于提高系统的性能。并行计算框架遵循MapReduce的院长和格玛沃特
Apache火花是一个开源集群计算引擎对于大型数据处理。在处理大型数据集的最重要的因素之一是在内存中运行的速度通过计算。在其核心,火花是一个负责的计算引擎的调度、分配、和监控应用程序组成的许多计算任务在许多工人的机器,或者计算集群。火花是为了有效地扩大从一对多的成千上万的计算节点。实现这一目标,同时最大化的灵活性,火花可以运行在不同的集群经理,包括Hadoop纱,和一个简单的集群管理器包含在火花本身独立的调度器。火花上下文连接到集群管理器,然后在工作节点为应用程序分配资源。集群管理器分配执行人跨集群工作节点。它将应用程序的jar文件复制到工人,最后它分配任务。
后期通过Zaharia et al。
负载均衡策略的详细调查使用Hadoop队列调度和虚拟机迁移提出了由总督和Gunasekhar [
许多研究人员试图通过机器学习的方法避免掉队。表现差的节点标识和列入黑名单
我们引入一个新的框架来确定掉队,如图
提出了流浪者检测框架的工作流程。
训练阶段的建议的体系结构。
拟议的框架的培训发生在多个阶段如图
我们认为一组
应用小组ADMM,用方程(
在标准小组ADMM,与这个问题相关的增广拉格朗日函数(
训练数据集
中提到的各种配置参数表
硬件和软件配置。
| 属性 | 值 |
|---|---|
| Hadoop集群安装模式 | 完全分布式模式 |
| 集群节点数 | 5 |
| RAM在节点 |
4 GB |
| 网络拓扑结构 | 明星与主从 |
| 硬盘空间 | 500 GB |
| 主节点 | 有一份工作追随者 |
| 奴隶节点 | 数据节点和任务跟随者 |
| 文件块大小 | 128 MB |
| 时钟频率 | 2.7 GHz |
我们有一个网络节点的Hadoop集群的配置如表所示
我们执行两种不同类型的工作在密集的Hadoop记忆和密集的CPU利用率。内存密集型的任务,比如机上优于邻居和图像处理进行。CPU密集型任务是由内核支持向量机和类似的算法。一些网络密集型任务使用重型上传和下载也创造了与前两个类型的负载创建机制。
我们使用22特性,其中大部分是与CPU利用率(例如,CPU空闲时间,用户时间,系统中,CPU等等,I / O和CPU速度,等等),磁盘利用率(例如,数量的自由空间,本地读/写数据从数据节点,最大百分比用于所有分区,等等),内存利用率(例如,数量的缓冲、缓存、共享、自由和总数量的可用内存,等等),网络利用率(例如,每秒数据包进出,等等),和系统级特性(如的进程总数,运行进程的总数、总金额的交换内存,可用交换内存,等等)。作业历史服务器跟踪作业执行时间通过开始时间,完成时间,任务执行时间,读取数据的字节,字节写入数据,运行时间也。我们没有使用任何功能减少技术随着特征数量的人数已经降低,和性能证明使用该方法部分
对于构建预测模型,我们需要一个标签数据集{功能,标签}对组成。我们使用Ganglia-based node-monitor通过大规模的et al。
一个
标签数据集,我们评估流浪者预测的性能在所有工作负载使用ADMM-based SVM。首先,每个节点构建其本地分类模型通过收集数据节点。流浪者节点相关的特性,我们每个节点超载或者然后捕获它的特性。捕获的过程数据集的流浪者和nonstraggler训练阶段需要一些时间,我们的数量逐步增加系统中掉队。规范化数据标准的特性是美联储的小组ADMM SVM用火花环境Dhar et al。
在这个实验中,我们选择一个二进制分类方法,为流浪者和1 + 1是标签nonstraggler。ADMM-SVM逻辑回归,物流损失。的实际实现ADMM-LR被称为(
我们考虑一个5倍交叉验证法确定性能指标。在这里,我们提供的结果ADMM-SVM逻辑回归和最小二乘支持向量机和集中式并行(消息传递接口)SVM (LIBLINEAR) Pedregosa et al。
有足够的数据的分类精度
分类精度足够数据时不可用我们还提供性能不同
我们使用精度,回忆,和
我们报告的量化改进识别流浪汉:人物
F1-score变化在不同的值
与越来越多的流浪汉精度的变化。
基于MPI的SVM性能相对较差,因为类不平衡的例子。同样,图
与越来越多的流浪汉F1-score变化。
我们引入了一个新颖的方法基于支持向量机的流浪者检测变体乘数的交替方向方法。我们的方法的有效性对散乱数据均通过严格的评估。我们已经证明了我们的方法达到更好的性能比基准的方法:基于mpi SVM。我们的配方可以达到更好的准确性只有三分之一的训练数据和可以概括比其他方法更好的学习任务与很少或没有数据。因此,类不平衡问题是自然解决。我们的方法更适合流浪者分析,因为它捕获能力异构分布正确掉队。这种性能表明,它可以提供有价值的帮助与高可靠性检测的生产。拟议的框架在本质上是通用的,可以扩展到各种类型的工作负载,例如,工作负载在不同数据中心,独立于大数据的计算框架。这里描述的框架允许探索节点和工作利用资源的额外信息。例如,一个可以考虑注入分布节点利用率指标与任务利用率指标,从而可以进一步帮助调度管理工作。 The adaptation of ADMM-SVM investigated for learning a comprehensive predictor with better accuracy and reduced job completion along with improved data privacy as no data movement from client site is required for sensitive applications.
数据是可用的。
作者宣称没有利益冲突。