科学的规划

在这一页上

文摘介绍实现评价相关工作结论信息披露的利益冲突确认引用版权相关文章

特殊的问题

高性能计算软件和大数据应用程序的编程环境

把这个特殊的问题

研究文章|开放获取

体积2018年| 文章的ID4120561| https://doi.org/10.1155/2018/4120561

NUMA-Aware线程调度对大数据传输在tb网络基础设施

Taeuk金 ,¹ Awais汗 ,¹ Youngjae金 ,¹ Preethika Kasu ,² 和斯科特Atchley³

学术编辑器: 巴西利奥b Fraguela

收到了 2017年12月29日

接受 2018年3月27日

发表 2018年5月07

文摘

囱丰大数据的趋势使得科学家共享和传输模拟和分析数据geodistributed研究和计算设施。然而,现有的数据传输框架用于数据共享能力缺乏采用底层并行文件系统的属性(PFS)。小伙子(Layout-Aware数据调度)是一个端到端的数据传输工具具有网络使用Layout-Aware数据调度优化t比特信息能力通过PFS。然而,它并不考虑NUMA(非均匀存储器存取)架构。在本文中,我们提出一个NUMA-aware线程和资源调度优化的具有网络数据传输在t比特信息能力。首先,我们提出了分布式RMA缓冲减少内存控制器在CPU插座,然后安排线程争用基于CPU插座和NUMA节点内部CPU插座减少内存访问延迟。我们设计和实现该资源和现有小伙子线程调度框架。实验结果显示改进从21.7%到44%的记忆水平优化小伙子框架与基线相比没有任何优化。

1。介绍

连续的通货膨胀数据生成是提高共享和协作需要有效的模拟和实时分析。这种跨geodispersed共享和协作需要大规模数据传输数据中心(1]。布鲁克海文国家实验室(BNL)合作与欧洲大型强子对撞机(LHC)的ATLAS实验,3000多名科学家参与,产生pb级的仿真和分析数据,推动合作项目(2]。这样的大规模协作环境高度激励我们重新审视现有的体系结构的端到端数据传输工具,如bbcp [3,小伙子1],GridFTP [4]。

geodispersed之间的端到端数据传输数据中心,有三个重要因素有关数据传输性能和吞吐量,也就是说,网络,存储和内存。然而,在现实的大规模高性能计算环境中,网络基础设施提供了一个高带宽,进一步改善(5),例如,ESnet DOE (6]。所以,我们不考虑网络的主要瓶颈限制数据传输活动大规模高性能计算环境配备高速网络连接(5,6]。

并行文件系统(PFS) [7,8)基于storage-backends部署在数据中心作为瓶颈当线程数超过对象存储服务器的服务速率(OSS)或多个线程访问相同的对象存储目标(OST)。小伙子(1),数据中心之间的高速端到端数据传输工具,最大限度地减少这个I / O争用意识到数据块的布局和基于它的调度线程。内存瓶颈可以发生在NUMA环境当线程访问远程NUMA节点的内存。如果小伙子用来传输数据的缓冲区分配在不同的NUMA节点从I / O的线程,I / O的线程需要访问远程NUMA节点在数据传输和它使内存访问消耗更长的延迟。目前,小伙子工具不提供任何解决方案来克服这个问题。在本文中,我们提出了MTS (Memory-aware线程调度)方法来解决内存瓶颈问题小伙子数据传输工具。

数据传输框架如GridFTP [4],bbcp [3),和小伙子1)设计,以确保高速数据传输。然而,GridFTP bbcp设计在基于文件的数据传输,而小伙子是优化了基于对象的数据传输,多个线程可以同时在多个对象块提高端到端数据传输速度。随着网络基础设施的改善,并行和分布式文件系统,如光泽8],Gluster [7],Ceph [9]正在改善他们的存储和计算框架来推导出最大带宽。GridFTP [4]和bbcp [3)不能获得高受益于这些文件系统,因为他们的设计不考虑底层的文件系统,而小伙子(1),由于其layout-aware性质的数据传输机制,可以充分利用这些潜在的好处并行文件系统。此外,小伙子使用常见的通信接口(CCI) [5具有网络利用高速t比特信息能力。

在本文中,我们强调可能的瓶颈和机会,如高速网络和NUMA架构在端到端数据传输路径。一个端到端的数据传输可以满足多个瓶颈(我)存储等(2)CPU和内存(iii)。存储成为瓶颈时数据传输软件不知道底层文件系统架构;例如,并行文件系统使用分块和分段技术来更高效的方式存储数据。因此,数据传输工具可以有效地利用存储带宽通过知识存储布局,没有哪个存储带宽可以充分利用。CPU瓶颈时,如果数据传输工具没有考虑利用多核同时传输数据。未充分利用可能发生当线程小于内核的CPU核和一些仍然闲置。overutilization可以发生,线程数很高对可用的CPU核心。

内存争用可能发生在两个条件。首先,当多个线程或进程正在访问同一个共享内存区域。其次,当线程托管在CPU插座访问远程内存的其他CPU插座。这两个论点可以导致增加内存访问延迟。小伙子框架解决了存储和CPU瓶颈通过实现layout-aware多线程体系结构(1]。然而,小伙子并不考虑内存瓶颈问题。

在本文中,我们解决内存瓶颈问题提出了在每个CPU插座和内存缓冲区分区调度线程与意识到NUMA架构。分区的内存缓冲减少了共享内存区域和线程调度减少远程内存访问CPU插座。

本文以下贡献:(我)增加I / O的线程的数量在内存控制器的小伙子会导致争用。为了解决这个问题,我们建议多个内存缓冲区(百万桶)分发RMA缓冲所有CPU插座减少内存控制器拥堵。(2)分布式RMA缓冲区在每个CPU插座本身并不足以改善内存延迟的问题。在某些情况下,线程可能试图访问远程RMA缓冲托管在不同的CPU插座。为了避免这种远程内存访问,我们设计和实现Memory-aware线程调度(MTS)调度线程访问只有RMA缓冲驻留在相同的CPU插座。MTS减少总的内存延迟通过消除所有访问远程内存。(3)我们为所提出的想法进行综合评价使用文件大小分布基于真实ORNL peta-scale文件系统的快照(10]。我们比较的性能提出了百万桶和MTS默认设置,它使用一个RMA缓冲,它适用于NUMA绑定到线程。从我们的实验结果,我们发现,我们提出的想法收益率高达44%更高的数据传输速率比默认设置。

本文的其余部分组织如下。部分2描述了小伙子的体系结构和实现细节。部分3概述了拟议的记忆水平优化的设计和实现。实验设置和评价结果给出部分4。部分5节中,我们总结的描述了相关工作6。

2。Layout-Aware数据调度

数据共享和科学合作近年来进步。工具如GridFTP [4],bbcp [3),和小伙子1)开发高效的数据传输在geodistributed数据存储设施。小伙子(1),一个端到端的数据传输工具,利用底层存储架构优化批量数据具有网络数据中心通过高速连接t比特信息能力之间的运动。小伙子使用常见的通信接口(CCI)具有网络充分利用了t比特信息能力5)功能。工作提出了一个扩展的小伙子数据传输框架。本节描述小伙子架构。

线程和工作队列。小伙子包含三个不同类型的线程,也就是主(MT)、通信(CT)和I / O的线程。掌握线程工作负载划分成块,每个块到一个任务。这些任务被插入到OST队列。特别是,有尽可能多的OST队列的数量在光泽OST文件系统。掌握线程调度I / O的线程OST队列和I / O的线程出列OST队列的任务执行I / O操作。另一方面,通信线程管理端点源和目的地之间的通信。I / O的线程加载数据块存储RMA缓冲区来源从RMA缓冲区并将它们存储到存储在下沉。主节点和通信线程的工作队列的请求将数据对象。

通信协议。从现在,符号的源端数据传输将SRC,和符号将SNK sink-end的数据传输。

步骤1。SRC太捕获数据块请求的文件的布局,并将请求添加到SRC通信线程工作队列(煤电)。SRC CT发送请求到一个新文件通过CCI sink-end端点连接。同样,在sink-end SNK CT在接收请求转发到SNK大师线程工作队列(MWQ)。

步骤2。SNK MT在接收请求创建一个新文件的名称相同的请求。文件id对应于新创建的文件添加到SNK煤电的申请表和源端发送。在源端收到请求后,SRC SRC MWQ CT引导请求。SRC太将块信息加载到SRC OST队列。

步骤3。一旦SRC MT数据块插入到SRC OST队列,SRC太醒来SRC I / O的线程的数量根据底层SRC光泽OST文件系统。每一个SRC I / O的线程在源端然后遍历OST队列,得到块信息,读取从物理OST存储块,并将它们加载到SRC RMA缓冲区。然后,SRC I / O的线程将请求插入到SRC煤电发送数据块的信息。SNK CT接收请求,获取数据块从SRC RMA缓冲通过RDMA访问。

步骤4。SNK,阅后即从SRC RMA缓冲区的数据块,SNK CT加载数据块到SNK RMA缓冲区。然后SNK I / O的线程将SNK OST SNK CT写队列的数据块从SNK RMA SNK物理OST存储缓冲区。SNK CT发送传输完成消息和重复步骤3和4,直到所有的文件传输的所有数据块。

3所示。设计和实现

本节描述该优化方法及其设计和实现细节。

3.1。概述

图1概述了小伙子的记忆水平提出了优化软件框架(1]。该方法包括三个主要的元素,(i)分布式RMA缓冲区在每个CPU插座,(2)基于socket Memory-aware线程调度(smt),和(3)基于NUMA节点Memory-aware线程调度(nmt)。提出的优化非常灵活,可以应用到CPU插座。每个CPU插座由核心,共享最后一级缓存(LLC),和一个或更多的内存控制器,而核心的数量、LLC和内存控制器取决于使用的CPU类型。如果有多个集内核和内存控制器的CPU插座,然后会有多个NUMA节点每个CPU插座。如图1,每个CPU插座主机三种类型的线程,也就是主(MT)、沟通(CT),和I / O的线程;每个线程执行特定功能类似于小伙子架构(1]。提出的优化方法是扩展现有的小伙子的实现。

掌握线程捕获文件的布局从光泽(8对象存储目标(ost)和时间表的I / O的线程来执行特定于这些ost I / O操作。I / O的线程读取数据块的对象存储到RMA缓冲区并通知通信线程,负责创建一个通过CCI API端点连接(5)和发送RMA缓冲区中的数据块从源端到水槽边。

3.2。百万桶:多个内存缓冲区

小伙子数据传输框架依赖于单一的RMA缓冲区,所有的I / O的线程加载和存储之间的数据块RMA缓冲区(1)和底层存储系统。然而,单一的使用RMA缓冲区会导致两个问题:(i)内存延迟引起的远程CPU插座的内存访问和存储控制器(2)争用。当创建线程,小伙子安排随机CPU内核线程。一般来说,I / O的线程是分散在所有CPU插座,也就是说,不同CPU插座的I / O的线程访问一个特定的CPU插座的RMA缓冲区。这导致许多远程内存访问延迟超过本地内存访问。此外,在小伙子I / O的线程的数量是可配置的,在理想的场景中,它认为的属于目标光泽的ost文件系统I / O的线程的数量。但是,在现实的场景中,数据中心使用光泽可能超过数百或数千ost,因此I / O的线程的数量将根据CPU核的数量配置。如果大量I / O的线程的数量相应的核心在多核环境中访问一个RMA缓冲区,竞争将发生在内存控制器的CPU插座或NUMA节点主机RMA缓冲区。我们建议多个内存缓冲区(百万桶)计划,分配每个CPU插座的RMA缓冲区的内存中现有的小伙子框架。图1显示了RMA缓冲分发给每个CPU插座。这个分区的RMA缓冲每个CPU插座提供显著的好处。首先,它降低了内存控制器竞争明显是由单一RMA缓冲区增加I / O的线程的数量。第二,它减少了内存延迟由于较少数量的远程内存访问I / O的线程。

3.3。MTS: Memory-Aware线程调度

本节描述了两个级别的详细信息Memory-aware线程调度(MTS)。首先,我们讨论了基于套接字的线程调度和第二,我们提出基于NUMA节点CPU插座有多个NUMA节点时线程调度。

3.3.1。基于socket的线程调度

分区的RMA缓冲每个CPU插座给减少内存控制器争用的特权。但仍有可能远程内存访问,它可以增加内存访问延迟相比本地内存访问。为了解决远程内存访问问题,我们建议基于socket Memory-aware线程调度(smt)计划。smt安排之间的I / O的线程CPU插座,这样所有I / O的线程应该访问RMA缓冲驻留在相同的CPU插座。同时,RMA缓冲区由通信线程注册和访问通过端点通过RDMA读/写操作。因此,单个和专用通信线程需要每个CPU插座来管理每个RMA缓冲区。在我们的方法中,每个CPU插座只有一个主人和通信线程和可配置的I / O的线程数量。创建的所有线程和连接每个CPU插座是独立于其他CPU插座。主在每个连接线程控制chunk-level调度和传输分配的文件和I / O的线程也对相同的对象主人指定的线程。通过这种方式,所有I / O的线程都钉在他们本地CPU插座的核心。

3.3.2。基于NUMA节点的线程调度

在这里,我们讨论了NUMA-aware优化所需的小伙子CPU插座配备多个NUMA节点的框架。考虑到可以关联多个NUMA节点每个CPU插座(11),很有必要安排线程到NUMA节点在每个CPU插座。解决这种情况下,我们建议基于NUMA节点Memory-aware线程调度(nmt)。nmt是如图1线程固定在每个NUMA节点在每个CPU插座。NUMA节点的处理线程调度背后的动机是避免远程内存访问CPU插座,插座内配备多个NUMA节点。调度线程CPU插座内,考虑到两个元素,(我)线程之间的交互和(2)公平的核心使用。在小伙子1)框架,更高效地完成数据传输,线程相互作用在一个较高的程度。

首先,主人和通信线程交互,当数据传输的开始。小伙子框架都有自己的数据结构文件元数据并保持文件大小的信息,fd和数据块布局转让所需的文件。主节点和通信线程维护工作队列。在本文的其余部分,我们将使用MWQ表示主人的线程的工作队列和煤电代表通信线程的工作队列。主线程调度煤电的请求的文件数据传输的开始。通信线程也MWQ发送文件请求,当文件请求收到水槽边。高的传输流量,大师之间的交互和通信线程增加。因此在这种情况下主的位置和通信线程中起着重要作用。如果主人和通信线程被放置在不同的NUMA节点,性能可能会降低由于远程内存访问内部CPU插座。

此外,线程管理大师的ost信息包含的数据块队列。队列的数量相当于目标光泽的ost文件系统。I / O的线程访问这些OST队列当加载数据块存储RMA缓冲区的信息块。所以,主人附近放置I / O的线程线程性能优化也是一个重要因素。然而,由于高I / O的线程的数量,不可能把所有的I / O的线程在同一NUMA节点掌握线程。所有I / O调度线程单个NUMA节点上发生I / O的线程之间的竞争核心。因此,首先我们建议调度大师和通信线程在同一NUMA节点,然后将I / O的线程NUMA节点尽可能掌握线程。我们分配I / O的线程在NUMA节点提高每个核心的公平使用,如图1。图1显示主和通信线程是由同一NUMA节点和I / O的线程承载靠近主螺纹,负载均匀分布在NUMA节点的核心。

4所示。评价

4.1。实验装置

在本实验的设置中,我们使用一个私人试验台与八节点连接的InfiniBand (IB) EDR (100 Gb / s)。节点使用IB网络相互通信。我们使用v4 e5 - 2650两个CPU插座(两个NUMA节点为每个CPU插座和六个核心为每个NUMA节点),128 GB DRAM, Linux内核3.10.0-514.21.1.el7.x86_64运行CentOS 7.3,。的两个八节点作为数据传输节点(DTN)源和汇主机。其他六个节点作为两种不同的存储系统。我们建立了两个存储系统更现实的实验。(我)Testbed-I:当构建一个光泽peta-scale存储系统文件系统,它使用成百上千的对象存储服务器与对象存储在每个服务器的目标。例如,蜘蛛II是center-wide Lustre-based系统在我们最快的超级计算机,泰坦和两个名称空间(1]。每个命名空间都有144 OSSs管理七个OST和每个OST配置10 hdd raid 10 [1]。即现实环境中使用的I / O PFS太快PFS的使用所有可用的带宽。为了模拟这种环境,对于每个源和汇的主机,我们使用内存文件系统安装在一个服务器节点通过NFS v4.0作为高性能文件系统。(2)Testbed-II:我们尝试了一个小规模的实验装备光泽为每个源和汇主机文件系统,配置使用OSS, MDS,和八ost,每个安装在600 GB的10 k RPM 6 Gbps SAS 2.5′′热插拔硬盘驱动器。对于每一个文件系统,我们创建了8逻辑卷驱动器的hdd让每个磁盘成为OST。我们将条纹计数设置为1和条纹大小为1 MB。

我们开发了一个内部内存基准程序用c++来衡量不同NUMA节点之间的内存带宽的源和汇主机。

从表1,我们可以注意到in-socket远程NUMA节点慢4%相比in-socket当地NUMA节点,而远程CPU插座NUMA节点是32%低于in-socket当地NUMA节点。

我们使用两个代表性的分布有两个文件组适合我们的小规模的实验设置:一个小数量的大文件8×3 GB文件,称为大型文件工作量,和其他大量的小文件有6000×1 MB的文件,称为小文件的工作量。HPC文件大小分布是二项分布的文件系统空间占用和文件数量:大文件占据大多数文件系统空间,但较少数量的文件。另一方面,小文件有更多数量的文件,但文件系统空间占用很小(1]。

为方便分析,我们定义以下方案:(我)基线:它使用一个RMA缓冲区。RMA缓冲区有不同的物理内存位置根据NUMA节点放置。实验根据RMA缓冲区的位置和执行NUMA绑定。在实验中,N意味着一个RMA缓冲区位于NUMA节点 ,和注意味着一个RMA缓冲区位于NUMA节点与I / O的线程绑定在同一节点上。如果I / O的线程数超过核的数量,I / O的线程NUMA节点分布和其最近的节点均匀。(2)百万桶:RMA缓冲区由CPU插座分区。在我们的实验中,一个RMA缓冲区的基线划分为两个。(3)MTS:适用Memory-aware线程调度算法(smt和nmt)百万桶。

为每个迭代的内存文件系统和光泽的实验,我们清除页面缓存的来源,和存储服务器为一个公平的评价。

4.2。结果

评估亲密线程类型的内存访问速度。小伙子,线程共享的数据结构;例如,MT和CT分享MWQ和煤电而I / O的线程和太RMA分享OST队列缓冲区是CT和I / O的线程之间共享。因此,增加线程之间的位置和共享的数据结构(内存变量和队列)福利改善性能。

在这个实验中,我们表现的太的评价根据安排,CT, CPU和I / O的线程在相同和不同的套接字。

表2显示了不同地方的吞吐量比较CT和MT对CPU的套接字。实验使用与Testbed-I小文件。我们可以清楚地看到,将CT和MT在同一NUMA节点的RMA缓冲有助于提高数据传输速率。MTS知道线程类型和重视把它们安排在相同的NUMA节点。在接下来的评估,我们运行的实验解决CT和MT的位置在同一NUMA节点RMA缓冲在NUMA绑定的情况下。

评估与高速PFS MTS。验证的有效性提出了百万桶和MTS的主意,我们比较的数据传输吞吐量基准使用一个RMA缓冲区。特别是,我们实验通过增加I / O的线程的数量来评估性能根据CPU核心利用率。数据2(一个)和2 (b)显示或大或小的比较结果文件的工作负载,与Testbed-I分别。为了确认性能限制单一RMA缓冲区和NUMA的最大性能可实现的绑定,我们评估基线通过改变单一的NUMA节点位置RMA缓冲区有或没有NUMA绑定的线程。RMA缓冲定位NUMA节点上在实验中N和注 ,和I / O的线程有界有考虑在NB RMA缓冲区的位置。

(一)大文件的工作量

(b)小文件的工作量

在图2(一个),我们首先分析结果与单一RMA缓冲区(指结果N的标签和注)。我们可以观察到23%的性能提升平均使用NUMA绑定在没有NUMA绑定。随着I / O的线程的数量增加,总体性能改善是观察到8 I / O的线程,而增加I / O的线程16日没有显著改善性能。这是由于底层文件系统的线程饱和。此外,我们观察到的性能略低于16 I / O的线程。我们怀疑性能下降的原因是内存争用和远程内存访问的单一RMA缓冲区。

第二,我们比较基线结果百万桶和MTS。结果,我们可以证实,总体性能改善了百万桶基线变化从13.0%到34.7%和MTS,其改善从21.7%降至44%。我们观察到MTS进一步增加百万桶约10%的性能。总的来说,数据传送速率增加I / O的线程数量增加到16日,但在那之后,进步并不重要。我们也看到,2 - 4 I / O的线程,百万桶和MTS收效甚微。当CPU核不充分利用,单身RMA缓冲区实现优于分区RMA缓冲区,因为没有充分利用由于性能存储少量的I / O的线程,分裂RMA缓冲和绑定线程NUMA节点带来额外的开销。另一方面,从8 I / O的线程,百万桶和MTS显示改进的性能基线。特别是在16个I / O的线程,我们观察到百万桶的平均性能改进和MTS 9.4 -15.1%和16.9 -23%,分别在基线使用NUMA绑定。这表明百万桶和MTS的记忆水平优化数据传输,存储足够快。

在图2 (b),我们有工作负载实验观察类似于大文件。4 I / O的线程,几乎没有性能差异。另一方面,8 I / O的线程后,我们可以观察到百万桶和MTS平均性能高于基准当我们在16个线程。我们观察小性能影响了MTS百万桶对于小文件的工作负载,而MTS显示了更高的性能比百万桶大文件的工作量。

评估MTS PFS与缓慢。如果存储性能低,百万桶的性能改进和MTS可以减少。因此,在接下来的实验中,我们测试的源和汇主机小规模光泽文件系统安装(Testbed-II)。图3显示了实验的结果与大大小小的文件在Testbed-II工作负载。首先,我们观察到的最大数据速率小于Testbed-I的实验。我们看到了1363 MB / s的传输速率与8 I / O的线程在大文件工作量和435 MB / s的速度在小文件的工作量。不幸的是,在图3(一个),我们看到百万桶和MTS有轻微的性能影响。在图2(一个)、百万桶和MTS提高性能在2000 - 3000 MB / s的数据传输速率,但在小规模光泽文件系统刚刚1 OSS和8 ost,百万桶和MTS不显示任何性能提升。但是,图3 (b)显示,在小文件工作量百万桶和MTS描述性能平均提高9.7%和15.7% 8 I / O的线程。因为在基线,只有一双MT和CT发送6000个文件元数据到其他工作队列顺序,而在百万桶和MTS,两对MT和CT同时处理3000个文件的元数据。确认如果PFS的I / O性能很低,很难利用NUMA的效果。另一方面,Testbed-I(基于内存的网络文件系统)代表高速PFS环境和证实记忆水平的影响优化(百万桶和MTS)。虽然存储不是那么快,使得端到端数据传输的瓶颈,分裂RMA缓冲区每个CPU插座增加大量小文件的性能。

(一)大文件的工作量

(b)小文件的工作量

最近的文献解决高速数据传输工具包括GridFTP [4],bbcp [3),和小伙子1]。bbcp传输大量的数据有效地使用多个TCP流。然而,bbcp使用单独的I / O的线程和不知道底层文件系统布局。GridFTP [4)支持条带化数据传输可以多个同行当数据是存储系统的存储在一组。但GridFTP并不考虑现有的文件系统级数据块布局文件条纹的基于对象的并行和分布式文件系统。GridFTP和bbcp核心设计依赖于基于文件的数据传输,而小伙子(1)是一种layout-aware基于对象的数据调度程序考虑存储布局和使用常见的通信接口(CCI) [5利用高速网络。此外,小伙子们实现了多线程架构从并行文件系统中获益。

存储和网络的进步,沿线的CPU和内存性能也改善了包括NUMA架构。多线程应用程序需要反映这种NUMA-awareness在他们的设计来达到最高的CPU和内存带宽。线程和内存位置在NUMA架构性能起着至关重要的作用。与基准流三合会,研究表明,当基准分配线程本地NUMA节点上,内存访问远高于将线程放置在一个偏远的NUMA节点通过1-hop和2-hop [12]。另一项研究解决NUMA-aware线程调度包括RAMSYS [2]。RAMSYS高速数据传输工具,使用专用的线程以异步的方式将流水线的每一个步骤。但RAMSYS调度线程没有考虑底层存储布局。同时,RAMSYS分配一个任务队列PFS和推动所有I / O请求单任务队列以类似的方式单一的存储设备,而我们的方法使用多个任务队列作为潜在的光泽的ost文件系统,增强了对存储性能水平。我们的方法是一个扩展现有的小伙子(1)的体系结构。

6。结论

进步的存储、网络和CPU架构已经指示现有的数据传输软件来调整其设计为了实现高吞吐量。目前,大多数的数据传输工具,如GridFTP [4]和bbcp [3)不支持这样的设计优化。小伙子(1),高速网络数据传输的软件设计,考虑底层的存储架构。然而,小伙子们忽略了NUMA架构。在本文中,我们提出一个NUMA-aware资源和线程调度优化的高速网络中数据传输。我们的方法包括三个主要部分,(i)分布式RMA缓冲每个CPU插座,(ii)高层基于socket的线程调度,和(3)低级NUMA节点基于线程调度。我们的方法不仅减少了内存控制器的论点,也提高了内存访问延迟。评价表明改进44%高性能文件系统与基线相比。

信息披露

这项工作的一部分是作为工作准时上交(抽象)在第二联合国际研讨会上并行数据存储和数据密集型可伸缩计算系统(PDSW-DISCS),结合SC 17[举行13]。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作是支持的信息与通信技术研究所由韩国政府推广(IITP)拨款(MSIT)(没有。2015-0-00590,高性能大数据分析平台性能加速技术开发)。这项工作也用韩国的资源科学技术信息研究所(KISTI),韩国大田市Daedeok科学镇。作者感谢Sungyong公园博士为他的建设性的意见,已大大改善了。

引用

s . y . Kim,左起第二个人g·r·法兰和通用希普曼,”小伙子:使用Layout-Aware数据优化数据传输调度,”13日USENIX大会文件的程序和存储技术快速的15,2015年。
视图: 谷歌学术搜索
李t . y . Ren, d . Yu和金,“RAMSYS: Resource-aware异步数据传输与多核系统”IEEE并行和分布式系统,28卷,不。5,1430 - 1444年,2017页。
视图: 出版商的网站 | 谷歌学术搜索
a . b . Hanushevsky“对等计算安全的高性能数据复制,“技术。众议员slac -酒吧- 9173,2002。
视图: 出版商的网站 | 谷歌学术搜索
即培养“Globus Toolkit Version 4:面向服务的软件系统,”网络和并行计算卷,3779在计算机科学的课堂讲稿海德堡,页2 - 13,激飞柏林,柏林,海德堡,2005年。
视图: 出版商的网站 | 谷歌学术搜索
美国,左起第二个人d .——g·希普曼et al .,“共同通信接口(CCI)”学报2011年IEEE第19届研讨会上高性能互联(霍蒂)页51-60,华盛顿,美国,2011年8月。
视图: 出版商的网站 | 谷歌学术搜索
ESnet”,能源科学网络(ESnet)”http://www.es.net。
视图: 出版商的网站 | 谷歌学术搜索
a·戴维斯和a . Orsaria规模,从而2013年,休斯顿,德克萨斯州,美国,http://dl.acm.org/citation.cfm?id=2555789.2555790。
f . Wang h . s .口服g·m·希普曼o . Drokin d . Wang和h .黄,“理解光泽文件系统内部,”科技。众议员ORNL / TM-2009/117, 2009。
视图: 出版商的网站 | 谷歌学术搜索
s . A . Weil, s . A·布兰德,e·l·米勒·d·d·长,和c . Maltzahn”Ceph:一个可伸缩的、高性能的分布式文件系统”学报》第七届研讨会上操作系统的设计和实现。1 em + 0.5 em - 0USENIX协会,页307 - 320年,2006年。
视图: 谷歌学术搜索
ORNL”橡树岭领导计算工具”,https://www.olcf.ornl.gov/。
视图: 谷歌学术搜索
戴尔,NUMA 12代戴尔PowerEdge服务器的最佳实践,2013,http://en.community.dell.com/techcenter/b/techcenter/archive/2013/01/09/。
t . Li y任、d . Yu和金,“分析NUMA效应在现代多核系统的高性能数据传输应用程序的设计,“未来一代计算机系统页。每周,卷。74年,2017年,http://www.sciencedirect.com/science/article/pii/S0167739X16305799。
视图: 出版商的网站 | 谷歌学术搜索
a . t . Kim汗y金,美国公园,和美国,左起第二个人“NUMA-Aware具有数据移动,线程和资源调度t比特信息能力”学报(工作)PDSW-DISCS 17(结合SC举行的17)美国丹佛市,1页,2017。
视图: 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

1655年

下载

807年

引用