分析一个新的MPI过程分布的气象研究和预测(WRF)模型

文摘

天气中使用的标准方法研究和预测(WRF)模型用于分发MPI程序在处理器并不总是最优的。这种情况下会影响性能。,execution times, but also energy consumption, especially if the application is to be extended to exascale. The authors found that the reason why the standard method for process distribution is not always optimal was an imbalance between the orthogonality of the communication and the proper cache usage, and this affects energy consumption. We present an improved MPI process distribution algorithm that increases the performance. Furthermore, scalability analyses for the new algorithm are presented and the energy use of the system is evaluated. A solution for balancing energy use with performance is also proposed for cases where the former is a concern.

1。介绍

天气预报在人们的日常生活中变得越来越重要。是同样重要的一个人想要一个美好的周末,因为它是一个机构,计划一个世界级的事件像冬季奥运会。此外,越来越多的高分辨率的预测要求,包括需要增加计算能力用于这些预测,甚至达到exascale。从运营的角度来看,系统的性能是最重要的计算方面提供天气预报,因为这些必须在很短的时间内,生成没有忽略这些能源消耗的计算资源。因此,预测未来12小时应计算在不到一个小时为了是有用的操作。出于这个原因,要求更多的计算资源的使用。增加处理器的数量用于天气模拟允许将问题分成更小的子问题,但在通信吞吐量增加的成本。计算资源的增加是无法持久的;在某种程度上,子问题的计算工作量将非常低,通信将成为瓶颈,避免进一步减少计算时间。

天气的研究和预测(WRF)模型包是一个著名的天气预报软件在世界各地广泛使用。WRF利用并行计算,这使得它在许多超级计算机执行。作者使用了高级研究WRF (WRF-ARW)提供每12小时24-hour-ahead预测事件的兴趣点的2018年冬季奥运会。

WRF执行域的分布工作负载,使用消息传递接口(MPI)通信协议,域是地球上目标地区的模拟。域是分区可用的MPI过程中,分布在可用的处理器。处理复杂性起源于两个问题:(i)模拟分辨率,控制集成的复杂性的一步;和(2)网格/网格尺寸,确定子域的大小。

这些问题是受不同的底层处理平台的性质。例如,每个处理单元的处理能力很大程度上决定了质量和性能的集成步骤(i)。随着分辨率的增加,即。,网状子域变得更小,集成步骤是缩短导致的增加所需的总集成的步骤。

本文,一方面,第二个问题(2),建立了子域的数量,每个子域都有固定数量的细胞。WRF均匀分裂一般域n子域,n可用MPI程序的数量,安排在2 d网格。

这个过程分布参数x和y很大程度上决定了整体性能的模拟根据子域网格的尺寸,即。,维域的网格。例如,25 MPI过程域可以分解为三种可能性: , ,和。它可能认为分配过程布局执行类似于分发它们布局,但我们与WRF表明事实并非如此。事实上,有一个巨大的两个布局之间的性能差异。出于这个原因,我们研究了影响不同过程的分布仿真时间和原因的影响,提出了一种新的分布算法,比由WRF实现更有效。

另一方面,我们还研究了如何增加使用处理资源的数量减少的墙时间成本失去效率的模拟计算相同的工作量,大大增加了能量消耗。在结果中,我们发现一个整体性能和能量消耗之间的平衡,显示当能耗分布最好的过程也是一个因素。注意,exascale平台将由成千上万的处理器,这意味着一个轻微的减少他们每个人的能源消耗将大大减少能源消耗的平台作为一个整体。

的其余部分介绍了当前状态的艺术的概述部分2。这项工作中所使用的方法都是详细的节3。节4,我们研究不同的影响过程分布的总体性能,提出一种新的方法来分配部分5。节6,我们研究如何增加可用的MPI流程,以及变化的每一个流程的处理能力,影响分布式计算的效率和能耗,思考exascale WRF的实现。最后,我们提出我们的结论和未来的工作7。

WRF性能可能会受到不同因素的影响。一些有关软件用于编译和执行阶段(C和Fortran编译器,MPI库,并使用线程)和其他的配置一定的案例研究(使用物理模型,解析请求,域网,…)。在本文中,我们将重点关注三个主题:如何可伸缩WRF当可用MPI程序的数量增加;域网的尺寸如何影响性能;以及我们如何节约能源,同时实现良好的性能。在文献中,有许多论文解决这些话题。

Malakar et al。1专注于改进和分析嵌套域模拟的性能。他们表现出显著减少(29%)在运行时通过编译器优化,流程映射到物理拓扑,重叠与计算、通信和并行通信。他们还得出结论,高分辨率的嵌套的天气模拟是一个挑战的扩展到大量的处理器和认为这是至关重要的,从业人员选择一个好的嵌套的配置。

Christidis [2]得出显著的性能改进,由于更好的缓存利用率,可以获得一个适当的选择参数 , ,和。较小的数组适合更有效地在本地缓存中,尤其是在“瘦”分解的情况下( )使计算以最小的缓存错过。

在同一条线上,约翰森et al。3]调查“最适合”节点布置方案在使用2 OpenMP线程/ MPI, 8 MPI排名在每个克雷XE6“蓝色水域”节点。默认情况下,XE6作业调度器MPI在串行顺序排机的地方,但光环交换伙伴并不映射在WRF这种方式。使用另一个位置可以获得3通信伙伴对于大多数MPI排名在同一节点。在非常高的级别上,这种策略WRF整体性能提高18%以上。WRF电网分解为矩形与纬度为每个子域名超过经度。使用的优化布置的发送较小的东西方交流off-node方向和保持尽可能多的南北大消息在节点。

沙恩et al。4)得出的结论是,尽管互连类型是最大的决定因素在提高WRF可伸缩性,也观察到整个集群的效率可以提高20%通过运行在集群同步工作而不是整个集群分配一个工作。生产力的增加是由于两个因素:(i)核心和记忆的亲和力,这减少了远程内存访问处罚和提高缓存命中率,和(2)平行的较小的工作核心数量减少为每个应用程序的同步开销。

克鲁斯et al。5]研究WRF可伸缩性几千对大宗商品超级计算机使用英特尔的核心编译器,发现总时间减少512至2 k核和增加超出2 k核。而计算时间比例与越来越多的核心,涉及增加I / O的时间来完成操作,超过在仿真速度2 k核。

很长一段时间,计算性能时是唯一指标考虑启动一个程序。科学家和用户只关心一个项目完成的时间。尽管经常如此,许多硬件架构师的优先级和系统管理员已经转移到越来越关心能源消耗。高性能计算消耗越来越大容量的电力,和减少消耗节省可观的钱。

一组方法来减少能源消耗集中在如何分配工作负载在计算机的核心。在这一领域,Lagraviere et al。6)相比的性能和功率效率统一并行C (UPC),通过运行一组内核MPI, OpenMP的NAS基准。他们专注于分区的全局地址空间(pga)模型,和他们的主要结论是,UPC可以和MPI OpenMP竞争方面的计算速度和能源效率,但数据显示,OpenMP比其他人消耗更少的能量。

Igumenov和Žilinskas7,8)测量了多核电脑的功耗与不同的计算负载:当计算机空闲时,当一些核心满载。平均每核心功耗降低时计算负载的增加。因此,电脑运行更大的负载比分布并行任务中独立的多核计算机。

Aqib和Fouz9相比)的时间和能源消耗不同的任务使用不同的并行编程模型(OpenMP OpenMPI, CUDA)。他们的结果,可以通用,轮廓的影响选择一个编程模型的效率和能耗运行时不同的代码在不同的机器上。并行编程模型明显提高效率和减少能源消耗如果有可以并行的代码块。他们的结论是,OpenMPI执行比其他并行模型考虑。

总而言之,在这一节中提到的第一个作品寻求提高性能通过改变不同的参数,这两个软件和硬件,但与我们的工作,在任何情况下他们提供了一个详尽的分析,提供了一个启发式来确定过程的分布接近最优。在这些作品中,没有关心能源消耗。在接下来的工作,提出了不同的技术,允许减少能源的消耗肯定建立测试长椅。尽管他们显示前进道路上,我们通过软件在实际环境中进行。

3所示。材料和方法

3.1。应用案例

这项工作是在冰棍2018项目,进行合作的机构负责支持冬季奥运会通过提供不同种类的天气信息。midresolution模拟与WRF大约1到4公里的决议每个细胞,用一个集成的步骤的顺序秒。的冰棍2018,需要解决约300米,低于第二个集成实施步骤。图1显示了三个嵌套域不同的决议,朝鲜半岛在每个仿真计算。从WRF预测不同的参数,如能见度或湿度、提取的兴趣点的奥运会。这种信息对计划的事件非常有用。我们执行同样的模拟在同一地理区域为所有我们的研究。3.9.1 WRF-ARW版本使用定制的配置(UCLM-WRF)是作者用来获取天气预报。WRF是开源的,所以可以获得源代码的国家大气研究中心(NCAR)的网站(http://www2.mmm.ucar.edu/wrf/users/download/get_source.html)。的配置利用最先进的P3微观物理学(10),快速辐射传输模型方案(11]因为辐射,和诺亚地表模型(12)的表面。

3.2。测试平台

我们使用了GALGO超级计算机来执行所有的测试在这个工作。GALGO位于阿尔瓦塞特省信息学研究所,西班牙和举办各种各样的科学研究。GALGO是一群大约1200个处理核心,所提供的一半Intel Xeon E5450 3.0 GHz处理器。每个处理节点配置,安装两个处理器共享DRAM和40 Gb / s双端口Mellanox ConnectX-2 Infiniband接口。我们使用40 GALGO的处理节点(320个流处理器)为我们的测试。网络的拓扑结构如图2;它由一个一级的24-port DDR开关和一个36-port版的《四年防务评估》的二级开关,20 Gb / s的链接速度。16个计算节点连接到每个24-port开关。

3.3。编译选项

选择编译器,编译选项,和MPI的实现有很大的影响模拟的运行时。在这项工作中,我们使用最快的二进制代码,我们可以是最好的组合,也就是说,让我们运行的可执行模拟在最短的时间内的所有组合。在我们的例子中,我们使用英特尔与英特尔MPI库编译器(版本。2018.0.128)编译所需的所有项目和依赖关系。最佳性能,我们使用了o3编译选项激活最激进的优化。我们还利用-xHost编译选项使用处理器的SIMD功能(SSE4)。我们实际验证混合MPI-OpenMP (dm + sm) WRF编译执行比其他选项,因此使用这个配置在我们的测试中。

3.4。模拟

我们模拟覆盖目标区域冬季奥运会举行,模拟2018年1月25日从06:30为06:00时所有的测试。冬季奥运会的典型模拟覆盖24小时模拟,但是我们使用减少模拟时间在我们的测试中,因为大量的模拟这些测试。我们使用三个单向嵌套网格(见图1)和大小内心的网格(300米/细胞),中间网格(900米),外层网格(2700米),他们每个人有70垂直的水平。此外,高分辨率的300米/每迭代内细胞需要大量处理能力。数值稳定性很大程度上取决于输入地理数据的分辨率,因此我们使用高分辨率数据集提供的朝鲜半岛冰棍项目而不是默认的WRF预处理系统(WPS)地理输入数据。

3.5。网格分布

WRF执行自动分配或布局的仿真领域中可用的MPI /网格过程,基于笛卡尔拓扑(MPI_Cart_create)。因此,它将域分为最正交坐标或 ,分配每一个坐标,一个MPI的过程。的x和y价值观可以覆盖,为了检查是否最正交布局是最好的域分布,我们与所有可能的执行额外的模拟组合为一组n值,n代表处理节点的数量。在我们的实验中,MPI程序的数量匹配的节点数量n因为我们只使用一个MPI过程每个节点。一个简单的方法来改变x和y坐标在WRF版的学生名单。WRF运行所需的输入文件。学生名单。我nput file, nproc_x控制x协调和nproc_y控制y坐标。

3.6。时间测量

我们的实验的基本测量墙的平均时间,这被定义为在哪里墙上的时间吗我仿真和z迭代的总数。每个测试由10个迭代,即。执行10次,然后获得使用(1)。

3.7。速度和效率

墙的平均时间不适当的描述可扩展的并行软件。出于这个原因,分析通常是在加速(见Kumar et al。13)的值: 在哪里是参考平均壁时间取决于研究中,例如,可伸缩性,通常的时间更少的处理单元的情况。是时候我们感兴趣的案例分析。我们还可以测量并行效率E的一个案例在哪里年代加速的情况下,对应的进程数量吗 , 对应的进程数量吗 ,和p是多少倍的过程选择的情况下对参考案例。

3.8。能源评估

目前开展有效的实现有着极大的兴趣,从计算的观点(减少执行时间)和从能耗的角度(需要更少的能量)。整个平台的能耗是衡量在瓦,并以焦耳能量消耗时考虑。为了大约估计功耗,我们必须知道的能量消耗在每个处理器瓦。处理器的实验平台,供应商指定这个数平均为80 W。为了估计的平均能耗平均壁时间 ,我们定义在哪里J代表了焦耳被估计n节点和瓦特/处理器的数量根据供应商的规范。因此,需要的值当考虑2或4核处理器每个节点(1)和当考虑6或8芯(每个节点两个处理器)。我们假设空闲处理器不消耗能量,这不是真的,就像在一些研究中,如Igumenov和Žilinskas [7]。我们这样做是因为我们只有处理器相同的模型和固定数量的核心,所以我们需要确定一个处理器核心数量将减少更多的能源效率。

3.9。实验设置

作为一个总结的信息显示在本节中,详细实验设置如下:(我)机器(1)40 GALGO的处理节点与英特尔至强E5450 3.0 GHz处理器。每个处理节点配置,安装两个处理器32 GB内存和40 GB / s双端口Mellanox ConnectX-2 Infiniband接口。(2)软件(1)3.9.1气象研究和预测(WRF)版本,编译为混合MPI-OpenMP平台(选择“dm + sm”在WRF配置)。(2)英特尔与英特尔MPI库编译器(2018.0.128版本)。使用编译选项:o3和-xHost。(3)方法(1)所有WRF与相同的参数进行了模拟;唯一的变化是进程的数目和分布这些流程的节点。(2)我们使用不同的分布进行实验n= 9、16、25和36节点。这些值的n被使用,因为他们允许我们使用一个精确的正交分布,也就是说,( ),( ),( ),和( ),在WRF是默认的。(3)对于一个给定的节点数量n,我们认为所有的不同分布的二维网格中的节点。(4)平均时间了n处理节点和8芯每个节点具有不同域分布。每个域分布10倍执行。(5)能源消耗预计从墙时间和瓦特/处理器的数量根据供应商的规范。

4所示。分析在WRF过程分布

我们所有的WRF与相同的参数进行了模拟;唯一改变的过程,这些过程的分布数量的处理器。WRF分布算法假设分布的最佳布局的过程是最保持正交性,即。,因为n过程,大约分布。我们使用不同的分布进行实验 ,和36节点。这些值的n被使用,因为他们允许我们使用一个精确的正交分布,也就是说, , , ,和。

问题是这些正交布局提供最好的时间吗?在我们的实验中,我们考虑了所有的不同分布节点与一个固定的2 d网格n。例如,在的情况下节点,可能性是 , ,正交 , ,和。在表1,我们可以看到布局的影响为。强调值对应于WRF所使用的自动布局的最佳值被标记为粗体。




9×1	3443年	16×1	2596年	25×1	2117年	36×1	- - - - - -
3×3	2403年	8×2	1714年	5×5	1017年	18×2	1152年
1×9	2327年	4×4	1458年	1×25	1298年	12×3	951年
		2×8	1396年			9×4	861年
		1×16	1622年			6×6	824年
						4×9	801年
						3×12	855年
						2×18	908年
						1×36	- - - - - -

自动选择的发行版WRF下划线和最好的被标记为粗体。一些极端的分布等坠毁的模拟和不能被执行。

结果在表1表明,即使选择的布局WRF通常是“足够好”,他们不是最好的。因此,根据研究结果,我们国家最正交布局不总是表现最好的布局。结果也证实了该理论, 是不平等的来在性能方面,由于不同的事实过程分布涉及不同的通信模式。

4.1。WRF沟通行为

为了解释上述发现,我们看着通信行为。众所周知,MPI通讯可以在较低的项目瓶颈计算工作量和大量进程之间的通信。我们看两个主要因素,极大地影响了MPI引入的开销或任何其他消息传递策略:(i)之间共享的数据量MPI过程和(2)交易的数量需要共享的数据量。当这些提到的因素超过底层平台的能力,尤其是互联网络性能大大退化。

因为的例子比其他人有更多的分布组合,我们使用这个例子分析通信,使用英特尔MPI库提供的统计数据。因此,我们绘制的数据量在MB注入内部通信网络(我)分布在图3和交易的数量每分配(2)在图4。

观察结果,我们可以看到更多的正交组合显示最低传输的数据量(我);然而,他们提出一个更高的事务量(ii)。WRF,我们看到的MB墙上有更大影响的时间比交易的数量。此外,如果我们假设通信性能的最重要的因素是在我们WRF模拟, 性能应该类似的性能。如果我们看看图5观察,我们可以看到对于每一个分布不是预期的(近似)情况下的通信是最重要的因素。

4.2。WRF集成步骤分析

因此,通信没有之间的性能差异的原因和分布。观察到在Christidis [2和约翰森等。3),组合由于增强缓存使用更好地工作。

WRF Fortran程序执行在每个集成步骤是solve_em(),这是solve_em中定义。源文件。所有的MPI和OpenMP功能中使用这个文件。如前所述,每个子域名的分布是分配给一个MPI的过程。作为一个例子,在图6,我们可以看到WRF划分内部域(当使用细胞)的模拟过程分布,和。为了清晰,细胞的域索引我指数(纬度)j指数(经度),k指数水平(垂直)。这为每一个MPI过程分布生成一个子域细胞( ),每个细胞有70垂直水平(见子域名的情况下在图6)。

当使用OpenMP,每一个域名都分为瓷砖,可以自动由WRF(通常,瓷砖=线程)或通过numtiles手动设置参数名称列表。solve_em程序包含许多循环遍历每个MPI的目标子域名的过程,每一循环迭代对应的子域名使用的瓷砖OpenMP线程(OMP并行做)。的伪代码WRF集成步骤(solve_em)提出了算法1。

(1)	函数COMPUTE_SOMETHING(瓷砖)
(2)	为来做迭代的瓷砖
(3)	为来做迭代顺序就可以了
(4)	为来做
(5)	瓷砖(我][k][j]=…在网格上的东西吗
(6)	结束了
(7)	结束了
(8)	结束了
(9)	结束函数
(10)	过程SOLVE_EM(子域)
(11)	…初始化
(12)	!OMP平行做美元一个线程每瓦
(13)	为对numtiles做迭代瓷砖
(14)	compute_something(子域[t])传递函数的瓷砖来计算
(15)	结束了
(16)	!美元OMP平行做结束这样的地区
(17)	如果DM_PARALLEL然后如果使用MPI
(18)	HALO_EM∗∗∗。公司晕送到其他相邻的过程取决于模板
(19)	如果
(20)	…复制相同的循环结构的时间子域上的不同的变量来计算
(21)	结束程序

与Fortran高效的内存布局,每次集成步骤计算超过目标瓷砖,它执行三个嵌套循环以正确的顺序(从内到外循环:我,k然后j)。因此,问题出在其他地方。在图6,我们可以看到对瓷砖在使用三种不同分布的影响。记住的 : ,当我们看到表1。如果我们看看图中的三个案例6,不同的尺寸我和j。当WRF计算每个瓷砖或片对应的子域名,它执行时更好我尺寸大,因为更好的缓存使用。

为了理解这种效果,我们需要看看WRF将子域映射在内存中。的我维是连续的在内存中,而不是k和j尺寸,因为子域映射在一个更大的内存布局,额外的细胞(例如,晕)分配。这些不连续的三个嵌套循环干扰改变时,缓存的性能k或j索引、减缓计算。

因此,降低j尺寸增加了我维度,导致更好的缓存的使用和性能。同样,如果我们看看图6,我们可以看到的情况分布,这是最快的我尺寸比其他两个更大的情况下,使它比其他的更好的表现。

在理想的情况下,沟通没有问题, 分布是最快的,因为一个更好的缓存使用(每个子域)。在实践中,情况并非如此,因为在这些极端情况下,通信升级计算时间(见图3和5和表1)。作为结论,必须找到下一个两个因素之间的平衡在使用WRF:(1)通信过程分布是正交时表现得更好(2)较大的值时缓存性能提高我(纬度)是用于瓷砖

5。改善WRF分布算法

利用部分中描述的结果4,我们提出一个替代算法基于分发的布局过程α价值。我们观察到较低x尺寸比y维度(更好的缓存使用),性能更好的工作负载每一道工艺都是足以否定通信开销的。

因此,我们设计了一个方法来获得一个更好的分布从一个α比率应用于n过程,平衡好缓存使用一个可接受的通信开销增加。事实上,的值之间的比例x和y似乎是相同的,我们定义为

根据α选择,我们可以获得一个良好的价值x可以用来获得一个最优的分布nMPI的过程。为了获得x,我们有方程组由(5),

解决(5)- (7我们获得

然后,我们清楚的x从(7)和(8):

方程(9)提供了一种方法来获得一个好的x从一个特定的值n。我们还定义作为一个函数返回除数的n这是最近的整数因子的值x。在一个特定的n我们可以使用(9)获得算法分布 :

5.1。推导最优α

方程(9)需要一个α价值是有用的,这个值应该产生的开销最小化通信和缓存错过。我们有一个域纬度/经度维度,我们细分领域子域。从这,我们获得每个子域的纬度/经度维度。

每个子域的通信开销的长度可以计算周长乘以通信开销一个每一点的周长。子域的通信开销,使用一个特定的x,因此由以下公式:

然后,我们得到11)和等于零:

最后方程证明了通信开销最小的时候 ,正如我们已经看到在图4。

遵循同样的想法,我们推导出缓存未命中的开销。缓存错过开销可以定义维度的经度乘以开销B介绍每一个缓存小姐,我们获得特定的缓存错过开销x作为

方程(13)代表的单调递增函数取得最小值x= 1。这个结果支持发现越低y尺寸是,更好的缓存使用。从以前的结果,我们可以获得合并后的开销(11)和(13):

在推导(14)获得x总开销最小值,我们得到:

因此,从(9)和(15),最优α合并后的开销最低在哪里吗

这个结果清楚地显示了两个开销的影响(通信和缓存错过)在最后的计算性能。

5.2。获得一个Alpha值

请注意,一个和B在方程(未知常数16),这阻碍了我们从计算最优α。另一方面,我们仍然需要分配一个值α为了获得任何分配使用(10)。问题是,理论上也不是轻而易举的事情(甚至经验)计算这些常量,所以我们尝试另一个实证方法获得最优的一个近似α。

为了这个目的,我们首先定义值为每个我们的培训情况。从表1我们获得了分布最好的的每一n。然后,我们使用了和从这些发行版来定义作为

在同样的方式,我们获得的值为分布在约翰森et al。3)(表2)。最后,我们适合这些数据(曲线值)和获得的结果。


	10	20.	30.	40

8	2024年	1182年	896年	774年
6	2288年	1333年	964年	812年
4	3049年	1733年	1220年	952年
2	3895年	2316年	1612年	1239年

5.3。算法过程分布

在应用(10),我们的价值观 , , ,和 ,我们获得的最优分布 , , ,和 ,分别。在这些情况下,WRF正交分布,这是次优的。我们的流程分布给出了算法实现2。算法2承认两个调用参数,考虑节点的数目(n)和α的值,并返回的值x因子的n,哪个更接近一个计算的公式。要做到这一点,功能F(x,n)首先查找值小于x(在每一步下降一个单位),直到找到一个除数n然后重复这个过程值大于x。最后,相比获得的值和一个最接近的初始x是选择。最后y是计算。

要求: , , 和
(1)	函数F 实现
(2)	为来n做迭代可能衰减
(3)
(4)
(5)	如果然后
(6)	打破最近的除数下面x被发现
(7)	如果
(8)	结束了
(9)	为来n做迭代的增量
(10)
(11)
(12)	如果然后
(13)	打破最近的因子在x被发现
(14)	如果
(15)	结束了
(16)	如果然后返回最近的x
(17)	返回
(18)	其他的
(19)	返回
(20)	如果
(21)	结束函数
(22)	过程分发分布算法
(23)	获得第一个候选人
(24)	得到最近的因子n来x
(25)
(26)	分发流程使用分布
(27)	结束程序

我们无法执行模拟n高于40 MPI过程在我们的平台,但我们应用分布算法n约翰森等。结果值x从我们的算法(标有值 )如图7随着x值所使用的约翰森et al。(标注 )。实线表示(正交),而实线代表了底部x获得的值(9)。使用我们的算法实现的平滑调节x同时增加n。

执行我们的测试有不同的分布,我们使用的输出算法2改变nproc_x和nproc_y参数的值在WRF名称列表文件。然而,WRF分布代码可以被修改来实现我们的算法不需要外部修改(通过脚本自动或手动方式)的学生名单。

6。WRF可伸缩性和能量分析

性能改进的分配算法允许我们增加对我们的模拟,但我们想确定这个性能可以进一步增加。这项工作包括研究的第二部分的可伸缩性WRF及其效率当增加可用的处理能力从性能和能量消耗的角度。我们的目标是提高性能没有显著增加了能量消耗。

6.1。可伸缩性

在我们的可扩展性研究中,我们测试了不同情况下使用一个变量计算节点的数量n和处理核心c从这些节点。后执行10个每个组合的模拟和应用(1),我们获得了值见表2。相同的结果呈现在图8,在那里我们可以看到巨大的性能差异n很低。相反,当n高,4例缩短彼此之间的距离,收敛于相同的值吗。

处理核心c是由OpenMP线程,提供了良好的性能和减少内存占用。在应用(2)和(3表中的值2,我们获得的效率值e提出了表3。


	10	20.	30.	40

8	1	0.86	0.75	0.65
6	1	0.86	0.79	0.70
4	1	0.88	0.83	0.80
2	1	0.84	0.81	0.79

从表中的信息2和3我们推断出以下的观察:(我)正如所料,减少了平均时间/模拟当增加处理单元使用的总数( )(2)减少的数量c每个节点核心,增加节点的数量n大大提高效率e(3)当处理单元的总数( )大于180,效率e骤降

从第一个观察,我们可以看到,增加节点的数量n降低了墙乘以数量的在所有的情况下c每个节点使用是恒定的。使用所有的每个节点的核心,工作效率大大地削弱了增加节点的数量。然而,当每个节点使用内核的数量是4或更少,效率保持稳定。这种情况下显然是观察表3。

一个明显的例子的影响使用多个节点核心是比较有限的情况下,使用80处理单元: , ,和。的情况是速度比情况下,甚至不惜牺牲提高MPI通讯。再一次,我们看到,通信不使用WRF时性能的关键因素。的差距就更大了只有25%(2芯)节点的使用处理能力,减少墙上时间。

在分析处理器执行时的性能和情况下,我们发现小内存页面错误的数量在第二种情况下低于第一个。此外,缓存缺失的数量减少了在第二种情况下。因此,我们得出这样的结论:这些性能差异的原因是更好的缓存使用因为减少了数据结构的大小。

当我们结合第二个观察的结论,第一个,我们看到内存管理大大提高当每个节点数据结构的大小足够低,而且处理核心的数量c不是太高的大小。这反映在效率e值获得表3例小于180总处理单元( ),这也是支持的第三个观点。作为结论,我们国家,为了维护一个并行效率高,问题的规模应与使用的处理能力。模拟的大小问题,180年处理单元是一个很好的性能和效率之间的妥协。增加这个数字或MPI程序的数量n会将域划分为小的分区太小,无法有效地喂给处理器。

看着前面的观察,我们得出结论和建议WRF应该执行的计算资源优先考虑缓存的大小和延时记忆多的复杂性和数量的计算核心。支持这个建议更好的效率在我们的模拟值较低c获得的结果,这是符合沙恩et al。4]。此外,可用的处理能力应适当大小的问题(分辨率和域尺寸),既不太高也不太低。

6.2。能源效率

正如我们在介绍部分所述,在处理exascale平台,一个小减少性能可能成为大减少能源消耗。这就是为什么它是如此重要的平衡系统的整体性能时考虑能源消耗。

是有限度的,增加计算资源的数量几乎提高了性能,成本的飞涨的能源消耗。因此,能源消耗是一个因素在决定需要多少计算资源来满足既定要求。表4显示了估计的能源消耗J在应用(4)次展示在表2。估计的能源消耗J提出在图吗9,我们可以看到相对应的最大节约能源的使用4芯。


	10	20.	30.	40

8	3238400	3782400	4300800	4953600
6	3660800	4265600	4627200	5196800
4	2439200	2772800	2928000	3046400
2	3116000	3705600	3868800	3964800

结果,它可能被认为可以找到一个好的平衡执行所花费的时间和能源消耗。显然,如果时间是最关键的变量在一个实验中,能源消耗变得无关紧要。例如,如果本文的模拟必须执行在不到800秒,唯一可行的配置对应8核和40个节点。但是,如果时间来执行仿真由限制,例如,1000秒,然后我们可以玩其他变量,如能源消耗。我们散点图绘制所有的组合10所以我们可以选择一个好的组合在过去的例子。1000秒的限制和查看图10,我们有4个选项: , , ,和。在这种情况下,最好的选择是清楚因为这之间的巨大差异焦耳和其他选项。

在其他情况下,最好的选择不是很清晰和依赖于优先级。例如,限制为1900秒,读者可能会同意我们的意见,所有的可能性,只有三个是可行的: , ,和。的是最少的能源消费但比其他两个慢得多。消耗多一点但是,相比之下,是速度的两倍。是两者之间的妥协。取决于我们的重点,我们会选择(我) 为最大化性能(2) 为最大化节约能源(3) 如果优先级协调性能和能量消耗

在我们的模拟中,我们需要最快的分布,这是分布。另一个选择是我们考虑分布,获得了38%的节能与墙壁上的时间增加了23%。这种分布的问题是,墙上时间远离我们的目标时间需求,因此不是一个可行的选择。

7所示。结论

本文提出了一种新的分布算法,比由WRF实现。这种算法设计了性能研究的结果在不同的流程分布与不同数量的总过程。

我们也提出一个研究WRF-ARW模型的性能的三个主要变量:过程分布、执行时间和能源消耗。作者必须遵守执行时间要求的冰棍2018项目,关于2018年冬季奥运会在平昌举行,但也考虑资源的合理使用和能源消费由作者的研究机构。然而,这项研究是至关重要的任何研究小组工作在这一领域,所以这篇文章可以被视为一个准则。

除了这条指导原则,摆脱这项工作主要贡献如下:(我)正交分布是通信和处理机间的性能最优。(2)纬度主要维度是缓存使用情况和intraprocessor性能最优。(3)WRF性能因此取决于正交性之间的平衡(通信)和高效的缓存使用(每个子域名时间纬度)。我们提出了一个算法来获得一个平衡分布。(iv)在我们的平台,WRF模式更好的每个节点在使用更少的核心工作。(v)WRF消耗更少的能源使用更少的节点,实现良好的执行时间。(vi)执行WRF,因此推荐使用简单机械(不是这么多核和更多的能量效率比复杂的)与质量缓存的记忆。

有关使用的网格分布WRF软件包,作者证明使用的平台在这个实验中,最好的分布并不总是正交的一个过程。为了解决这个问题,作者提出了一种新的分布算法计算出一个更好的布局由WRF比默认的实现。作为一个未来的工作,作者提出以证实本文的结果在其他平台上用于这项工作完全不同,尤其是平台流程的数量可能会高于10000。在这项工作中,我们获得了好处α值算法分布用于其他作品,但我们希望找到一个更好的α从最好的过程分布在价值n是足够高的。我们还证明了结合开销的通信和缓存错过遵循两个常数之间的关系,我们建议确定在未来的工作。这两个常数会让我们获得的最优过程分布任意数量的MPI的过程。

为了测试我们的算法模拟,我们外部修改WRF nproc_名称列表x和nproc_y在我们的模拟参数,但该算法很容易实现作为替代分布选择在WRF源代码。

WRF源代码的研究,我们认为它可以优化数据局部性,因此消除由于纬度主要尺寸的限制,实现最佳的性能。这可以通过修改瓷砖的细节处理代码。

此外,从之前的贡献,我们探索不同的节能方式通过改变位置的过程。作者用图解法得到最佳配置策划能源和在一起的时间。根据优先级(性能或节能),不同的选项可以选择从这个阴谋。此外,在这项工作中,我们没有考虑使用加速器由于gpu WRF软件的使用是减少到一个简短的函数集。我们这篇论文的目的是研究过程分布在性能方面的影响和能源消耗没有比较与其他WRF实现考虑gpu。这种比较(WRF和不使用gpu)可以作为一个未来的工作有趣。

数据可用性

使用的数据来支持本研究的结果包括在本文中。

信息披露

提出了早期版本的手稿的一部分RM的博士论文“一些关键HPC数值天气预报工作流程的改善。”

的利益冲突

作者宣称没有利益冲突。

确认

这项工作得到了西班牙的经济竞争力,科学和创新(MINECO)(批准号。cgl2013 - 48367 p和cgl2016 - 80609 r)和KMA(韩国气象局)(批准号1365002970 / kma2018 - 00721)。RM承认支持MINECO(批准号FPI bes - 2014 - 069430)进行博士学位。一个承认支持MINECO(批准号FPU 13/02798)进行博士学位。

引用

p . Malakar诉Saxena, t·乔治et al .,“绩效评估和优化的嵌套高分辨率气候模拟,”2012年Euro-Par并行处理c . Kaklamanis, t . Papatheodorou, p . g . Spirakis Eds。施普林格,页805 - 817年,柏林,德国,2012年。视图:谷歌学术搜索
z Christidis”,性能和可伸缩性WRF三种不同的并行超级计算机,”高性能计算,Eds j . m . Kunkel和t·路德维希。,pp。514–528, Springer, Berlin, Germany, 2015.视图:谷歌学术搜索
p•约翰森m . Straka m·夏皮罗a . Norton和t . Galarneau”别的WRF模拟飓风桑迪:部署搭建的克雷XE6蓝色水域,“学报2013 SC international会议为高性能计算、网络、存储和分析(SC)美国丹佛市,页1 - 7,2013年11月。视图:出版商的网站|谷歌学术搜索
j·g·沙恩,t . Liu旧事et al .,“天气研究和预测(WRF)模型的性能和配置先进的多核HPC集群,分析”《十LCI高性能集群计算国际会议美国博尔德有限公司,2009年版。视图:谷歌学术搜索
c·克鲁斯d . Del Vento r . Montuoro m·卢宾和美国麦克米兰,“评价WRF扩展到几千核心黄石超级计算机,”诉讼的范围研究财团2013年计算美国博尔德有限公司,2013年8月。视图:谷歌学术搜索
j . Lagraviere p h·哈,,x Cai UPC的功率效率,评价OpenMP和MPI。能源效率的挑战是pga准备好了吗?与NAS基准研究,“北极挪威大学Tromsø,挪威,2015年,科技代表。视图:谷歌学术搜索
a . Igumenov和j .Žilinskas电能意识到与MPI并行计算和CUDA”学报》2013年第八届国际会议上P2P平行,云计算和互联网计算网格,(3 pgcic)IEEE,页531 - 536年,贡比涅,法国,2013年10月。视图:出版商的网站|谷歌学术搜索
a . Igumenov和j .Žilinskas”与并行计算功耗优化”,JaunųjųMokslininkųDarbai4卷,第122 - 119页,2011年。视图:谷歌学术搜索
m Aqib和f f Fouz”并行编程语言的影响在HPC应用程序的性能和能耗,”国际期刊《先进的计算机科学和应用程序,7卷,不。2、2016。视图:出版商的网站|谷歌学术搜索
h·莫里森和j·a·米尔”参数化的云粒子物理学的基础上预测大部分冰粒子properties-part我:方案描述和理想化的测试,”大气科学杂志》上,卷72,不。1,第311 - 287页,2015。视图:出版商的网站|谷歌学术搜索
e . j . Mlawer s . j . Taubman p·d·布朗,m . j . Iacono s a·克劳夫,“对不均匀大气辐射传输:RRTM长波,验证correlated-k模型”地球物理学研究杂志:atm,卷102,不。D14, 16663 - 16682年,1997页。视图:出版商的网站|谷歌学术搜索
G.-Y。妞妞,Z.-L。杨,k·e·米切尔et al .,“社区诺亚地表模型multiparameterization选项(Noah-MP): 1模式描述与局部范围的测量和评价,“地球物理学研究杂志:atm,卷116,不。D12, 2011年。视图:出版商的网站|谷歌学术搜索
诉Kumar a格兰马草,a·古普塔和g . Karypis介绍了并行计算:算法设计与分析本杰明·卡明斯,卷。400年,旧金山,CA,美国,1994年。

科学的规划