基于龙格-库塔时间离散化方案的OpenFOAM密度求解器的可扩展性

抽象的

可压缩密度的溶剂广泛用于OpenFoam，这些溶剂的平行可扩展性对于大规模模拟至关重要。在本文中，我们报告了我们对OpenFoam本地rhocentralfoam求解器的可扩展性的经验，并通过对其进行少量修改，显示了可以提高求解器的可扩展性的程度。主要的修改是用三阶准确，四级跑步-Kutta或RK4方案替换罗克罗斯射频中的一阶精确的欧拉方案，用于时间集成。我们使用的缩放测试是Onera M6翼上的横向流量。这是航空航天和其他工程应用中的可压缩流求解器的常见验证测试。数值实验表明，我们改进的求解器，称为rhocentralRK4FOAM，用于相同的空间离散化，在罗克罗斯射频求解器上实现了123.2％的可扩展性的提高。正如预期的那样，Runge-Kutta方案的更好时间解决方案使得更适合于泰勒 - 绿色涡旋衰减等不稳定问题，其中新的求解器与罗克罗斯射频相比，新的求解器的总时间溶液减少50％以相同的数值准确度到最终解决方案。最后，可以将改进的可扩展性追溯到通过将RK4方案代替欧拉方案来改进计算到通过代替欧拉方案而获得的通信比率。所有数值测试都在Argonne National实验室在Cray XC40并联系统上进行。

1.介绍

随着硬件和软件支持高性能计算，最终导致的exascale在不久的将来，计算能力的不断发展，复杂流动的高保真仿真来是遥不可及，直到十年前，现在成为在超级计算机的基础设施是可行的。直接数值模拟（DNS）和大涡模拟（LES）是天然的候选高保真仿真，因为它们能够捕获流的所有相关的空间和时间特征尺度。的确，在计算流体动力学（CFD）的社区，结合高阶时间积分和空间离散化方法DNS / LES码是优选的，以确保在流动物理数值扩散和分散的影响最小共识。While these numerical constraints have been traditionally integrated in the simulation of academic flows on simple geometries, they are also being considered for industrial and more complex applications where accurate prediction of local or instantaneous flow properties are required (e.g., in combustion, multiphase and reacting flows).

在此上下文中，OpenFoam包[1是一种流行的开源软件，最初是为计算流体动力学而设计的。它的操作由求解器、字典和域操作工具组成。它为不同的偏微分方程(PDEs)提供了几种不同类型的求解器，并为定制的PDEs提供了实现第三方求解器的框架。OpenFOAM标准发行版中集成的求解器是健壮的，但它们通常在空间和时间上都缺乏精度，最多只有二阶精度。因此，CFD领域对在OpenFOAM中开发和实施高阶方法进行瞬态流动计算的兴趣日益浓厚。这些包括，例如，不可压缩流的DNS/LES的数值算法[2，可压缩流[3.-5.和反应流动[6.］.

除了高阶数值格式，并行效率和可伸缩性是用于高性能计算复杂流动的过程至关重要的。在OpenFOAM并行通过MPI的装置（消息传递接口），尽管不可压缩OpenFOAM求解器的前面的可扩展性分析显示有限的加速比[实施7.那8.］.OpenFOAM中伸缩性性能的改进一直是最近许多研究关注的问题。为了优化性能，首先进行性能分析，找出仿真过程中的瓶颈是至关重要的。Culpo [7.发现，通信是OpenFoam中求解器可扩展性的瓶颈，用于大规模模拟。Duran等人。[9.[研究不同的问题尺寸，研究了ICOFOAM求解器的加速，并显示有一个宽大的可扩展性的空间。林等。[10openFoam中的多相流动求解器提出了一种通信优化方法。Ojha等人。[11[将优化应用于几何代数多重线性线性求解器，并显示出改进的缩放性能。

在这项工作中，我们在可压缩流求解航空应用感兴趣。在OpenFOAM的标准分布，rhoCentralFoam是瞬时的唯一基于密度的解算器，可压缩流[12］.它基于KT（Kurganov和Tadmor [13]）和KNP（Kurganov，Noelle和Petrova [14]）方法。有迹象表明，试图以提高基于密度的求解器的数值算法的研究很少。Heyns等。[15]扩展了rhoCentralFoam解决方案，通过实施替代离散方案，以提高其稳定性和效率。最近，莫德斯蒂和皮罗佐利[4.]制定了一个名为Rhoenergyfoam的解算器，依托Liou和Steffen Jr的AUSM计划。[16］.通过使用低存储的三阶四阶龙格-库塔算法来推进时间推进，与rhoCentralFoam相比，他们的求解器在稳定和非稳定湍流中显示了更小的数值扩散和更好的守恒特性。

在这项工作中，我们展示了一个名为rhocentralrk4foam的新的OpenFoam Solver，它是通过用三阶四阶段的四阶段跑步计划的一阶时间进步方案衍生自Rhocentralfoam。开发该求解器的目的是双重：（i）以提高罗克罗斯射频的缩放性能，特别是在大规模模拟中;（ii）使用高阶跑步-Kutta方案提高时间准确性和整体时间 - 解决方案[17］.而不是尝试优化嵌入在OpenFoam中的并行性，而是已经表现出很难实现（参见，例如，Culpo [7.]），我们提出的方法是选择一个不同的数值积分方案，它显示出改进的CPU和可扩展性的表演与标准分布的最小修改。的情况下被配置为解决通过rhoCentralFoam和rhoCentralRK4Foam求解器的偏微分方程。我们调查rhoCentralFoam和rhoCentralRK4Foam对克雷XC40系统西塔[并行性能18］.这两个求解器在两种情况下基准测试，在Onera M6翼上进行了缺陷跨跨越流，并在正面的步骤上进行超声波流动，以验证新的求解器的冲击捕获能力。TAU（调音和分析实用程序）性能系统分析仪[19]用来收集两个求解器的热点配置文件。基准问题的强和弱扩展测试在Theta上进行，最多可达4,096个核。对于时间-解的分析，我们考虑了泰勒-格林涡旋问题，并确定了两个解所需的时间，以获得与解析解相同的精度(相同的数值误差)的解。本研究还旨在为用户提供性能和可伸缩性参数选择的处理方法。

本文的其余部分安排如下：第2，提出了两个求解器的数值方法以及硬件和分析工具的描述。基准测试用例和可扩展性分析的结果在一节中介绍3.．在第4节，我们展示了解决时间分析的结果。第5节展示了结论。

2.方法

2．1.控制方程与空间整合

解算器rhoCentralFoam是在OpenFOAM的基线分布最广泛使用的可压缩流解算器。它依赖于对流通量通过KT和KNP方案的中央TVD方案（总变差递减）的全部离散化。rhoCentralFoam解决了在参考欧拉帧理事流体方程三个保守的变量，特别是密度（ρ），动量密度（），和总能量密度（）：

在上述等式中，那在哪里是内部能量和T.温度;P.是热力学的压力，与理想气体的状态方程有关的温度和密度：那在哪里R.气体是恒定的;和粘性应力张量是在牛顿流体动力粘性假设下吗μ.尽管一世是单位张量。最后，是热通量矢量在哪里λ.是热导率。

控制方程是使用方程式的有限体积方法离散化（1） - （3.）通过体积的网格单元表示的控制体积集成V.．使用高斯定理，所有助熔剂都可以转化为细胞边界的表面积分，这通过总结所有面的助焊剂贡献来估计F细胞。保守变量的状态向量的体积平均值是由

积分形式的方程(1） - （3.）可以表示为在哪里表示返回等式右侧的操作员（1） - （3.)包含所有无粘和粘性熔剂。这些通量必须使用体积平均状态变量进行数值估计相邻的细胞。特别地，获得了对流助熔剂作为下标F识别细胞体积的面，而术语那和代表状态向量，速度，表面积和体积通量在两个相邻单元之间的接口，分别。产品通过应用KT方案获得：其中+和−上标分别表示从所有者单元和邻居单元插值的表面值，而是一种人工扩散因素（见[12]详情）。在rhocentralRK4FOAM的实施中，首先明确计算欧拉芯片，如算法所示1在哪里“phi”代表那“phiup”代表和那和“phiep”代表．

	结果:显式构造欧拉通量
	尽管运行．环形（）做
	节省数量在以前的时间步骤如果rk4.然后
	/以下通过应用Kurganov和Tadmor（KT）方案首先构建欧拉芯片。/
	surfaceScalarField phi
	(“phi,”
	( ）））;
	surfaceVectorField phiUp
	(“phiUp,”
	(
	+ ）;
	surfaceScalarField phiEp
	(“phiEp,”
	(
	+
	+ ）））;
	/然后，应用散度定理(高斯定律)将空间积分与曲面积分联系起来。
	/
	volScalarField phiSum(“phiSum”, ）;
	volVectorField phiUpSum2 (“phiUpSum2,” ）;
	volVectorField phiUpSum3 (“phiUpSum3,” ）;
	别的
	结尾
	结尾

2.2。时间整合

根据式(6.）和（7.），式（5.）可以在数量之间进行数量整合和使用多级的Runge-Kutta格式。表示由级的数目，此产率在哪里和．在拟议的Solver RhocentralRK4FOAM中，我们使用四阶段漫游 - Kutta方案，该方案是通过设置获得的和．OpenFOAM的实现在算法中有报告2，C ++代码公开可用https://github.com/siboli666/rhocentralrk4foam.．请注意，在rhocentralfoam中实现的原始欧拉方案可以简单地从等式获得（8.）通过设置和．

	结果：计算这三个变量保守
	为了（int ）{
	/以下计算三个保守变量，具体地密度（ρ），动量密度（）和总能量密度（） /
	;
	;
	;
	}

2.3。硬件和分析工具

在Argonne National实验室的超级计算机平台“Theta”上运行了模拟。Theta是一款带有第二代英特尔Xeon Phi（骑士着陆）处理器的CRAY XC40系统，CRAY AIRIES专有互连。该系统包括4,392个计算节点。每个计算节点都是单个Xeon Phi芯片，具有64个核心，16 GB多通道DRAM（MCDRAM）和192 GB DDR4内存。为避免使用OpenFoam的任何可能的内存问题，使用每个计算节点的32个核心（其最大容量的一半）运行模拟。

我们通过分析它们在相同网格上的加速和通过监测通信和计算中的CPU时间的部分，评估两个索盘，罗克罗斯射频FOAM和rhocentrk4Foam的可扩展性和平行效率。使用适用于机器的性能工具进行这些测量。在强大的缩放测试中，在完成初始设置阶段后，将开始计数，在我们的情况下，在20个时间步骤后，持续75个时间步长。在θ上执行强大的缩放测试。为了测量通信所花费的时间，我们依靠TAU绩效系统[19］.TAU性能工具套件是俄勒冈大学开发的开源软件，提供了多种性能。在Theta上，OpenFOAM makefile被修改为使用TAU包装器函数进行编译。TAU可以自动解析源代码并插入检测调用来收集概要和/或跟踪数据，这使我们能够测量在目标75个时间步骤中通信花费的总时间，并为两个求解器识别热点。

3.可扩展性分析的结果

3．1.测试用例描述

为了进行可扩展性分析，我们在两个不同的基准案例中测试了新的求解器rhoCentralRK4Foam:(i)三维ONERA M6跨音速机翼;(ii)二维超音速前向台阶。这两种情况都是稳定流动;它们首先用于验证新求解器的冲击捕获能力，然后在下一节中用于详细的求解器并行性能分析。对于这两种情况，我们使用OpenFOAM中的decomposePar工具来分解生成的网格。苏格兰分解法[20.将网格划分为子域。下面将简要介绍这两个案例。

3.1.1。横梁M6翼

在ONERA M6机翼情况下，平均气动弦长为那Semispan是那和计算域延伸到．攻角是那并且自由流Mach编号是．原始实验中的雷诺数是那所以流动肯定是狂暴的;然而，为了捕获沿机翼的压力分布和激波位置，无粘计算可以安全地使用，而且确实是习惯的(见，例如，Modesti和Pirozzoli， [4.]）。几何形状使用六面体元素啮合，产生三个具有不同大小的网格：Grid1具有100万个细胞（如图所示1（a）），GRID2具有500万个细胞和GRID3拥有43个亿个细胞。流提交的分析在GRID1（这是足够的网格收敛）中进行，而GRID2和网格3被用于标度分析。数字1（b）显示通过使用rhocentralfoam和rhocentralrk4foam计算的翼面上的压力分布。在图中1（c），将由两个溶剂计算的内部机翼部分（20％跨度）的压力系数与实验数据进行比较（蓝圆符号[21]）。我们可以观察到新开发的求解器捕获主流功能。它在翼面上产生的压力分布类似于用rhocentralfoam获得的翼表面，并精确地捕获震动位置。

(一)

(b)

(c)

3.1.2。超音速面对面的步骤

在面向前的步骤无粘性流的计算被用来进一步验证rhoCentralRK4Foam求解器的震动捕捉能力。通过伍德沃德和Colella [使用的流配置22在这项工作中被考虑。超音速Mach数量是．的电网坐标方向中的细胞。由图中所示的密度分布表示的冲击模式2确认罗克朗朗克4FOAM能够为超音速流动捕获强烈冲击。

3.2。强大的缩放测试

在强大的缩放测试中，我们在三种不同网格尺寸的Onera M6翼上测试了罗克拉球流量和罗克雷克4Foam求解器。在这里，我们通过显示速度的加速以及rhocentralrk4foam的加速度来介绍可扩展性结果，对于表格中的grid1最高可达1024级1，GRID2高达2048个等级表2和GRID3高达4096个等级表3.．注意，缩放被呈现为通过用128名行列获得的CPU时间，这是适合最大网格内存要求行列的最小数目归一化的CPU时间。For example, for 4096 ranks, the ideal speedup would then be 4096/128 = 32. It can be observed that rhoCentralRK4Foam outperforms rhoCentralFoam in speedup in each case. For the same grid size, the speedup increment percentage increases as the number of ranks increases. To better illustrate and analyze the scaling performance improvement, the results reported in the three tables are summarized in Figure3.．首先，我们可以观察到，对于Grid3，当排名的数量从1024增加到2048，或者从2048增加到4096时，加速会有显著的增加。rhoCentralRK4Foam的加速从1024级增加到2048级增加了1.6倍，Grid3的加速从2048级增加到4096级增加了1.7倍。原因是，rhoCentralFoam在1024级之后的扩展非常缓慢，最终达到一个平台，这表明求解器达到了最大的理论加速。估计序列部分确实具有指导意义FCPU时间从两个求解器的加速度使用Amdahl的法律[23]：在哪里和是求解器的并行和串行（即，不行化）部分所花费的CPU时间。从以前的等式，我们有在哪里是获得的最大理论加速度．通过测量那我们可以直接评估F从公式（10）为特色的渐进加速的情况：对于rhoCentralFoam（GRID3），这个收益率．我们也可以估计F但最好的拟合在等式中的Amdahl的公式（9.）对于rhocentralrk4foam，它的产量．当然，这些结果可能受到其他重要因素的影响，例如在AMDAHL的模型中没有考虑的机器的延迟和带宽。我们还观察到，随着通过计算的通信工作量减少的情况下，由于问题尺寸增加，可扩展性变得更好。例如，对于2048年，Grid2（500万个细胞）的RhocentralRK4Foam的加速为6.005，而Grid3（4300万个细胞）变为9.115。此外，我们还可以看出，随着网格尺寸的增加，最大加速增量百分比也增加，其分别对应于Grid1，Grid2和Grid3的16％，32％和123％。作为最终的练习，可以应用TAU绩效工具，以将Grid3的代码与2048级进行分析。数字4.还显示了rhoCentralFoam和rhoCentralRK4Foam在Grid3上从128到4096排名的通信和计算时间百分比。我们可以观察到，rhoCentralRK4Foam求解器通信花费的时间更少，这导致了在以前的测试中发现的并行性能的改善。此外，在与通信相关的MPI子例程中(即，在模拟中每一个时间步骤中调用)，MPI_waitall()是使用最多的一个(参见图)5.），符合以前的分析（例如，参见Axtmann和Rist [24]）。


#Ranks	rhocentralfoam.	rhocentralrk4foam.	％增量

128	1	1	0.
256	1.341	1.367	1.939
512.	1.594	1.814	13.802
1024.	2.364	2.747	16.201


#Ranks	rhocentralfoam.	rhocentralrk4foam.	％增量

128	1	1	0.
256	1.574.	1.601	1.715
512.	2.308	2.423	4.983
1024.	2.916	3.575	22.599
2048.	4.541	6.005	32.240


#Ranks	rhocentralfoam.	rhocentralrk4foam.	％增量

128	1	1	0.
256	1.871	1.896.	1.336
512.	3.275.	3.527	7.695
1024.	5.098	5.809	13.947
2048.	6.341	9.115	43.747
4096	6.895.	15.39	123.205.

(一)

(b)

3.3。弱缩放测试

为了进一步分析RhocentralRK4Foam求解器的并行可扩展性，我们基于Onera M6机翼壳和前部的步骤壳体进行了弱的缩放分析。网格尺寸范围为来在Onera M6翼壳中的细胞来前方步骤案例中的细胞。弱缩放测试用例的配置与先前测试用例中的配置相同。排名的数量分别为16到1024和64至4096。每个等级的网格点数保持不变和对于两种情况，确保计算工作负载不受通信影响多大影响。表示由τ.相对的CPU时间是通过对16和64位的值进行归一化得到的: 那16个等级和那64名行列。相对CPU时间记录表4.和5.．两个溶剂的比较也在图中绘制6.和7.．弱扩展测试告诉我们，当问题大小与进程计数成比例增加时，两个求解器的扩展情况如何。从表4.和5.和数字6.和7.，可以观察到，对于较低的MPI任务（16至64），两个求解器的两个求解器相当良好。但是，对于更高的MPI任务（128至1024），罗克朗朗克4Foam求解器尺度更好。值得注意的是，随着秩数从512增加到1024，我们可以观察到两个求解器之间的可区分相对时间差。Tau的分析结果表明，在罗克罗斯罗姆姆的rhocentralrk4foam的测试用例中，罗克朗伦车4Foam在计算时花费大约40％的时间。只有大约20％的时间花费了计算。至于前进的步骤案例，我们能够以较大的核心计数（最多4096个核心）进行测试，并且可以确认罗克朗朗克4FOAM求解器的表现比罗克罗斯射频求解器更好。实际上，它更好地缩放了较大的电网尺寸，罗克朗克4Foam求解器的相对时间在1.063中维持，4096个核心（相对时间为1.148，在Onera M6机翼外壳中有1024个核心）。通常，由于通信隐藏，RhocentralRK4Foam求解器优于大规模等级以大规模等级来表达罗克罗斯射频求解器。


#Ranks	rhocentralfoam.	rhocentralrk4foam.

16	1	1
32	1.085	1.062
64	1.106	1.105
128	1.148	1.057
256	1.191	1.100
512.	1.213	1.158
1024.	1.255	1.148


#Ranks	rhocentralfoam.	rhocentralrk4foam.

64	1	1
128	1.034	1.002
256	1.085	1.018
512.	1.153	1.031
1024.	1.186	1.041
2048.	1.212	1.067
4096	1.203	1.063

4.解决时间分析的结果

缩放分析是评估其对多内核代码的并行性能的重要工作;然而，它不提供深入的数值算法的时间精度也没有进入时间 - 溶液演变方程（方程的离散化系统需要（1） - （3.））达到可接受的数值误差内的最终状态。例如，在对M6跨音速翼进行缩放的研究中，迭代次数固定为两个解算器rhoCentralFoam和rhoCentralRK4Foam和在非粘性极限进行计算，使得在rhoCentralFoam用于整合粘性焊剂的隐式求解器是不活跃．在这种情况下，基本上比较这两个解算器量在时间龙格 - 库塔算法相比的一阶（欧拉）和四阶前进。因此，并不奇怪，的CPU时间rhoCentralRK4Foam大于rhoCentralFoam大约四倍（对于相同数量的迭代的），因为它需要方程的右手侧的四个评价（5.)。然而，为了对求解时间进行合理的评估，我们需要在相同的物理时间内比较两个求解器，在此时间内，相对于精确解的误差是可比较的。由于求解器的时间精度不同，时间步长也不同，达到最终状态所需的迭代次数也不同。

4.1。测试案例描述

对于解决时间的时间分析，我们考虑泰勒 - 绿色（TG）Vortex的数值模拟，CFD中的基准问题[25用于验证非定常流求解器[26那27]需要时间准确的集成方案作为罗克雷克4FOAM实施的跑步-Kutta方案。目前仿真中没有应用湍流模型。TG Vortex承认分析时间依赖性解决方案，其允许对给定数量的兴趣的算法的数值误差进行精确定义。流程在方域中初始化如下: 在哪里你和是速度分量X和y方向，是波号，和那那和是任意恒定速度，密度和压力。由等式定义的初始值问题的分析解决方案（11） - （14）是这表示由于粘性耗散导致的速度衰减。作为一种感兴趣的数量，我们选择监控速度配置文件你在所选位置和计算盒中的整体动能，可以从方程式中容易地获得（16） - （18）作为

4．2．比较Time-to-Solution

对于罗克罗斯射频和罗克罗斯克朗4FOAM求解器的分析，我们认为固定箱尺寸和和雷诺数的两个值，那测试粘度的效果。计算完成了点均匀网格。模拟运行到为了和为了那这对应于相同的非跨度时间和．此时，动能从初始值下降至10％，作为说明性示例;数字8.的速度等高线．数字9.呈现计算的速度配置文件在盒子的中间，．rhoc代表罗舍服务求解器，罗申克4代表rhocentralrk4foam solver。可以观察到罗克朗克克4Foam与分析型材显示出优秀的一致性（进一步减少了时间步骤确实提供任何进一步的收敛为网格使用这里）。为了实现与rhoCentralFoam精度的相同的水平，时间步长必须由5至一个因子被减小相比rhoCentralRK4Foam。被观察到的进化同样的行为如图所示10．

(一)

(b)

来计算解的时间τ.，我们首先计算CPU时间两个求解器的每个时间步长、每个网格点、每个核心。我们使用了安装在阿贡国家实验室Theta和Bebop平台上的Intel Xeon E5-2695v4处理器，并在表中报告了测试结果6.．虽然取决于所使用的特定的处理器，但在比上没有，因此是两个求解器的相对性能的良好指示。在当前情况下，该比率始终如一地发现所有雷诺数的3;我们达到了较高的雷诺额外测试确认这一点（见表6.)．表示由物理模拟的最后时间，由迭代次数和次数两个求解器的网格点数、求解时间可得为并报告表7.．它的结论是，实现精确的相同的水平，比小于1.5到1.6倍．此外，正如我们在尺度分析讨论，rhoCentralRK4Foam可以实现高达使用4096级时，在罗克罗斯射频上的可扩展性提高。因此，对于利用数千个平行核心的大规模，时间准确模拟，预计罗克罗斯rk4foam的时间溶液的减少甚至更大。




1.230E.−06年年代	3.590E.−06年年代	2.919
1.120E.−06年年代	3.630E.−06年年代	3.241
1.189E.−06年年代	3.626E.−06年年代	3.046
1.187E.−06年年代	3.603E.−06年年代	3.035.
1.191E.−06年年代	3.622E.−06年年代	3.044.





848秒	532年代	1.59
826秒	5.3.9. s	1.53

结论

在本研究中，我们提出了一个新的求解器，称为rhoCentralRK4Foam，用于在CFD软件包OpenFOAM中集成Navier-Stokes方程。其新颖之处在于将原生解算器rhoCentralFoam的一阶时间积分格式替换为三阶龙格-库塔格式，这种格式更适合于时间相关流的模拟。我们首先对两个求解器的可扩展性进行了分析，结果表明，与rhoCentralFoam相比，rhoCentralRK4Foam在强缩放条件下可以实现实质性的改进(高达120%)。我们还观察到，随着问题规模的增长，可伸缩性也会变得更好。因此，即使OpenFOAM的可伸缩性通常很差，或者充其量还算不错，新的解决方案至少可以缓解这一缺陷。然后，我们在泰勒-格林涡旋衰减的情况下分析了两个求解器的性能，并比较了求解所需的时间，这给出了实现相同精度水平的求解所需的工作量(即相同的数值误差)的指示。对于这里考虑的问题，与rhoCentralFoam相比，在使用rhoCentralRK4Foam时，我们获得了大约1.5倍的求解时间，这是由于使用了更大的时间步骤来获得具有相同数值精度的最终解。由于rhoCentralRK4Foam有更好的加速，在使用数千或更多内核的大规模模拟中，这个因素最终会更大。所提出的解算器对于像直接或大涡模拟那样需要时间精确积分的可压缩流动的模拟可能是一个有用的替代方案。此外，OpenFOAM中的实现可以很容易地推广到龙格-库塔族的不同方案，只需要最少的代码修改。

数据可用性

用于支持本研究结果的数据可根据要求可从相应的作者获得。

的利益冲突

作者声明他们没有利益冲突。

致谢

这项工作得到了阿贡国家实验室#ANL 4J-30361-0030A的资助，题为“复杂流动的多尺度建模”。在Argonne国家实验室的领导力计算设施中，使用Director Discretionary allocation“OF_SCALING”进行了数值模拟。

参考文献

H. G. Glower，G. Tabor，H. Jasak和C. Fureby，使用面向对象技术的计算连续内力学的姿态方法，“在物理计算机，卷。12，不。6，第620-631，1998。查看在：出版商的网站|谷歌学术
五Vuorinen，J.-P.Keskinen，C. Duwig，和B. J. Boersma，“关于用于使用OpenFOAM依赖于时间的流动低耗散龙格 - 库塔投影方法的实施，”电脑与流体，卷。93，pp。153-163,2014。查看在：出版商的网站|谷歌学术
C. Shen，F. Sun和X. Xia，“在OpenFoam框架内的所有速度的基于密度的求解器的实施”计算机物理通信，卷。185年，没有。10，第2730年至2741年，2014。查看在：出版商的网站|谷歌学术
D. Modesti和S. Pirozzoli，“一个低耗散的求解器，用于非结构化网格上的湍流可压缩流，具有OpenFoam实施，”电脑与流体， vol. 152, pp. 14-23, 2017。查看在：出版商的网站|谷歌学术
S. Li和R. Paoli，“使用可压缩OpenFoam Solver的飞机翼建模冰凸起，”国际航空航天工程杂志，卷。2019年，第4864927号，11页，2019年。查看在：出版商的网站|谷歌学术
Q.杨，赵P.和H.戈“ReactingFoam-SCI：一个开源的CFD平台，为流动模拟反应，”电脑与流体，卷。190，pp。114-127，2019。查看在：出版商的网站|谷歌学术
M. Culpo，当前瓶颈在大规模平行簇上的OpenFoam可扩展性2012年，欧洲高级计算伙伴关系，比利时布鲁塞尔。
O. Rivera和K. Furlinger，“OpenFoam的平行方面具有大型涡旋模拟”，在2011年IEEE高性能计算与通信会议的诉讼程序，pp.389-396，加拿大班夫，2011年9月。查看在：出版商的网站|谷歌学术
A.杜兰，M. S.切莱比，S. Piskin和M. Tuncel的，“用于生物医学流动模拟OpenFOAM的可扩展性，”超级计算杂志，第71卷，第71期3, pp. 938-951, 2015。查看在：出版商的网站|谷歌学术
Z. Lin，W. Yang，H. Zhou等，“OpenFoam文库中的多相流动求解器的”通信优化“，水，卷。10，不。10，pp。1461-1529,2018。查看在：出版商的网站|谷歌学术
R. Ojha，P. Pawar，S.Gupta，M.Klemm和M. Nambiar，“Intel Xeon Phi™处理器集群中的OpenFoam性能优化”2017年IEEE第24届高性能计算研讨会（HIPCW）的国际会议的诉讼程序，斋浦尔，印度，2017年12月合约。查看在：出版商的网站|谷歌学术
C. J.格林希尔茨，H. G.韦勒，L.加斯帕里尼和J. M.里斯，“半离散的执行，非交错在同一位置的，多面体的，有限体积框架中央方案中，用于高速粘性流，”国际流体数值方法杂志，第63卷，第1-21页，2010。查看在：出版商的网站|谷歌学术
A. Kurganov和E. Tadmor，“非线性保护法和对流扩散方程的新高分辨率中心计划”，计算物理学杂志，卷。160，否。1，pp。241-282,2000。查看在：出版商的网站|谷歌学术
A. Kurganov, S. Noelle，和G. Petrova，“双曲守恒定律和Hamilton-Jacobi方程的半离散中心迎风格式”，暹罗学报科学计算，卷。23，不。3，PP。707-740,2006。查看在：出版商的网站|谷歌学术
J. A. Heyns，O. F.Oxtoby和A. Steenkamp，“在OpenFoam中建模高速粘性流”第9届OpenFoam研讨会的诉讼程序，萨格勒布，克罗地亚，2014年6月。查看在：谷歌学术
M. S. Liou和C. J. Steffen Jr.，“新的助焊剂分裂计划”，计算物理学杂志，第107卷，第2期23，第39页，1993。查看在：出版商的网站|谷歌学术
D. Drikakis，M.哈恩，A Mosedale和B.索恩伯，“利用高分辨率和高阶方法大涡模拟”皇家社会的哲学交易A：数学，物理和工程科学，第367卷，第2期。1899，第2985-2997页，2019。查看在：谷歌学术
K.伤害，T. Leggett，B. Allen等，“Theta：XC40 Knl系统的快速安装和接受，”并发性和计算：实践与经验，卷。30，不。1，p。2019年11日。查看在：出版商的网站|谷歌学术
S. S. Shende和A. D. Malony，“Tau并行绩效系统”，国际高性能计算应用杂志，卷。20，没有。2，pp。287-311,2006。查看在：出版商的网站|谷歌学术
C.士和F.佩莱格里尼，“PT-苏格兰：用于高效并行图排序工具，”并行计算第34卷第3期6-8，页318-331,2008。查看在：出版商的网站|谷歌学术
V. Schmitt和F. Charpin，“在跨音机Mach数字的Onera-M6-Wing上的压力分布”计算机程序评估的实验数据库和流体动力学面板工作组04的报告，AGARD，塞纳河畔讷伊，法国，1979年。查看在：谷歌学术
P. Woodward和P. Colella，“具有强烈冲击的二维流体流量的数值模拟”计算物理学杂志，卷。54，没有。1，第115-173，1984。查看在：出版商的网站|谷歌学术
G. M. Amdahl，“单处理器方法实现大规模计算能力的有效性”1967年会议记录，弹簧联合计算机会议on-AFIPS ' 67 (spring)，卷。30，第483-485页，大西洋，NJ，1967年4月。查看在：出版商的网站|谷歌学术
G. Axtmann和U.Rist，“OpenFoam的可扩展性与大型莱迪模拟和DNS高性能Sytems，”科学与工程高性能计算，W. E. Nagel，Ed。，PP。413-425，Springer International Publishing，柏林，德国，2016年。查看在：出版商的网站|谷歌学术
A. Shah，L. Yuan和S. Islam，“曲线网上非稳态Navier-Stokes方程的数值解”，“计算机与数学与应用，第63卷，第2期11, pp. 1548-1556, 2012。查看在：出版商的网站|谷歌学术
J. Kim和P.莫因，“分数步骤的方法来不可压缩Navier-Stokes方程中的应用，”计算物理学杂志，卷。59，没有。2，第308-323，1985。查看在：出版商的网站|谷歌学术
A. Quarteroni，F. Saleri，和A. Veneziani，“因式分解方法Navier-Stokes方程的数值逼近，”应用力学与工程中的计算机方法第188卷第1期1-3，页505-526,2000。查看在：出版商的网站|谷歌学术

科学规划

抽象的

1.介绍

2.方法

2．1.控制方程与空间整合

2.2。时间整合

2.3。硬件和分析工具

3.可扩展性分析的结果

3．1.测试用例描述

3.1.1。横梁M6翼

3.1.2。超音速面对面的步骤

3.2。强大的缩放测试

3.3。弱缩放测试

4.解决时间分析的结果

4.1。测试案例描述

4．2．比较Time-to-Solution

结论

数据可用性

的利益冲突

致谢

参考文献

版权

更多相关文章

相关文章