科学的规划

PDF
科学的规划/2013/文章
特殊的问题

超级计算2012论文选集

浏览特刊

开放获取

体积 21 |文章的ID 341672 | https://doi.org/10.3233/SPR-130371

Tanzima Zerin Islam, Kathryn Mohror, Saurabh Bagchi, Adam Moody, Bronis R. de Supinski, Rudolf Eigenmann, mccrengine:一个使用数据感知聚合和压缩的可伸缩检查点系统",科学的规划, 卷。21, 文章的ID341672, 15 页面, 2013 https://doi.org/10.3233/SPR-130371

mccrengine:一个使用数据感知聚合和压缩的可伸缩检查点系统

摘要

高性能计算(HPC)系统使用检查点重启来容忍故障。通常,应用程序将其状态存储在并行文件系统(PFS)上的检查点中。随着应用程序的扩展,检查点重新启动会由于PFS资源的争用而引起很高的开销。高开销迫使大型应用程序减少检查点频率,这意味着在发生故障时将损失更多的计算时间。我们通过一个可扩展的检查点重启系统mcreengine来缓解这个问题。McrEngine利用广泛使用的I/O库(例如HDF5和netCDF)提供的数据语义,从多个应用程序进程中收集检查点,并压缩它们。与简单的连接和压缩相比,我们的新方案将检查点的可压缩性提高了115%。我们对大规模应用程序检查点的评估表明,在没有聚合或压缩的情况下,mcrEngine将检查点开销减少了87%,重启开销减少了62%。

版权所有©2013 Hindawi出版公司。这是一篇发布在知识共享署名许可协议,允许在任何媒介上不受限制地使用、传播和复制,但必须正确引用原作。


更多相关文章

PDF 下载引用 引用
订单打印副本订单
的观点466
下载622
引用

年度文章奖:由主编评选的2020年杰出研究贡献。阅读获奖文章