开放获取
Tanzima Zerin Islam, Kathryn Mohror, Saurabh Bagchi, Adam Moody, Bronis R. de Supinski, Rudolf Eigenmann, "mccrengine:一个使用数据感知聚合和压缩的可伸缩检查点系统",科学的规划, 卷。21, 文章的ID341672, 15 页面, 2013. https://doi.org/10.3233/SPR-130371
mccrengine:一个使用数据感知聚合和压缩的可伸缩检查点系统
摘要
高性能计算(HPC)系统使用检查点重启来容忍故障。通常,应用程序将其状态存储在并行文件系统(PFS)上的检查点中。随着应用程序的扩展,检查点重新启动会由于PFS资源的争用而引起很高的开销。高开销迫使大型应用程序减少检查点频率,这意味着在发生故障时将损失更多的计算时间。我们通过一个可扩展的检查点重启系统mcreengine来缓解这个问题。McrEngine利用广泛使用的I/O库(例如HDF5和netCDF)提供的数据语义,从多个应用程序进程中收集检查点,并压缩它们。与简单的连接和压缩相比,我们的新方案将检查点的可压缩性提高了115%。我们对大规模应用程序检查点的评估表明,在没有聚合或压缩的情况下,mcrEngine将检查点开销减少了87%,重启开销减少了62%。
版权
版权所有©2013 Hindawi出版公司。这是一篇发布在知识共享署名许可协议,允许在任何媒介上不受限制地使用、传播和复制,但必须正确引用原作。