科学规划

PDF
科学规划/2009/文章
特刊

基于Cell宽带引擎的高性能计算

查看此特刊

开放存取

17 |物品ID 710321 | https://doi.org/10.3233/SPR-2009-0265

B.C.维斯瓦斯、阿披舍克·加迪亚、迈纳克·乔杜里, "在Cell宽带引擎上实现并行矩阵分解库",科学规划, 卷。17, 物品ID710321, 27 , 2009. https://doi.org/10.3233/SPR-2009-0265

在Cell宽带引擎上实现并行矩阵分解库

摘要

矩阵分解(或通常称为分解)是从线性求解器到数据聚类和机器学习等大量应用中经常使用的核心。本文的主要贡献是深入研究了四种流行的矩阵分解技术,即LU、Cholesky、QR和SVD在STI蜂窝宽带引擎上的性能。本文探讨了与Cell-chip多处理器相关的算法和实现挑战,并解释了我们如何在一系列矩阵大小的大多数因式分解技术上实现近似线性加速。对于每个因式分解例程,我们确定瓶颈内核,并解释我们如何尝试解决瓶颈以及我们成功的程度。我们的实现,对于我们使用的最大数据集,在两节点3.2 GHz蜂窝BladeCenter上运行(总共运行16个SPE),对于密集LU、密集Cholesky、稀疏Cholesky、QR和SVD,平均分别提供203.9、284.6、81.5、243.9和54.0千兆次的吞吐量。这些实现在16个SPE上运行时,对于密集LU、密集Cholesky、稀疏Cholesky、QR和SVD,分别实现了11.2、12.8、10.6、13.0和6.2的加速比。我们将讨论两节点非均匀内存访问(NUMA)单元刀片群集上因式分解例程的并行化所导致的有趣交互。

版权所有©2009 Hindawi Publishing Corporation。这是一篇根据知识共享署名许可协议,允许在任何媒介中不受限制地使用、分发和复制,前提是原作被正确引用。


更多相关文章

PDF 下载引文 引用
订购印刷品命令
意见349
下载496
引证

年度文章奖:2020年杰出研究贡献,由我们的主编评选。阅读获奖文章.