在Cell宽带引擎上实现并行矩阵分解库

摘要

矩阵分解（或通常称为分解）是从线性求解器到数据聚类和机器学习等大量应用中经常使用的核心。本文的主要贡献是深入研究了四种流行的矩阵分解技术，即LU、Cholesky、QR和SVD在STI蜂窝宽带引擎上的性能。本文探讨了与Cell-chip多处理器相关的算法和实现挑战，并解释了我们如何在一系列矩阵大小的大多数因式分解技术上实现近似线性加速。对于每个因式分解例程，我们确定瓶颈内核，并解释我们如何尝试解决瓶颈以及我们成功的程度。我们的实现，对于我们使用的最大数据集，在两节点3.2 GHz蜂窝BladeCenter上运行（总共运行16个SPE），对于密集LU、密集Cholesky、稀疏Cholesky、QR和SVD，平均分别提供203.9、284.6、81.5、243.9和54.0千兆次的吞吐量。这些实现在16个SPE上运行时，对于密集LU、密集Cholesky、稀疏Cholesky、QR和SVD，分别实现了11.2、12.8、10.6、13.0和6.2的加速比。我们将讨论两节点非均匀内存访问（NUMA）单元刀片群集上因式分解例程的并行化所导致的有趣交互。

科学规划

基于Cell宽带引擎的高性能计算

摘要

版权

更多相关文章