TY -的A2 -吴,追逐AU -高,Yufei盟——周,实证盟——周,Bing AU -史,Lei盟——张Jiacai PY - 2017 DA - 2017/03/29 TI -处理数据倾斜在MapReduce集群通过使用分区优化SP - 1425102六世- 2017 AB -医疗行业产生了大量的数据,并分析这些近年来已经成为一个重要问题。MapReduce编程模型已经成功地用于大数据分析。然而,数据倾斜总是发生在大数据分析和严重影响效率。为了克服MapReduce的数据倾斜问题,我们已经在过去提出了一个数据处理算法称为分区Tuning-based倾斜处理(PTSH)。相比,传统的MapReduce模型中使用的单程划分策略,PTSH使用一个两阶段策略和分区键值调优方法驱散在虚拟分区和重组每个分区的数据倾斜。该算法的鲁棒性和效率进行了测试在各种模拟数据集和真实的医疗数据集。结果表明,PTSH算法能有效地处理数据倾斜在MapReduce和改善的性能相比,本机Hadoop MapReduce工作,近,位置感知和fairness-aware键分区(利恩)。我们还发现,可以显著减少所需的时间规则提取采用PTSH算法,因为它是更适合在医疗数据关联规则挖掘(ARM)。SN - 2040 - 2295 UR - https://doi.org/10.1155/2017/1425102 - 10.1155 / 2017/1425102摩根富林明医疗工程PB - Hindawi KW - ER