文摘
医疗行业产生了大量的数据,并分析这些近年来已经成为一个重要问题。MapReduce编程模型已经成功地用于大数据分析。然而,数据倾斜总是发生在大数据分析和严重影响效率。为了克服MapReduce的数据倾斜问题,我们已经在过去提出了一个数据处理算法称为分区Tuning-based倾斜处理(PTSH)。相比,传统的MapReduce模型中使用的单程划分策略,PTSH使用一个两阶段策略和分区键值调优方法驱散在虚拟分区和重组每个分区的数据倾斜。该算法的鲁棒性和效率进行了测试在各种模拟数据集和真实的医疗数据集。结果表明,PTSH算法能有效地处理数据倾斜在MapReduce和改善的性能相比,本机Hadoop MapReduce工作,近,位置感知和fairness-aware键分区(利恩)。我们还发现,可以显著减少所需的时间规则提取采用PTSH算法,因为它是更适合在医疗数据关联规则挖掘(ARM)。
1。介绍
医疗保健是一个高度数据密集型产业驱动的数据记录,合规和监管要求,和病人护理1]。这些不同的数据包括放射学图像、临床记录,记录人类遗传学,基因组序列和人口数据。在医疗保健中使用大数据分析提供了许多有吸引力的机会而带来重大挑战。然而,传统的数据处理和分析算法不能满足大型医疗数据和云计算的要求。幸运的是,数据管理的进步,尤其是MapReduce等并行计算模型,可以应用于过程和分析不同和大规模数据集。然而,大数据是如此庞大而复杂,他们不能在传统管理方法。例如,当使用关联规则挖掘在MapReduce (ARM),算法必须从大数据中提取必要的信息及时。MapReduce是一个强大的和具有成本效益的大规模并行分析的工具。它可以数据和计算任务分发给成千上万的廉价的物理节点,因此提供巨大的存储容量和并行计算能力(2]。MapReduce是一个编程模型,允许简单的开发可扩展的并行应用程序来处理大数据在大型集群机器(3]。MapReduce工作通常运行在两个主要阶段:地图阶段和减少的阶段。在每一个阶段、分布式任务过程数据集计算机集群上。地图任务完成时,减少任务通知新可用的数据。这种传输过程称为洗牌。所有地图任务之前必须完成洗牌的一部分减少阶段允许后者完成。我们考虑一个例子计算负载不平衡在地图任务或减少任务。我们称这样的地图倾斜或减少斜不平衡的情况,分别。倾斜会导致更长的作业执行时间和降低集群吞吐量,从而影响MapReduce的性能。Kwon et al。4]分析了倾斜的类型出现在各种各样的MapReduce应用程序,但没有提供相关的解决方案在减少分区不平衡阶段。易卜拉欣等人设计了利恩算法(5)来确定相应的分区地图基于键值的频率输出。当大量数据和密钥不均,可能会出现数据倾斜,导致不平衡减少任务的输入。徐et al。6)关注presampling分区战略来应对不平衡的分区在减少阶段。然而,在处理大量数据时,抽样高开销的策略是影响MapReduce的性能。Ramakrishnan et al。7]提出技术将每个键有大量记录大小分为注册表子项允许更均匀分布工作负载的还原剂。然而,它需要等到所有地图任务完成之前收集分区大小的信息可以减少任务。
林(8)发现,使用默认的散列分区方法,近92%的减少任务产生了数据倾斜,还原剂的运行时间一般比正常高出22%到38%的任务。因此,我们关注的是减少倾斜和试图改善在洗牌阶段的划分方法。Gufler et al。9)提出了一个单程分区方法称为“近”,这取决于抽样分布的信息。它把斜分区和重组他们达到一个平衡。这种方法的困难正确划分倾斜分区,和需要的时间会严重影响性能。单程分区策略范围只涉及使用散列/函数将元组的阶段和随机分配分区映射到对应的减速器。这种策略可以在每个减速器达到平衡,但对于倾斜的数据,默认的分区方法很难平衡的数据一次性统一的部门。考虑到这个问题,我们希望使用一个两阶段策略把输出映射到细粒度的分区和重组他们基于全球产出信息分散数据倾斜。在本文中,我们提出一个数据处理算法称为分区Tuning-based斜处理(PTSH)来解决这个问题。首先,我们首先使用一个虚拟的分区方法把原始分区分成细粒度的分区和收集实时数据对每个分区的数据大小。第二,地图的分区信息的任务是提取和相应的指数发送到减少任务重新分区。最后,实现过程收集到的虚拟分区分为新分区相同数量的减少任务。 The main contributions of the paper lie on the following:(1)基于两级分区策略,我们提出一个分区优化方法把倾斜的分区分成细粒度的分区和使用重新分配不平衡数据部门的方法来解决这个问题。分区是一个np难问题,我们提出一个重新分区算法,可有效平衡倾斜分区。(2)我们进行了几个实验模拟数据集和真实数据集。与单程策略相比,结果表明,我们的方法可以有效地降低数据倾斜MapReduce工作和提高效率。(3)手臂的案例研究进行真正的医疗数据MapReduce。结合一个先验的算法和PTSH,它可以平衡减少任务的数据分布和提高部门的效率在医疗数据。
本文的其余部分组织如下:我们报告这个研究的背景部分2和现在的提议PTSH方法部分3。PTSH的绩效评估和案例研究报告部分4,我们得出我们的结论和未来工作提供建议5。
2。背景
在本节中,我们提供MapReduce编程模型的背景,数据倾斜在MapReduce的手臂,和分区倾斜问题,激励我们的研究。
2.1。MapReduce编程模型
MapReduce自动并行性和执行商品的大型集群机器上的一个程序。它通过破坏处理分为两个阶段,地图阶段和减少阶段。每个阶段都有键值对输入和输出,可选择的类型的程序员。MapReduce的map和reduce函数都是关于数据结构定义(键值)对。计算需要输入一组键值对并产生一组输出键-值对。Hadoop的map和reduce函数(10MapReduce有以下一般形式:
MapReduce工作开始时,map调用分布在多台机器上通过输入数据的自动划分成一组分裂。如图1接受输入,地图任务将作为输入并生成一个键值对序列称为中间数据。分区功能(默认情况下,哈希(关键)国防部R)用于将中间数据划分为多个分区和分发他们在减少任务。这个转移过程称为洗牌。在降低阶段,每个减少任务处理输入reduce函数并生成中间数据的输出数据。
在这项研究中,我们关注的洗牌过程MapReduce编程模型因为数据倾斜总是发生在这一时期,严重影响MapReduce的性能。
2.2。数据倾斜在MapReduce的手臂
数据挖掘是在大型数据集中发现模式的计算过程涉及到人工智能的方法在十字路口,机器学习、统计数据和数据库系统。数据挖掘过程的总体目标就是从数据中提取信息并将其转换成一个可以理解的结构进行进一步的使用。如今数据挖掘在医疗已经成为流行,因为需要一种有效的分析方法来检测未知的和有价值的信息在医疗数据11]。协会是其中一个最重要的数据挖掘方法用于确定频繁模式和其他有趣的一组数据项之间的关系在一个存储库中。协会在医疗检测之间的关系产生重大影响的疾病,病人状态,症状。霁等人利用协会发现罕见的因果关系在电子医疗数据库(12]。帕蒂尔et al。13)使用了一个先验的算法来生成关联规则分类的病人患有2型糖尿病。阿卜杜拉et al。14)提出了修改现有的先验的算法将信息添加到医疗费用。
关联挖掘的效率是最重要的因素。手臂不适合高维的并行算法和大量的数据,因为他们容易受到数据放置的问题,导致斜(15]。MapReduce,数据倾斜是一个重要的问题影响负载平衡臂算法。水平分区数据集在相同大小的块。然而,频繁项集生成的数量从每个块可以严重倾斜,也就是说,当一个块可能造成许多频繁项集,另一个可能很少,这意味着处理器负责后者块大部分时间处于闲置状态。另一种数据倾斜发生如果频繁项集在许多块,或如果他们频繁的只有几个街区。因此,手臂需要良好的负载平衡算法。
2.3。分区在MapReduce斜
在MapReduce应用程序中,map任务分布在reduce任务的输出通过散列分区(默认情况下)。在映射阶段,哈希分区通常需要一个哈希函数确定分区号对应于每种类型的键-值对,减少任务的数量。哈希函数通常是足够的均匀分布数据。然而,如果输出不均匀分布,散列分区与倾斜的数据可能会失败。这种现象被称为分区倾斜。例如,在反向索引应用程序中,哈希函数可能分区中间数据基于一个单词的第一个字母;还原剂处理更受欢迎的字母分配过多的数据。分区可能发生倾斜的原因如下(16]:(1)倾斜的元组大小:在应用程序的大小值变化很大,从而导致工作负载分布不均匀。(2)倾斜关键频率:一些钥匙更频繁地发生在中间数据,导致降低这些受欢迎的关键任务的过程成为超载。(3)扭曲执行时间:处理一个大键-值对,可能需要更多的时间处理多个小双。即使在分区函数完全分配键在还原剂,减少任务的执行时间可能有所不同,因为关键组分配包含更值。
倾斜的执行时间,我们可以使用领域知识在选择地图输出分区方案如果减少操作是昂贵的17]。然而,我们关注另外两个原因大大延长工作执行时间影响MapReduce的性能。出于现有解决方案的局限性,我们使用分区键值调优方法驱散在虚拟分区和再结合每个虚拟分区的数据倾斜。
3所示。分区Turning-Based斜处理方法
基于虚拟分区在映射阶段,减少重组阶段虚拟分区的重新分配到新的分区,以确保减少任务的数量等于最终数量的新的分区。与此同时,新的数据在每个分区的大小保持一定的平衡。
3.1。在映射阶段虚拟分区
所有地图任务完成后,所有键值是按分区号。在分区内部,所有的键-值对分类后的关键。在处理大型数据集,每个地图任务生成的输出数据通常占用大量的内存,这是泄漏到本地磁盘。然后合并所有泄漏文件写入磁盘后所有地图任务完成。在扩散和合并的过程中,对应于每个分区的索引建立的映射任务。在读取数据时,它可以加快获得后续的任务数据减少分区。
在实现过程中,分区结果在映射阶段划分和组合再次17]。一个分区的键-值对因此分开和合并到另一个。当减少任务请求结果的基础上对数据进行分区一个新的分区,被请求的数据分布在不同的地方泄漏文件,导致无序和低效阅读的数据。
在虚拟分区的关键挑战是选择分区键-值对的数量在功能上。默认情况下,减少任务的数量;但是,在理想的情况下,应该取决于类型的输入键值对的数量。我们认为适当的虚拟分区的数量这两个值之间。时的值决定,分区号不再是记者通过减少任务号码。每个分区中的数据在映射阶段可以由一个不确定的处理减少任务;这样的分区称为虚拟分区。每一个虚拟分区的一个组成部分已经重新分区的一个实际的分区。具体关系是由平衡算法一旦减少任务相关的所有信息元数据地图的输出阶段。
虚拟分区的意义是驱散键值尽可能提供更多的组合类型为随后的重新分配的过程。根据应用程序的特点,系统资源,键值的分散度,虚拟分区的数量N可以由用户自由选择。以确保公平分配之间的还原剂,我们把所有的输出任务映射到虚拟分区。然而,虚拟分区的数量可能显著影响分区阶段的表现。当虚拟分区的数量很小,系统可以更有效地获取每个虚拟分区的元数据信息。然而,减少虚拟分区还原剂中会导致分配不公。
3.2。获取全球产量信息
基于全球产出的元数据的映射任务,实现过程中充分利用之间的通信任务,减少任务映射到原始的沟通过程划分为两个阶段:(1)获得的元数据输出每个地图任务和(2)将减少中的信息结合的任务。图2显示了收购的过程减少任务的元数据。详细的步骤如下:(1)一旦所有地图任务完成,输出写入到本地磁盘。TaskTracker使用心跳信息发送消息到JobTracker说明任务已经完成。(2)JobTracker维护地图任务的完成消息队列为每个MapReduce工作。TaskTracker运行时减少任务要求的完成消息映射任务,JobTracker从队列中删除消息,并将其对应的TaskTracker。(3)在相同的MapReduce工作,减少任务的完成消息映射任务从TaskTracker。地图的运行时信息完成任务是提取信息,包括地图任务数量,和有关执行节点信息。使用这些信息,减少与执行任务建立一个HTTP连接节点和请求的元数据信息输出映射任务。(4)基于地图的请求数量的任务,地图TaskTracker读取相应的索引文件的输出从本地文件系统并将其发送给相应的减少任务。(5)减少任务的虚拟分区合并相同的索引号不同的索引文件。然后它聚集数据的每个虚拟分区相同类型的键值对。
3.3。重新分区
实现过程收集到的虚拟分区分为新分区相同数量的减少任务。数据规模最大的分区可以最小化后实现的过程。它还可以减少所需的处理时间最大分区,从而加快完成整个减少阶段和增加的速度完成工作以及系统吞吐量。
正如前面分析的,实现流程重组在映射阶段生成的每个虚拟分区。然而,由于可用内存的限制,这些虚拟分区必须写入本地文件系统。如果重新分区是不受限制,它可能会导致多数离散虚拟分区的分区平衡过程后,导致无序的磁盘读取。此外,在经典的算法设计,虚拟分区是分区的平衡问题18)已被证明是NP困难,因此在线性时间内无法解决。
在这项研究中,提出的PTSH添加以下限制进行重新分区的过程:一个新的平衡的分区必须由原来的组装,连续和分布式虚拟分区。实现的结果可能是,,,或,但不能,,。通过这样的约束,实现过程后,我们可以确保虚拟分区继续泄漏文件中连续分布。这也降低了平衡过程的时间复杂度。在实现过程中,虚拟分区的重组的问题可以描述如下:
定义遍历序列一个,并确定子序列的数量
当 较低;因此,应该增加。因此,定义
当 较高;因此,需要减少。因此,定义并跳转到步骤4。
重复步骤1到。
|
||||||||||||||||||||||||||||||||||||||||||||||
实现算法的伪代码的算法1。
通过应用二叉搜索PTSH while循环的,最低的价值可以确定。因为它需要在每个循环遍历的整数序列一次,PTSH的时间复杂度,在那里元素的数量吗。
4所示。评价
所有实验测量的性能PTSH 7-node集群上执行了六个奴隶节点和一个主节点。每个节点使用两个2 GHz cpu quadcore 16 GB的内存和500 GB的SATA硬盘驱动器。所有节点被用作计算和存储节点。HDFS块大小设置为64 MB,和一个共同的千兆以太网交换机连接每个节点。我们评估PTSH性能虚拟集群:五个虚拟机部署在每个六机,达到30个数据节点的集群大小。所有的虚拟机都配置了一个CPU和1 GB内存。我们部署的基线是Hadoop 1.1.2 (19),我们配置了HDFS维护集群三个副本为每个数据块。
4.1。措施的数据偏态和数据位置
某种分布的数据,如钟形曲线,是对称的。这意味着,右边和左边的部分分布是完美的镜像。并不是每个数据的分布是对称的。我们知道,出现数据倾斜对象的物理特性和热点在整个域的子集(例如,词频出现在文档遵循Zipfian分布)。怎么不对称分布的测量是称为偏态,作为公平指标在文献[20.]。我们使用变异系数数值计算数据偏斜的措施如下:
数据分布是完全公平的如果变异系数为零。作为增加,偏态。
数据本地化对绩效评估是重要的。本文数据局部性钥匙在节点的频率之和,这是分区的所有键的频率(5]: 在哪里表示关键的最低频率在数据节点和的最大频率是钥匙吗在数据节点。
4.2。PTSH对应用程序的性能
首先,比较本地Hadoop和PTSH,我们执行评估在彪马21],它代表了一种广泛的MapReduce应用程序展示特征与高/低计算和高/低洗牌卷。第二,我们评估PTSH近(9,利恩5),和本地Hadoop通过单词计数应用程序。我们的评估中使用的应用程序如下:(1)反向索引(II):需要的文档列表作为输入,并生成word-to-document索引。地图发出<词,docId >元组与每个词每个docId排放一次。减少集所有元组<道>,发出<词、列表(docId) >元组后删除重复。(2)字数(WC):这个应用程序计算每个单词出现在一个大文档的集合。地图发出<词,1 >元组。对于一个给定的单词计数减少添加地图任务和输出最终的数。
表1概述这些应用程序的与我们在实验中使用的配置。我们使用维基百科的数据(22反向索引)和倾斜的数据生成RandomWriter [23字数)。在我们的实验中,我们使用键的频率变化及其分布作为参数的动力设计。自从前明显导致输入的数据分布变化的还原剂,后者的变化会影响传输的数据量在洗牌阶段(5]。我们提出这些应用程序执行的结果与不同大小的输入数据,频率变化的关键,平均变异在密钥分发。我们跑至少五次每个应用程序,使用平均性能结果。
虚拟分区的数量取决于调优比()设定的用户,可以计算如下:
在上面的,虚拟分区和的数量吗减少任务的数量。比较该算法与本机Hadoop系统,我们每个应用程序通过使用PTSH算法不同的分区参数。的价值不同的从1到50。当,这意味着PTSH并不使用,达到均匀分布数据的每个关键节点()。然而,在映射阶段,结合过程影响传输的数据量在洗牌阶段,强调减少任务的输入数据的数量。因此,本地的地图结合不是一个因素在我们的实验。
图3显示二世和WC的性能。如图3(一个)II-2,在最好的情况下(),运行时比本机Hadoop系统快1.24倍。当II-1实现更好的性能改进30岁,当它增加到1.61倍。II-1和II-2,即使在最坏的情况下,运行时下降了12.7% ()和11.5% (),分别。图3 (b)显示了WC的性能。WC-1跑1.12 - -1.57 x速度比本地Hadoop,和促进WC-2变化从13.1%到25.4%不等。图3 (c)表明,变异系数可以有效地控制PTSH通过使用虚拟分区。的地图位置PTSH没有达到更好的性能比本地Hadoop。图3 (d)还表明,促进PTSH地图位置的变化范围从−2.3%至5.4%,与减少−1.7%到13.5%由于位置不同的复合虚拟分区。我们认为虚拟分区映射阶段将元组分成许多虚拟分区,这地图位置的性能的影响。我们认为数据本地化差异(不同运行相同的工作负载可能会导致不同的数据位置)。PTSH旨在实现一个更平衡的分布比数据本地化还原剂的输入。在表2,我们看到PTSH取得更好的公平还原剂的输入节点之间比本地Hadoop,进而导致平衡减少函数执行。所有的方法,因此几乎同时完成。与PTSH这个实验表明,每个应用程序的运行时明显下降,数据本地化数据倾斜发生时稳定。每一对的应用程序,在案件大频率的变化键和更高的分布,提出了应用程序的性能比在其他情况下。然而,数据显示,增加增加了系统开销和性能稳定的时候范围是在10到40。然后我们使用字数评估PTSH的性能()对数据倾斜与本机Hadoop相比,近,利恩。因为字数在减速机的操作只有加法操作,我们选择固定还原剂()来比较性能和选择(1)每个阶段的详细运行时,(2)的运行时最坏的和最好的任务,(3)变异系数,(4)数据本地化洗牌阶段的指标范围。
(一)
(b)
(c)
(d)
关于整个运行时的工作,PTSH优于本地Hadoop,接近,并在WC-3利恩。如图4(一),PTSH超过本机Hadoop、紧密和利恩27.5%,7.3%,和4.9%,分别为:运行时的洗牌阶段PTSH更长比其他方法由于重新分区算法,但运行时减少阶段PTSH实现最佳性能(最好减少花费的时间的函数是92年代和160年代,最严重的减少函数),由于更好的公平数据分布还原剂的输入(如表所示3PTSH取得了比其他方法更好的浸)。图4 (b)表明使用PTSH时,运行时最好的任务和最糟糕的map和reduce阶段取得更好的性能比本地Hadoop,接近,利恩(采取的时间最好在映射阶段任务,最严重的是37岁和26个年代,和时间采取最好的任务和最严重的减少阶段是52和43个年代)。因此,PTSH有效处理斜还原剂的缓解不平衡的任务。
(一)
(b)
4.3。案例研究
目前,由卫生组织生成的数据是巨大的和复杂的,很难分析对病人的健康做出重要的决定。这个数据包含细节关于医院、患者、医疗索赔,治疗成本,等等,因此,需要生成一个强大的工具来分析和提取重要信息从这复杂的数据。医疗数据的分析,从而提高医疗提高病人管理任务的性能。数据挖掘技术的结果是提供医疗福利组织分组相似的疾病或健康问题患者提供有效的治疗。
来提高性能的关联挖掘与MapReduce的医疗数据,我们使用了先验的(24)算法分析医疗数据从全国药物使用和健康调查(NSDUH) [25),2004 - 2014年主要测量了吸毒的患病率和相关在美国。调查是为了提供季度以及年度的估计。信息提供了使用非法药物,酒精,烟草在我们12岁及12岁以上的居民。第一次使用问题包括年龄;一生、年度和上个月使用以下药物类:大麻,可卡因,海洛因,迷幻剂,吸入剂,酒精和烟草;那些滥用处方药的行为包括心理疗法;和多重药物使用。被调查者还被问及他们的药物知识,对风险的看法,人口流动,测序吸毒。我们对这个数据集进行数据预处理,去除无关的信息。数据集的详细特征表4。
作为经典的手臂算法,推测的算法可以获取知识有重要参考价值的决定和判断,因此,可用于我的医疗数据。然而,传统的先验的算法有三个缺点:(1)它可以我不正确的强关联规则。(2)算法的成本波动很大时,只使用支持度作为候选集的行列式的一代。(3)在处理大量数据时,系统的I / O负载的增加和处理速度放缓,严重影响了算法的效率。在这个案例研究中,我们使用利息的控制先天算法(IM-Apriori) [26)有效我强关联规则。算法2总结了IM-Apriori MapReduce算法。我们还结合PTSH和IM-Apriori提高MapReduce的性能在NSDUH数据倾斜。
我们评估IM-Apriori算法与本地NSDUH Hadoop的子集,接近,PTSH。IM-Apriori,关联规则的参数表中可以看到5。本研究使用了一个11-node真正的集群和之前相同的硬件配置。自从交易规模也很庞大,我们需要把它们分成块和分发到不同的数据节点。异径接头的数量设置为20,我们用于PTSH是30。表6显示IM-Apriori算法的性能在使用本机Hadoop,接近,PTSH。当的大小事务的增加,三种方法之间的差异更大。在最好的情况下,PTSH跑1.44倍和1.20倍的速度比本地Hadoop和接近,分别。图5显示的性能数据本地化、浸和节点的数据大小的最大和最小负荷三个测试。我们可以看到在图5(一个),减少当地PTSH也表现其地图位置和地图的地方,这些测试取得了几乎相同的位置。这可以解释由于更好的浸在图5 (b)数据分布和公平的还原剂的输入数据5 (c)和5 (d)。图6显示每个阶段和任务的详细性能在Hadoop,接近,并为ARM-3 PTSH。如图6(一),地图的延迟阶段本机Hadoop高于越来越PTSH由于地图倾斜和延迟的洗牌阶段PTSH更长比其他方法由于重新分区算法。然而,如图6 (b)、更好的公平还原剂的输入数据节点之间PTSH导致平衡减少任务执行,这反过来使得所有还原剂几乎同时完成。IM-Apriori算法因此更适合医疗数据挖掘比本地Hadoop和接近。
(一)
(b)
(c)
(d)
(一)
(b)
在表7,我们列举一些NSDUH的关联规则挖掘的结果。我们发现,平均年轻成人吸烟者往往喝酒;这条规则是0.72的信心。另一方面,我们也发现,离婚妇女也属于群烟民,许多失业成年人也是如此。随着社会的快速变化,社会压力增加,越来越多的人吸烟,喝酒,对人类健康产生重大影响。通过数据关联规则的分析,我们可以发现一些共同的特征。根据这些特点,我们可以提供相关的指导和帮助阻止人们过度饮酒和吸烟。
5。结论
大数据在很多方面改变我们的生活方式,如购物、关系和教育。最有前途的领域之一大数据可以应用改进医疗保健。医疗卫生领域产生大量数据,例如,电子医疗记录。体积和医疗数据的速度真的是足够高,要求今天大数据。理解这些数据与方法使用大数据处理可以帮助临床改善分析,财务分析,监测欺诈和浪费。
提出了一种PTSH算法平衡减少任务的输入数据,在医药相关领域旨在处理数据。性能研究进行seven-node MapReduce集群显示PTSH优于本地Hadoop,接近和利恩。与单程分区策略相比,两级分区可以减轻斜数据减少任务。这是发现,数据偏斜和工作量平衡同时MapReduce的效率的影响。我们的分析和实验结果表明,MapReduce敏感负载平衡,虽然好偏态也很重要。MapReduce是有效的在最好的情况下平衡和偏态高。高的组合平衡和适度偏态是第二好的情况下。
大数据分析提供了一种新的方法来解决许多医疗问题,挖掘小数据无法帮助提取有价值的信息为经济和社会发展服务。随着医疗数据继续增加大小,需要生成一个强大的工具来分析和提取重要的信息从这些复杂的数据。一个案例研究的手臂NSDUH数据进行MapReduce。结果表明,负载平衡是非常重要的对于MapReduce的手臂,因为它保证了最小执行时间减少的阶段。我们发现两级分区表现更好,PTSH改善手臂在真正的医疗数据的效率。我们认为,即使医疗数据严重倾斜,好的工作负载平衡可以更好的解决问题。
当前策略需要获得所有的元数据输出通过地图任务之前减少的阶段。然而,在处理大规模数据的应用,数据传输开销之间的映射阶段和减少阶段可能会增加。在未来的工作中,我们计划把重点放在优化这个开销达到更好的平衡性能。
的利益冲突
作者宣称他们没有竞争的经济利益。
确认
这项工作是支持的国家自然科学基金委重点项目(91320201,91520202)和通用程序(61375116,61379079)。这项工作还支持由北京未来教育与格兰特没有先进的创新中心。bjaicfe2016ir - 003和中国奖学金委员会(CSC,没有。201608260014)。