在HBase使用分布式数据的大数据分析平台为临床服务

文摘

大数据分析(BDA)降低医疗成本是很重要的。然而,有许多数据聚合的挑战,维护、集成、翻译、分析和安全/隐私。研究目的与模拟病人数据建立交互式BDA平台使用开源软件技术是通过建设一个平台框架与Hadoop分布式文件系统(HDFS)使用HBase(键值NoSQL数据库)。分布式数据结构产生基准测试hospital-specific九十亿份病历的元数据。在优化迭代,HDFS摄入HFiles HBase存储文件显示持续可用性超过数百个迭代;然而,完成MapReduce HBase需要一个星期(10 TB)和每月三十亿(30 TB)索引病人记录,分别。发现不一致的MapReduce有限的能力有效地生成和复制数据。Apache火花和钻显示高性能和高可用性技术支持,但可怜的临床服务的可用性。医院系统基于成规数据在使用HBase挑战,即并不是所有数据资料都完全集成的复杂patient-to-hospital关系。然而,我们建议使用HBase来实现安全的病人数据,同时查询整个医院卷在一个简化的临床事件模型在临床服务。

1。介绍

大型数据集已经存在,不断,数百年来,开始在文艺复兴时代,研究人员开始存档测量,图片,文档发现根本真理的性质(1- - - - - -4]。“大数据”一词在2000年引入了弗朗西斯Diebold,宾夕法尼亚大学的经济学家,成为流行时,IBM和Oracle之后采用2010年和在医疗保健5]。Gantz和Reinsel6)预测在“数字宇宙”研究中产生的数字数据和消费每年将达到40000 Exabyte到2020年,三分之一的将使用大数据处理技术。大数据已经在几个方面的特点:NoSQL键索引(7,8),非结构化(9)计算机解释、文本信息(10),等等。有鉴于此,大数据分析(BDA)医疗需要一个更全面的方法比传统的数据挖掘;它需要一个统一的方法来验证新技术能够适应速度,准确性,和体积能力需要促进信息的发现在所有医疗保健领域的数据类型(11]。

有许多最近的研究根据定义的bda医疗使用的很多技术,比如Hadoop / MapReduce [12,13]。汇业银行本身是一个过程从大数据集用于提取知识(14]。生命科学和生物医学信息学领域中最活跃的在进行汇业银行研究15]。Kayyali et al。16)估计的应用汇业银行对美国医疗系统每年可以节省超过3000亿美元。临床操作和研发的两大领域是潜在的储蓄:分别为1650亿美元和1080亿美元(17]。

研究主要关注医药相关数据集的大小和复杂性,其中包括个人医疗记录,放射学图像,提交临床试验数据,人口数据,和人类基因组序列(表1)。信息集成技术,如3 d成像,基因组测序和生物传感器读数,助推指数增长的医疗数据库(12,18]。此外,卫生保健中使用大数据提出了诸多挑战。第一个挑战是选择适当的统计和计算方法。第二是为有意义的提取有意义的信息。第三是找到的方式促进信息访问和共享。第四个挑战是数据重用,只要“收集的大量数据通常没有直接的业务案例,但仅仅因为它是负担得起的”(19]。最后,另一个挑战是假的知识发现:“探索性的研究结果从大数据是不可能是假的”(5比报告从已知数据集。在癌症登记,例如,生物医学数据正在生成的速度远远快于研究人员可以使用传统方法(跟上20.]。


临床服务	医疗应用程序

研发	(我)有针对性的研发管道在药品和设备,临床试验设计,和患者招募患者个体更好地配合治疗,从而减少试验和失败,加速市场的新治疗方法,遵循迹象,发现产品到达市场之前的不利影响

公共卫生	(我)有针对性的疫苗,例如,选择年度流感毒株 (2)确定需求,提供服务,并预测病人风险预防危机,特别是,造福人群

循证医学	(i)相结合,分析各种结构化和非结构化data-EMRs,财务和运营数据,临床数据,和基因组数据匹配的治疗结果,预测患者疾病的风险或重新接纳,并提供更有效的治疗

基因组分析	(我)进行基因组分析常规医疗决策过程的一部分,越来越多的病人的医疗记录

设备/远程监控	(我)实时捕捉和分析大量的快速数据从住院和家用设备,安全监测和预测不利

病人资料分析	(i)识别那些将受益于积极的保健和生活方式的改变,例如,患者的风险开发一个特定疾病(如糖尿病)谁将受益于预防保健

某些临床护理的改善只能通过大量的历史数据的分析,如停留时间(LOS);选择性外科手术的选择;利益或缺乏从手术中获益;频率的各种手术并发症;频率的其他并发症;程度的病人患败血症,耐甲氧西林金黄色葡萄球菌,梭状芽孢杆菌或其他医院疾病;疾病进展;疾病进展的原因;和频率的并存状况。在扭曲的研究等。21),BDA-based测序平台星座成功部署在堪萨斯城的孩子们的仁慈医院(密苏里州,美国)与病人的临床资料,他们的基因组序列,从而促进治疗(22]。在紧急情况下,这种技术允许一种遗传性疾病的鉴别诊断新生儿出生在50个小时。改善平台的使用Hadoop基因组的测序和分析所需的时间从50到26小时23]。因此,通过汇业银行平台实时诊断医疗分析医院和病人数据被成功实施。然而,滑槽(24]指出卫生信息学偏向的分类数据分析的一种形式,在很大程度上,在加拿大,因为爸爸的数据标准主要是由CIHI临床报告。私立医院系统也有一定的数据标准,部分取决于病人的物理运动通过医院而不是诊断和干预的录音。

医疗和医院系统需要汇业银行平台管理和获得价值。BDA的概念框架项目医疗、本质上的功能,不是从传统的系统完全不同。医疗分析被定义为一套以计算机为基础的方法,流程和工作流的原始健康数据转化成有意义的见解,新发现和知识,可以通知更有效的决策25]。数据挖掘在医疗历来与知识管理,反映了管理方法发现、收集、分析、共享和使用的知识(26,27]。因此,放电文摘数据库(爸爸)和入学放电转移(ADT)数据集是为了让医院和卫生机构应用知识从临时数据记录的病人数量,健康状况,滞留时间(洛杉矶),等等(28]。等实时ADT的组合和爸爸能够更好地链接的医疗服务和移动住院病人治疗和诊断。

1.1。研究目标

我们的目标是建立一个交互式和动态与前端和界面的应用程序框架(例如,Apache Phoenix, Apache Spark, and Apache Drill) linked to the Hadoop Distributed File System (HDFS) and backend NoSQL database of HBase to form a platform with Big Data technologies to analyze very large data volumes. By establishing a platform, challenges of implementing and applying it to healthcare scenarios for clinical services could be validated by users to visualize, query, and interpret the data. The overall purpose was a proof of concept of Big Data capabilities to stakeholders, including physicians, VIHA administrators, and other healthcare practitioners. One working hypothesis was that NoSQL database created using hospital and patient data in differentiated fields would accurately simulate the patient data. Another hypothesis was that high performance could be achieved by using a few nodes optimized at the core CPU capacity and, therefore, used for clinical services. Lastly, patient data could be secured from configurations and deployment of HBase/Hadoop architecture and heavily relied on WestGrid’s High Performance Computing (HPC). These hypotheses are related to five specific challenges: data aggregation, maintenance, integration, analysis, and pattern interpretation of value application for healthcare [28,29日]。

合法性和道德是主要竞争者来处理大型数据集的范围内利用医疗的病人数据(30.]。立法规定安全、保密和隐私的患者数据。健康保险流通与责任法案(HIPAA),以及信息自由和保护隐私法(FIPPA),需要的几种类型的标识符,包括任何残留的患者信息(31日]。这些隐私立法的主要障碍;然而,隐私问题可以克服通过使用新技术,如键值(KV)存储服务有些先进的配置和技术知识为正在进行的操作和维护的访问。例如,Pattuk et al。32)提出了一个框架来保护大数据管理涉及HBase,称为大秘密,安全地处理加密数据在公共KV商店。因此,确保病人数据隐私和安全的一个方法是使用索引从HBase生成,可以安全地加密KV商店(8,33,34)与HBase进一步加密与蜂巢的集成(35]。

2。方法

在医院系统,比如温哥华岛卫生局(VIHA),记录病人数据的能力有效地ADT过程中及时的病人护理是至关重要的和增强的病人护理可交付成果。ADT的系统被称为真理来源报告医院门诊业务从住院到出院的病人。在这些可交付成果的报道临床事件,诊断,病人遇到与诊断和治疗方法。此外,在加拿大的医院,出院记录数据标准由加拿大健康信息研究所(CIHI)和管理到加拿大国家爸爸库。此外,ADT报告通常是通过手动数据输入病人的图表,然后结合电子健康记录(EHR)(添加进一步的并发症可能危及autopopulate数据),可能由其他医院的数据在省级和联邦卫生部门报告36]。BDA一个合适的平台,医院应该允许ADT的集成和爸爸记录和查询,组合找到趋势在其极端的卷。

2.1。大数据技术和服务平台

大数据技术分为四个主要类别:高性能计算、数据处理、存储、和资源/工作流分配器,像Hadoop MapReduce /37- - - - - -41)(表2)。高性能计算(HPC)系统通常是汇业银行的骨干框架平台,例如,IBM的沃森和微软大数据解决方案(42]。一个HPC系统包括一个分布式系统,网格计算和图形处理单元(GPU)。


技术	临床使用

Hadoop分布式文件系统(HDFS)	临床使用,因为其高容量、容错和廉价的存储非常大的数据集的临床。

MapReduce	编程范式已经用于临床处理大数据。

Hadoop	基础设施适应临床数据处理。

火花	间接处理/存储的临床资料。

卡珊德拉	键值存储为临床数据间接。

HBase	NoSQL数据库与随机存取用于临床数据。

Apache Solr	文档仓库间接临床数据。

Lucene和模糊	在医疗文档仓库没有,但即将到来的免费文本查询在Hadoop的平台上,可用于临床数据。

MongoDB	JSON面向文档的数据库已用于临床数据。

蜂巢	数据交互没有配置为临床数据,但是SQL层交叉平台成为可能。

火花SQL	SQL访问Hadoop数据未配置为临床资料。

JSON	数据描述和传输已用于临床数据。

动物园管理员	协调数据流已经用于临床数据。

纱	资源分配程序的数据流已经用于临床数据。

Oozie	工作流调度程序来管理复杂的多部分Hadoop作业未用于临床数据。

猪	高级数据流语言加工批次的数据,但不用于临床数据。

风暴	流吞食被用于临床资料。

分布式计算系统可以管理成千上万的计算机或系统,每一个都是有限的处理资源(如内存、CPU和存储)。相比之下,使有效利用网格计算系统的异构系统优化工作负载管理服务器、网络、存储、等等。因此,网格计算系统支持跨各种管理域的计算,与传统的分布式计算系统。此外,一个分布式的Hadoop集群,分布式计算节点和连接以太网,由主控制运行工作。“首次Hadoop开发解决可伸缩性问题影响Nutch,一个开源使用MapReduce和履带和搜索引擎BigTable方法由谷歌开发的“19]。分布式计算使用MapReduce和Hadoop是一个重大进步大数据的处理和利用在医疗保健25,40]。

考虑到临床使用,汇业银行系统的设计和实现的基本前提是构建一个平台能够编译不同的临床资料。然而,道德和研究能力的过程在VIHA批准整个医院的病人数据系统是不可能的。其次,它是不可能拼凑总结健康结果的特定数据,因为这些数据已经被总结。第三,真实数据在数据仓库VIHA将需要几个月的审查和开发使用大数据技术的解决方案。最后,平台的性能基准测试需要确定与当前数据查询工具和工作流VIHA,这意味着以极大量仿真可以证明是高的性能和可用性。因此,研究集中在模拟与VIHA进行真正的元数据和交换知识的ADT和爸爸可用于生产。

2.2。医疗大数据分析框架

Hadoop / MapReduce框架提出了实现HBDA和分析模拟病人数据在分布式计算系统,是目前用于急性病人护理设置VIHA和其他卫生当局在不列颠哥伦比亚,加拿大。之间的联合协作,计算加拿大/ WestGrid和VIHA HBDA平台的建立了框架。它由创新技术像Hadoop的HDFS MapReduce编程和NoSQL数据库。HBase数据库构造复杂,许多迭代的开发在过去三到四年。HBase是一个开源的分布式键值存储基于谷歌(KV)BigTable(43持久和严格一致的NoSQL系统使用HDFS数据存储。此外,所有这些技术组件构建平台,构建还考虑工作流与各自的临床报告工作组VIHA同一数据集元数据的医院。

数据迁移的功能平台测试性能或吞食HFiles通过Hadoop (HDFS), HBase的散装货物,吞食HFiles Apache火花和Apache钻。在这项研究中表演概念验证测试使用模拟数据复制相同的元数据和非常大的体积。此外,本研究涉及六个爱马仕核心(每个核心都有12计算机处理单元(CPU)核)。这些只占72内核的cpu的整体在WestGrid-UVic最多4416核。有许多配置和包装组件包括在构建,例如Apache凤凰,Apache火花,和Apache钻,以及飞艇和Jupyter笔记本接口。

2.3。复制、生成和分析过程

元数据信息的数据建立一个系统作为一个结构化标准准确记录和检索信息。元数据的结构,允许数据配置文件(即。,characteristics, sources, and character lengths) to be established in a database. And in healthcare this means data is standardized effectively for patient records to be accurate when retrieved or viewed in an EHR. In the case of VIHA, the metadata of the ADT system allows for patient data to be recorded when a patient is admitted to the hospital, assigned to a bed, and provided other medical services. The structure itself is not proprietary to the system and does not contain any real patient data. In the meetings, with VIHA personnel, the core metadata of ADT/DAD were verified with questions scripted for the three main groups (Box1)。在卫生专业人员和供应商的帮助下,他们当前的快速和可靠的查询显示,和未知的和期望的健康趋势,模式和关联的医疗服务和健康结果公布。记录包括病人的人口统计,急救护理,ADT,临床活动,诊断,和结果的信息。

集团1 -建筑师
(我)关注当前人口CIHI使用标准化的元数据,住院治疗,重新接纳
公元前和VIHA。
(2)CIHI请求医院提交数据基于数据收集的目标和标准。大量的使用
收集的数据来自爸爸和一些ADT;因此,结合2数据库形成NoSQL数据库
是代表。
(3)ADT位置,医疗服务和住院病人出院,所以我们可以添加这些列而诊断
和程序是分开的,可以添加这些病人遇到即使他们是分开的。
(iv)的要求,由CIHI所有元数据关联可以基于遇到和MRN
医院级别与PHN主键。
(v)是最重要的系统,病人的临床资料。这些都是基础的
病人接触水平,由行和列在现有NoSQL数据库。
(vi) ADT收集病人还在医院的时候,但是爸爸数据记录在病人离开
医疗保健设施。结合ADT和爸爸在医院级别已经完成,还可以表示
医院通过非关系数据库系统。
(七)爸爸包含临床信息收集ADT的位置,访问日期和时间
病人的个人信息。数据元素的数据是基于配置文件的元数据。和
有一个数据字典,我们可以模拟。
(八)患者识别使用PHN, MRN和遇到的号码。遇到级别查询是很重要的
病人的元数据,以及医院水平可以代表遇到数据库行。
组2 -报告
(我)生产标准报告每小时、每天、每周、每月、每年对报告没有错误,
元数据应该是标准化在企业架构。数据可以依赖
模拟使用正确的元数据。
(2)ADT从供应商和真理的来源和实现自动化,爸爸是抽象和利用
源;因此,2数据库已经连接。结合ADT和爸爸是可能的,代表
医院系统同时支持临床报告和基准测试我们的模拟。
(3)重要的相关报告CIHI可以显示在模拟类似的查询。
(iv)标准化的报告可以在模拟显示类似的查询。
(v)主键是重要的数据完整性和没有错误而遇到与耐心。数据库
钥匙需要代表。
(vi)遇到水平数据重要标准报告和数据的完整性。模拟病人接触
在医院级别代表临床报告。
(七)索引数据密钥存储重要,因为系统是基于患者遇到的基础。需要
利用技术来创建密钥存储库和遇到的唯一索引来查询数据。
(八)重要的查询需要将某些字段从医院系统的概念:
(a)诊断与洛杉矶(Dx)代码,频率的频率与洛杉矶诊断(Dx)代码,诊断
代码与放电日期和放电时间、诊断代码与单位发生转移,诊断
代码与位置,位置,位置,位置的床上,放电处理,
诊断代码与遇到的类型和洛杉矶,诊断代码与医疗服务和洛杉矶,洛杉矶最高
与承认MRNs日期、频率(或数字)承认与Discharge_Date类别,
提供者服务与诊断代码。
(九)结合列,我们需要能够执行这些基本的计算:
(a)(放电时间/日期)-(入学时间/日期)=滞留时间(LOS)(当前日期)-(出生日期)=年龄
(b)(离开急诊室(ED)日期/时间]-[进入ED日期/时间]= ED的等待时间
(c)干预开始日期/时间=需要(入学时间/日期)至(放电时间/日期)
(d)(干预)事件持续时间=应该不到洛杉矶
(e)之间传输/过期=应该(入学时间/日期)和(放电时间/日期)
在单位(f)天=应该小于或等于洛杉矶。
组3 -数据仓库
(我)像密钥存储,我们需要依赖在我们的数据库相关现有系统的代表
医院的操作。
(2)特定数据元素标准元数据是必要的数据是准确的。这个过程
同样需要生成元数据与准确的依赖关系。
(3)系统集成不是必要的工作但只查询数据临时或正确,和目前
没有实时流媒体数据。从系统集成取决于病人的医疗数据
每个遇到和ADT和爸爸之间的联系通过索引行。
(iv)医疗服务不是目前在临床使用报告,因为它不是爸爸抽象,但可以
利用数据仓库。原因是由于CIHI可以整合医疗服务和其他的数据标准
元数据从ADT直接链接到元数据从爸爸。
(v)转移重要ADT的病人在系统中遇到的进步和改变。
我们可以使用数据库作为模拟的元数据的传输和位置已知的资料从医院。
(vi)结合列对遇到行已经实现医院的水平;因此,ADT和
爸爸组合与仿真相关有价值。
(七)分组允许数据库建设和构建基于遇到逐步添加列。
(八)诊断非常重要,因为它是医院的健康结果。分组重要性能
指标。基于接触模拟查询。

为了实现这些目标,岛从ADT /爸爸健康的部分核心元数据系统获得了通过知识转移在采访中与特定的团队在皇家禧年医院工作(RJH)和纳奈莫地区综合医院(NRGH)。知识转移与VIHA人员和当前报告的局限性被记录,记录,总结几个会议后的迭代和验证。

信息从信息架构团队是由爸爸词典和选定的数据元素。元数据和信息的频率三个核心数据元素(例如,管理,管理类型,和遇到的类型)从BI数据仓库团队将ADT系统数据库和核心数据元素组成。信息从信息专家和临床信息支持将元数据在VIHA ADT和爸爸之间的关系。临床报告与欧洲核子研究中心的人管理工具和Med2020 WinRec抽象之前组织的元数据存储在一个数据仓库。VIHA隐私/安全团队也采访数据所有权和必要步骤获得批准时使用真实的数据可能需要公开披露。

元数据是超过90列和基于数据字典的例子,从VIHA随机采访。例如,诊断列元数据是标准化的国际疾病分类元数据版本10加拿大或ICD-10-CA代码,和个人健康号码(PHN)有十位数字,而病人的医疗记录数(MRN),遇到有九个数字位数。所有数据元素及其所需字段,以及主要依赖键,记录完成试验的必要列生成聚合医院的仿真数据。发电机包括所有重要的数据资料和依赖关系建立了通过在选定的列(表主键3)。


情况下	临床数据库

不受控制的2型糖尿病和复杂的并发症	(我)爸爸诊断代码,HBase的id

肺的结核病和不受控制的DM 2	(我)爸爸和ADT列HBase患者id

在C肾功能衰竭,骨折,心力衰竭情事属实者,稳定DM 2	(我)爸爸和ADT列HBase患者id

多区域癌症患者姑息	(我)爸爸和ADT HBase集成数据列在一起

1心脏并发症	(我)爸爸和ADT HBase集成数据列在一起

1 ER手术、骨折、重新分类后的7天内和一些并发症	(我)爸爸和ADT HBase集成数据列在一起

1简单day-surg。与并发症,承认住院(药物过敏)	(我)爸爸和ADT列HBase患者id

1心脏并发症和死亡	(我)爸爸和ADT HBase集成数据列在一起

1正常分娩和产后出血并发症	(我)爸爸和ADT HBase集成数据列在一起

1艾滋病毒/艾滋病患者治疗感染	(我)爸爸和ADT列HBase患者id

链锁状球菌感染	(我)爸爸和ADT HBase集成数据列在一起

冷但负链锁状球菌a .孩子	(我)爸爸和ADT HBase集成数据列在一起

成人喉炎患者积极	(我)爸爸和ADT列HBase患者id

严重的咽炎	(我)爸爸和ADT HBase集成数据列在一起

孩子,适度的咽炎,喉咙文化负面,物理考试	(我)爸爸和ADT列HBase患者id

成人心脏病史的,积极的文化为喉炎的症状。	(我)爸爸和ADT HBase集成数据列在一起

成年人,物理考试,温和的咽炎,链锁状球菌a阳性文化和积极的第二次,重新接纳	(我)爸爸和ADT列HBase患者id

VIHA,卫生信息体系结构直接关系到爸爸抽象,因为它是一个手动过程,依赖承认类型和承认源来自欧洲核子研究中心的医院系统。应急系统是独立于ADT,还有计划程序的分类并不ADT系统的一部分。医生和护士把病人遇到的“真相”的病人遇到ADT系统。每个病人可以有多个遇到数字整体一百万遇到VIHA每年注册。相比之下,爸爸的一个属性,主要是诊断和放电,ADT代表一个人的关系与医疗服务和医院系统病人位置(s)。然而,这项研究并包括在医院病人运动(目前没有查询大型水平)和患者转移。转移是一个遇到的变化,并不总是由数字文档;例如,一个病人可能被转移到NRGH在纳奈莫,然后得到一个新的遇到RJH解除后,反之亦然。

数据仓库与卫生专业人员团队合作临床报告可以依靠的以逗号分隔的值( )导入和导出数据的格式。因此,本研究选择使用摄取HBase文件直接分析相反,以前在这个平台上使用Apache凤凰和其类似sql的代码(44]。三个数据的大小(5000万年和三十亿年,记录)被用作基准检查如何不同的包(Apache火花和钻)扩展数据大小供临床使用。

重要的是要注意,这个研究是关于性能测试的ADT /爸爸查询分布式文件系统(apache hadoop)处理(MapReduce)配置在一个模拟NoSQL数据库(HBase)的患者数据。平台测试完全随机生成数据复制副本每5000万个病人的遭遇与复制分组,频率,依赖、查询等等。管线式过程包括五个阶段或阶段,恰逢节中列出的挑战1和整体研究的目标。

2.3.1。数据采集

(一)数据仿真使用HBase。模拟数据集,每一行代表encounter-based病人数据,与诊断、干预,和程序特定的病人,当前ADT系统在其与一个更大的数据仓库数据库模式(参考表3临床病例)。这个数据库中特定的结构允许病人积极更新准确的查询平台,模拟整个一生的那个人。乔和戴维斯33)表明,利用ICD诊断代码在一个以病人为中心的框架允许无缝集成各种与成规ADT数据从电子医疗系统;该方法可以准确地查询再入院率和护理质量评级和演示有意义的使用和任何对个人和人口健康的影响。因此,平台使用类似的方法来建立数据模型的结构相结合的encounter-based ADT标准化的诊断;每一个遇到的都有单独的诊断、过程和最负责任的供应商。

所有必要的数据字段被填充在复制成一个和前一百万条记录三十亿条记录。记录工作流程提供了一个指南,形成NoSQL数据库,作为大型分布式平面文件。根据现有的患者行整个列抽象进一步模拟;HBase建立广泛的为每一个独特的行索引,和每一行包含一个键值与限定符的家庭和主键(列)。HBase操作是特定于家庭限定符在每个迭代;因此,成规数据结合某些爸爸数据(元数据)的不同来源的行和列,这样的总结可以查询诊断或医疗服务。

(b)数据转换。因为查询的性能测试平台依赖数据模拟,作为一个概念验证,通常的高速文件传输技术(如SCP和GridFTP)被用来传输数据的高性能并行文件系统(GPFS)。药品数据时摄取Hadoop / MapReduce框架,它显示相同的结果作为基准测试数据。Hadoop和HBase使用NoSQL数据库堆放物工具来摄取数据。建立数据结构,EncounterID被设置为一个大数据整数(以便达到数十亿整数列顺序没有限制),并根据该整数索引通过为每一个独特的行HBase在每一个迭代。这个索引值列,独特的每一行,导致MapReduce排序KV商店的每一个迭代,可以增加数据的完整性,增加其分布式安全访问一次。

2.3.2。数据维护和故障排除

仿真数据是存储和维护在HPC并行文件(~ 500 GB)和在汇业银行平台在HDFS中。复制因子为容错HDFS被设置为3。处理大量的数据集来测试不同的用例或查询的性能进行的分析平台。这需要创新,在敏捷团队中设置,在汇业银行特有的方法开发阶段配置相关医疗数据库。

2.3.3。数据集成(临床)

这一步是非常重要的,因为sql的凤凰查询产生相同的结果在VIHA当前生产系统。所有测试结果在一个特定的数据大小和类似的时间分析,查询是否简单或复杂。结果还必须显示相同的数据列在sql查询的约束家庭限定符(主键)。在一系列的测试中,某些列中包含或排除作为约束限定符的SQL代码。一旦结果是精确的和是一样的标准,这些限定符仍然通过Hadoop为每次迭代运行,生成十亿总数。

2.3.4。数据分析

在这一步中,任务相关的研究进行了概念分析特定用例临床报告。查询性能和精度的基础上评价了BDA框架在十亿行。例如,一个基于任务的场景分析包括以下。

(一)分析问题/场景。典型的分析场景如下:临床医生怀疑频繁运动的患者在医院可以恶化的结果。特别是在那些容易混淆由于环境的变化(即。、老年人)。

(b)分析算法和工具。处理密集的计算,简化算法在数据库应用和分布式节点。例如,有一些默认MapReduce-based先验数据集的数据挖掘算法来找到相关的模式。使用定制的MapReduce模板定制通过凤凰(之后,在一个单独的研究的一部分,类似的算法也测试通过Apache火花和Apache钻)在HBase数据库节点。开发一些软件管道的计划是建立和工程师等替代产品引发Jupyter和飞艇在Hadoop并建立一个查询GUI界面交互地同时运行所有测试查询和显示所有时间来生成结果。Apache钻也被选中,因为相同的查询测试在凤凰城和火花可以使用+界面可以集成/ Hadoop。

(c)模式验证和演示。这项研究进行了超过五个阶段的配置过程(几个月和年)分布式查询数据。最初的目的是评估模型将有怎样的表现对大数据集进行首次公开年度(2005 - 2006)库存药品(~ 5 MB)。一旦制药数据摄取Hadoop / MapReduce框架显示相同的基准测试结果。模拟平台的查询结果按照爸爸的健康结果报告医院级别和每一行被认为代表一个病人接触。对于这个成功,领域专家和医生参与验证过程和解释结果和最终用户的查询工具的可用性。自一百万年的数据是随机迭代记录和复制在5000万年到十亿年,然后到三十亿年,数据已经预先知道结果;因此,发现将随机数据集群的趋势。

2.3.5。数据隐私保护

平台的建立框架使用WestGrid现有的安全与隐私的超级计算平台而最终审核并确定规定使用真实的病人数据的平台(医院的外部数据仓库)。下面的方法应用,包括四个步骤。

步骤1。HBase为每一行创建索引的数据不能直接访问、查询和查询只能访问时生成部署管理器(DM)平台。也就是说,数据不能被任何人在任何时间或任何时间;只有HBase-specific查询可以显示数据和nonrecognizable没有Hadoop和HBase运行,以及正确的脚本查看它。

步骤2。执行数据复制,发电机平台,结合业务/安全分析师识别代表的屏蔽或加密需要算法优化技术来替换原来的敏感数据。

步骤3。审查进行了有关隐私保护条例》的有关规定和原则,如HIPPAA,信息自由和保护隐私法(FIPPA),个人信息保护法案(琵琶)和使用公共KV商店成立于暂时的Hadoop的HBase分布式数据库。

步骤4。复制数据集的测试是由一个应用程序执行流程测试结果掩盖了数据是否可以修改视图。一个真实的数据集(大年度库存药品)进行了测试和验证首先,因为研究表明,使用Hadoop的分布数据有许多内在的过程,限制运行吞食[43,44]。

2.4。临床使用的实现框架

在本节中,这些步骤和经验实现的技术框架和应用汇业银行平台。汇业银行平台将用于建立基准性能的终端用户的查询VIHA当前和未来的报告的临床数据仓库(即。,在生产中,跨越50余年的大约14结核病)。为此,Hadoop环境(包括Hadoop的HDFS)从源WestGrid集群上安装和配置,以及动态启动Hadoop的工作。

HBase的建设和构建的框架(NoSQL)和Hadoop BDA (HDFS)建立了平台。这种构造恰逢和执行的现有架构WestGrid集群在维多利亚大学(安全通过LDAP目录服务帐户登录到部署数据库节点和限制账户专用节点)。它最初运行平台的体系结构有五个工人节点和一个主节点(每个十二核)和计划(专用)节点增加到11,可能到101年,以及将一套专用的虚拟机在WestGrid OpenStack云。

查询通过Apache凤凰(安装版本4.3.0)居住一层薄的类似sql的HBase。运行吞食和查询的途径从构建BDA平台现有的HPC的如下:。平面文件生成→HDFS摄入(s)→凤凰散装货物为Apache凤凰HBase→查询。

这种途径在迭代测试多达三十亿条记录(一旦生成)的对比结合HBase-Phoenix与Phoenix-Spark或Apache火花插件(Apache凤凰,2016),在这个序列和后加载必要的模块为Hadoop环境,HBase和凤凰城和测试初步结果与家庭限定符和HBase键值项(28,29日]。

性能测量与三个主要过程:HDFS摄入(s),通过凤凰HBase散装货物,和查询时间。摄入的一个测量时间总共建立了迭代和整体实现所需的总数量的记录,也就是说,从5000万年十亿零三复制(29日]。我们也计算摄入效率(IE)和查询效率(量化宽松政策)的十亿年相比,5000万年记录使用以下公式: 在哪里是摄取的时间吗HDFS或HBase记录。

Apache火花(1.3.0版本版本)也从源代码构建和安装使用HBase和Hadoop集群。目的是比较不同的查询工具如Apache火花和钻,汇业银行平台,实现对Apache凤凰使用类似sql的查询。整个软件栈在其中心平台中使用HDFS(图1)。

3所示。结果

数据概要、依赖关系和元数据的重要性报道性能仿真和验证。当前报告局限性记录如果爸爸和ADT的组合在一个分布式平台运行并行查询。总共有90列构造必要的查询和确认为重要结合ADT数据和爸爸在大数据平台的数据。此外,查询导出比较临床病例和如何与平台的性能VIHA临床报告的代表。

3.1。技术实现

HBase (0.98.11 NoSQL版本)是由主要部署主(DM)和故障转移主RegionServers持有HBase数据,管理员五节点编排合奏,调用RegionServers。HBase是由独特的行,每一行包含一个键值。一个键-值条目有五个部分:行键(行)、家庭(fam),限定符(必要)、时间戳(ts),和价值(val)表示为 (28]。此外,建立HBase键值项,有四个操作:(1)把插入数据(2)得到检索数据的一个特定的行(3)删除删除一个数据行(4)扫描,检索的索引行。

进行的步骤运行Hadoop模块框所示2。

(一)步骤访问节点负责人WestGrid PBS的工作开始
(1)qsub - i - l walltime = 72:00:00节点= 6:ppn = 12, mem = 132 gb
(2)/全球/软件/ hadoop集群/ ltr
黄芪丹参滴丸2.6.2、hb 0.98.16.1凤凰4.6.0
(3)模块加载Hadoop / 2.6.2
(4)setup_start-Hadoop。sh f (f格式;这样做只有一次…)。
(5)模块加载HBase /…
(6)模块加载凤凰/…
(7)(实际上检查摄取。sh脚本在~ / bel_DAD)
(8)hdfs dfsadmin报告
(9)自民党(命令显示了jvm运行Java服务与pid)
(B)摄取文件处理成凤凰/ HBase数据库
(1)模块加载Hadoop / 2.6.2
(2)模块加载HBase / 0.98.16.hdp262
(3)模块加载凤凰/ 4.6.0
(4)localFileName = " CSV文件包含您的数据”
(5)hdfs dfs mkdir /数据
(6)hdfs dfs——”localFileName”/数据/
(7)hdfs dfs - ls /数据
(8)sqlline。py hermes0090-ib0 DAD.sql
(9)出口HADOOP_CLASSPATH = /全球/软件/ hadoop集群/ HBase-0.98.16.1 / lib / HBase -
全球/软件/ hadoop集群/ HBase-0.98.16.1 protocol-0.98.16.1.jar: / / lib / high-scale-lib -
全球1.1.1.jar: / / / dchrimes / HBase-0.98.16.1/34434213.moab01.westgrid.uvic.ca / conf
(10)时间Hadoop jar /全球/软件/ Hadoop集群/ phoenix-4.6.0 /凤凰- 4.6.0 hbase client.jar——0.98
org.apache.phoenix.MapReduce。爸爸固化”/数据/ CsvBulkLoadTool——表localFileName”
# psql。py - t爸爸localhost all.csv
(C)使用d_runAll.sh摄取所有
(1)首先决定使用哪一个文件,然后检查其列名的正确性。DADV2。sql (v2)和
爸爸。sql(老)
(2)使用sqlline创建数据库表。py如上说明(sqlline。py hermes0090-ib0 DAD.sql)
(3)确保所有模块加载:模块加载Hadoop / 2.6.2模块加载HBase / 0.98.16。
hdp262模块加载凤凰/ 4.6.0
(4)生成的数据(我们需要100亿和监控数据库中的大数据整数)。
(5)使用d_runAll。sh摄取它们。
(6)如果一个问题发生(持续)检查日志在不同位置(/全球/划痕/ dchrimes /和/或
/ / JOBID节点)。

平台Hadoop的修改配置后按预期工作hdfs-site.xml。此外,副本的数量设置为三个与连接InfiniBand或xmlib0。与HDFS,命令运行脚本自动化摄入步骤(生成数据复制的格式指定的SQL脚本节点)。

MapReduce在平台上显示的地图部分高性能在3 - 10分钟,但减少了(图3 - 12小时2)。安装Apache凤凰(版本4.3.0)薄层在HBase之上,被用作摄入结构化文件和基于数据到NoSQL数据库。

图2

性能(60秒)吞食(即。,20.replicated 3 times) from Hadoop HDFS to HBase files, MapReduce indexing, and query results. Dashed line is total ingestion time and the dotted line is time to complete the Reducer of MapReduce. The bottom dashed-dot lines are the times to complete Map of MapReduce and the duration (seconds) to run the queries.

改善的摄入十亿行和90列试图生成1 - 10欧元行,本地硬盘总共40 TB的身体都安装在工作节点。在本地磁盘上安装5个节点(工人),一组使用shell脚本自动生成和摄入5000万条记录在每个迭代通过MapReduce。最大30亿由于操作障碍,实现工作流的局限性和表空间,因为密钥存储几乎增加了两倍的量用于每个吞食(表空间4)。总的来说,包括所有的测试,大约6 - 9欧元行摄取到本地磁盘在迭代其中三十亿是正确的索引,可以精确查询。


技术组件	临床影响平台

Hadoop分布式文件系统(HDFS)	(我)没有重新配置超过6节点,因为它很难维持临床资料 (2)必须添加额外的2 - 4结核病临床数据 (3)大型本地磁盘所需的临床资料

MapReduce	(我)完全失败的摄入 (2)临床索引文件必须从节点删除 (3)极其缓慢的性能在处理临床数据 (iv)临床数据需要更高级的算法

HBase	(我)RegionServers需要形成临床数据库 (2)持续的监控和日志检查 (3)运行压实 (iv)只跑了5000万行临床资料

动物园管理员和纱	(我)极其缓慢的性能当动物园管理员服务都不能正常运行,但额外的配置最小化这种限制纱的一些问题

凤凰城	(i)来维护一个数据库模式与当前节点名称在一个文件中,这样,如果摄入的文件不匹配,它将显示错误,验证摄入数据存在元数据内的模式在运行查询 (2)出现零次摄入文件但多次起初在运行查询

火花	(我)缓慢的性能

飞艇	(我)在运行查询前30分钟的延迟与Jupyter以相同的时间为 (2)没有解决这个问题

Jupyter	(我)一旦建立了Java,它具有较高的可用性和性能优良

钻	(我)是极快,但可用性差 (2)一些其他接口引擎集成

其他发现大数据技术的局限性上安装WestGrid的架构进行人工干预(在五年间月)被要求不断调整散装货物从MapReduce HBase的性能。Hadoop吞食表现出高性能,大约3分钟完成任务为258 MB或每5000万行。有时HDFS是不平衡的,必须重新平衡数据节点或500 GB的本地磁盘时没有故障转移2 TB磁盘安装,整个吞食不得不从头再来,因为HBase不能重建索引,而且,因此,没有索引的查询是无效的,这大大减缓不运行时性能。有一些研究结果对优化性能的平台。CPU使用率需要刷爆,这是2016年10月在5月中旬;它打碎在100%,但没有保持由于运行压实后的每个吞食接管(图4小时3)。IO磁盘使用情况,需要达到最好的吞吐量提供或接近100%的CPU,实现显示160 MB / s,打碎在大约相同的时间相应的峰值性能吞食。

3.2。临床分析和可视化

Hadoop的部署环境背后的节点进行了后台数据库通过一系列场景设置shell脚本,然后用户可以调整配置匹配工作的需要和它的性能。有22个sql查询的查询测试报告,实例和ADT的频率在5000万- 1 - 3美元/爸爸数据行。十个查询被归类为简单而其他复杂;其中包括超过三列和三个在90种可能的主键列。所有查询、简单(线性)和复杂的(指数和递归),不到两秒十亿和三十亿年几乎相同的节点,最终,通过Hadoop平衡;然而,一些查询超过三秒,少于4秒三十亿与不平衡节点。没有明显差异之间的简单和复杂的查询类型和可能的拿出手机增加节点不平衡时。缓存查询时间没有影响。没有显著差异在简单与复杂查询的性能。性能的速度,即使是在一个三十亿行对于复杂的查询,5000万行查询相比非常快。 It did require months of preparation to get to the task of testing the platform with the queries. Health data that was involved with hospital outcomes and clinical reporting was combined to form a database and distributed over nodes as one large file, up to 30 TB for HBase. All the pertinent data fields and much more were used.

结果表明,摄入十亿条记录大约花了两个小时的时间通过Apache火花。Apache钻比火花/飞艇和火花/ Jupyter [29日]。然而,钻仅限于跑步更简单的查询和非常有限的医疗保健的可视化表现出可怜的可用性。飞艇,火花上运行,显示易用性交互对于健康应用程序,但它缺乏灵活性的接口所需的工具和额外设置时间和运行查询前30分钟的延迟。Jupyter火花提供高性能栈不仅在汇业银行平台也一致,同时运行所有查询具有高可用性的各种报告要求供应商和卫生专业人员。

钻并表现良好而引发,但它没有提供任何工具或库的进一步查询结果。钻,被证明有更高的性能比火花少但其接口功能。此外,算法(简单之间的相关性不同的列)被要求如果不是不可能像SQL语句来表达。飞艇,另一方面,提供了开发代码的能力,生成减价文本,并产生良好的罐头图表绘制病人数据(图4)。结合丰富的火花Pyspark,飞艇罐头可视化平台提供了图形图标。故事情节在飞艇,然而,结果被限制/表的SQL语句。此外,产生的结果直接从SQL上下文没有任何火花在飞艇可视化选项。生成查询结果通过飞艇花费了更长的时间(30分钟)。建立平台上运行查询界面和生成结果通过飞艇所花的时间比Jupyter [29日]。

Jupyter,更多的配置数据查询进行测试。它表现出相似的代码来摄取文件(图5),同样的火花砖初始化的界面,它的SQL查询作为飞艇,但以牺牲编写可视化代码,使用matlplotlibPython包除了其他强大的工具,比如大熊猫,也就是说,一个强大的Python数据分析工具。本地主机添加到爱马仕节点访问Jupyter通过汇业银行平台,以弥补缺乏可视化选项通过飞艇界面。Jupyter提供可视化的违约和定制多钻的分布式模式及其接口运行查询(图6)是严重缺乏任何可视化工具的可用性。

4所示。讨论

这项研究的最终目标是测试的性能大数据计算框架及其技术规格跨平台对所有挑战具体在医疗中的应用。爸爸这一目标是通过结合ADT数据通过吞食Hadoop的HDFS和MapReduce编程框架。高性能在汇业银行平台验证查询不到4秒30亿份病历的时候(无论复杂性),表明聚合的挑战,维护、集成,数据分析和解释价值可以通过汇业银行克服平台。

4.1。医院病人数据建模系统

分析挑战有很多加拿大的卫生保健系统,因为分离筒仓的聚合。有复杂而独特的变量,包括“(1)信息;(2)偏好的数据录入;(3)服务在不同的对象;(4)卫生条例的变化;(5)不同的支持计划或来源;和(6)不同定义的数据库字段名称在不同的数据库系统”(45]。大数据在医疗保健覆盖数千万或数十亿病人和前所未有的机遇。尽管数据来源如医院EHR系统通常的质量远低于数据仔细研究人员调查收集的具体问题,大量的数据可能会弥补其定性不足,提供了一个重要的模式可以在噪声(14,46]。最终,它的设计不仅复制数据来模拟整个卷的生产和在VIHA归档数据,甚至省不列颠哥伦比亚省,这样真正的病人数据从医院将被批准使用的平台。因此,数据的混乱和对仿真的影响没有测试,尽管这可能影响精度和性能,当查询的真实数据。

ADT数据很难模仿,因为他们来自欧洲核子研究中心系统,它使用一个内核创建别名池~ 1000不同的数据库中的表。简单的创建一个平面文件不能模拟复杂的元数据关系,不保证每个遇到的数据被独特的行,当遇到可以改变随着时间的推移或几个都与相同的病人。然而,如果从自动医院系统中提取数据并确认与独特的行,列是正确的就可以把它与父亲相似的数据独特的键和限定符。HBase的复杂本质意味着很难测试的可靠性数据基于真实数据的仿真。几个步骤需要单独准备爸爸数据库为统计呈现之前送到CIHI。使用实际的列在这项研究中所使用的VIHA获得准确的信息在关系数据库中,保证了数据在别名池而不是复制的任何接触。其他研究综述(例如,5,30.,47,48)强调病人的重要性与大数据平台数据建模在医疗,表明缺乏BDA生态系统是医疗的原因之一是落后于其他部门利用现有技术利用大数据。纳尔逊和蹒跚5)指出,从护士护理信息学和数据进展指出充分利用在医院系统。王等人。47)也比较生物信息学与医疗和大数据的应用程序。生物信息学可以匹配库的遗传数据库极大的药物或治疗;然而,这样的匹配不能在大型医院系统的规模,和成规框架和当前存储关系数据的传统做法很难复制其他数据库类型,特别是大数据。乔和戴维斯33和郭等。48)认为,即使结构化数据缺乏医院系统之间的互操作性,这样就没有解决方案可能链接的所有数据。VIHA,例如,很难遇到爸爸和ADT数据链接,因为爸爸数据诊断和干预是不存储在一起或集成或关系依赖关系在一个一体化的数据仓库,ADT自动链接数据时遇到[5,48]。因此,需要更多的验证来匹配相应的医疗服务在ADT病人诊断,入学时间和来源。

这是更复杂的验证模拟数据与真实数据在火花和钻。斯科特(49]表明,战场上最好的大数据软件解决方案之间的火花,钻钻可以更有效地模拟复杂的数据比火花因为火花需要复杂的Java、Python和Scala代码。尽管如此,火花和钻都显著高于HBase摄取文件直接进入Hadoop通过Drillbits(钻),管理员和MapReduce和RRD转换MapReduce(火花)。跨节点使用的工具完全不同的过程,如果没有索引缺乏加密数据(病人数据要求);这些过程,最后,产生相同的查询,但那是因为平台将摄取already-indexed文件到火花和钻。没有索引会增加错误的风险(尽管框架更容错运行时火花和钻)。因此,固有的大数据工具和技术高度影响的临床服务的数据建立,从查询结果数据。

王等人。50)支持本研究的在他们的声明中声称,非关系数据模型,如KV模型,实现在NoSQL数据库。王等人。47)进一步表示,NoSQL提供医疗、高性能解决方案被更适合高维数据存储和查询和优化数据库的可伸缩性和性能。一双KV数据模型支持更快的查询实现大规模的微阵列数据和使用HBase (Google的BigTable存储系统的一个实现)。新KV数据模型上实现HBase展出平均增加5.24倍高维生物数据查询性能关系模型上实现MySQL集群相比,平均提高6.47倍MongoDB的查询性能(25]。绩效评估发现新的KV数据模型,特别是它的实现在HBase,优于目前实施的关系模型,因此,本研究支持NoSQL技术对大规模数据管理/操作BDA医院数据系统的平台。

4.2。HBase数据库为临床报告

有许多替代方案为大数据平台;选择最好的解决方案依赖于数据的性质和它的用途(例如,51])。在实践中,许多系统属于雨伞的NoSQL系统和高度可伸缩的(例如,51,52]),这些存储类型是相当不同的。然而,每个有其独特的功能和价值主张(53]。例如,键值(KV)数据存储代表NoSQL系统的简单模型:他们对键值非常相似的方式映射(或哈希表)是如何工作的任何标准的编程语言。实现了各种开源项目提供键-值NoSQL数据库系统;这些项目包括Memcached,伏地魔,复述,芭蕉Riak [25]。另一个类别的NoSQL系统是面向文档的数据库存储。在这些系统中,文档就像一个散列,一个独特的ID字段和值可以是任何的各种类型,包括更多的散列。文档可以包含嵌套结构,所以他们提供了高度的灵活性,允许变量域如MongoDB和CouchDB (25]。这些类可用于医院数据;然而,在这项研究中HBase被选作为数据库类型和技术,因为它简化了仿真中使用元数据的列而不是每一列的数据类型和实际数据之间的关系。

HBase还有一个动态模式,可以通过其他Apache上传应用程序;因此,该模式可以改变和测试。如果使用HBase没有,更复杂的数据模型将需要地图/ Hadoop / MapReduce框架。使用HBase的另一个好处是,进一步配置可以实现多行的交易使用逗号分隔值(. csv)平面文件(51,54]。此外,这些标识符的时间越长,更大的数据存储的KV HBase将成为;因此,标识符长度是标准化在这项研究中所需的最小描述数据概要文件。问题出现在HBase创建相应的行键。吞食并非均匀分布,增加键在一个地区可能是导致缓慢的减少(25]。

我们的研究表明,压实HBase改善摄入的许多成功的运行;然而,这并没有阻止失败的节点,由其他的研究发现,(例如,39,55- - - - - -58])。然而,在我们的研究中使用的平台已经跑进了HBase的问题RegionServer撞击InfiniBand正确、全面,设置每次摄入并不总是压实之后运行的紧凑的文件正确,导致整个操作的迭代摄入失败。

4.3。HBase安全/隐私

在加拿大,人口健康数据政策依赖于立法行为公开披露的数据访问外部卫生行政部门以外的边界59]。我们的汇业银行平台利用现有建筑外部VIHA WestGrid在维多利亚大学。WestGrid并维护一个安全的环境限制进入账户,和我们的Hadoop / HBase摄入过程以外的任何人都无法访问当前授权用户。因此,汇业银行平台是非常安全的。然而,我们表明,从源复制到HBase形成至少十亿需要一周时间。因此,需要将数据存储在运行查询,之前因为摩泽尔河[60)表示,如果数据存储与一些耐久性甚至几个小时,需要公开披露。

5。局限性和未来的工作

使用Apache火花或钻在凤凰城的优点是更少依赖于MapReduce,加速性能;然而,还有主要限制的数据不能准确地代表临床事件和数据加密。因此,有一个权衡性能。本研究进一步限制是在病人的技术和表示数据之间的联系为临床使用;HBase大量没有实现完全集成复杂的医院的关系。没有完整的验证,不能由卫生权威认证的技术。更多的工作对汇业银行应该考虑使用键值存储在简化临床事件模型在许多临床服务。

有必要进一步探讨大数据技术的影响对病人医院系统的数据模型。此外,它最初着手测试交互和功能BDA平台的安全和隐私。然而,由于MapReduce的局限性,它是确定它的Java代码仍将是决定不添加加密病人标识符个人健康,医疗记录号码和出生日期。唐et al。61年有没有这种款式特大号)实现了先进的索引数据的数据集主要调整MapReduce编程后具有良好的性能。进一步的调查不仅需要测试使用MapReduce的加密数据,但也在HBase之后测试查询数据。

信息披露

狄龙Chrimes首席技术专家和博士写了研究设计和软件实现出版与哈米德Zamani先生,作为研究助理。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是支持的竞争研究资助在温哥华岛卫生权威。博士被农业部在WestGrid感谢数据库管理员系统,维多利亚大学。亚历克斯郭博士是感谢研究框架计划。

引用

f . Coenen“数据挖掘:过去、现在和未来。”知识工程评审,26卷,不。1、25 - 29,2011页。视图:出版商的网站|谷歌学术搜索
r . Haux”,医学信息学:过去、现在、未来。”国际医学信息学杂志》上,卷79,不。9日,第610 - 599页,2010年。视图:出版商的网站|谷歌学术搜索
r·霍伊特s Linnville小时。钟,b . Hutfless和c .大米,“数字家庭历史数据挖掘”健康信息管理的角度来说,秋天,1-13,2013页。视图:谷歌学术搜索
b . w . Ogilive科学的描述。自然历史在文艺复兴时期的欧洲芝加哥,芝加哥大学出版社,生病,美国,2006年。
r·尼尔森和n .蹒跚卫生信息学:Interprofessional方法处于,爱思唯尔公司的印记,圣路易斯,密苏里州,美国,2014年。
j . Gantz和d . Reinsel2020年数字宇宙:大数据,大数字阴影,远东最大的增长,2012年国际数据公司(IDC)。
a . b . m . Moniruzzaman s a·侯赛因,“NoSQL数据库:数据库大数据分析的新时代——分类、特点和比较,”国际期刊数据库理论和应用4卷,页1 - 14,2013。视图:谷歌学术搜索
j .徐m·施c·陈,z, j .傅和c·h·刘,“ZQL:一个统一的中间件连接关系和NoSQL数据库”学报》第14届IEEE国际会议上可靠,自主和安全计算,DASC 2016年第14届IEEE国际会议上无处不在的智能和计算,PICom 2016年,第二届IEEE国际会议上大数据情报和计算机数据网络科技大会,2016年和2016年IEEE 2016年CyberSciTech DASC-PICom-DataCom-CyberSciTech 2016新西兰,页730 - 737年,2016年8月。视图:出版商的网站|谷歌学术搜索
r .旅途敏捷数据科学:构建数据分析应用程序使用Hadoop, OReilly出版物O ' reilly出版物,旧金山,加州,美国,2013年。
j . m .天山“大数据:释放信息,”系统科学与系统工程》杂志上,22卷,不。2、127 - 151年,2013页。视图:出版商的网站|谷歌学术搜索
技术。代表,加拿大卫生Infoway、大数据分析。新兴技术系列,白色,2013。
e .气压s Degoul r . Beuscart, e . Chazard”向医疗literature-driven大数据的定义,“生物医学研究的国际ID 639021条,卷。2015年,9页,2015。视图:出版商的网站|谷歌学术搜索
崔w . Seo:金,美国“大数据支持战略RD规划框架,分析专利,”学报2016年IEEE 14 Intl相依在可靠,自主和安全计算,在无处不在的智能和计算,2日14 Intl相依Intl相依在大数据智能和计算和网络科学技术大会,第753 - 746页,2016年。视图:谷歌学术搜索
m·m·汉森t . Miron-Shatz A . y .刘和c·佩顿,”大数据在科学和医疗保健:回顾一下最近的文献和观点,“ifip年鉴,9卷,不。1日,第21到26 2014页。视图:出版商的网站|谷歌学术搜索
h . Liyanage s . de Lusignan s Liaw et al .,“大数据使用模式在卫生保健领域:一个用例驱动的方法应用于疫苗接种益处和风险的评估,“ifip年鉴,9卷,不。1,27-35,2014页。视图:出版商的网站|谷歌学术搜索
b . Kayyali、d·诺特和s . Van Kuiken大数据革命在美国卫生保健:加速价值和创新麦肯锡公司,2013年。
j·艾·m·崔j . Bughin et al。大数据:下一个前沿创新的竞争,和生产力,2014,http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation。
r·福斯特卫生保健大数据地址数据超载是一个很大的机会,2014岁的Matchcitehttp://www.zdnet.com/blog/health/big-data-meets-medical-analysis-video/500。
l·马德森数据驱动的医疗保健:如何改变了工业分析和BI约翰·威利& Sons Inc .霍博肯,新泽西,美国,2014年。视图:出版商的网站
诉Brusic和曹x数据快照:视觉分析提供了洞察癌症疫苗临床试验,”药物发现和开发,2010年,页1 - 5。视图:谷歌学术搜索
g . p .转折,a Gaedigk: a . Miller et al .,“星座:工具快速、自动的表现型转让高度多态pharmacogene CYP2D6,从全基因组序列,”NPJ基因组医学,1卷,不。1,2016。视图:出版商的网站|谷歌学术搜索
c·j·桑德斯:a . Miller s e . Soden et al .,“快速全基因组测序基因疾病诊断新生儿重症监护病房,“科学转化医学,4卷,不。154年,文章ID 154 ra135, 2012。视图:出版商的网站|谷歌学术搜索
n . A . Miller如法罗,m·吉布森et al。”范围系统应急管理的高度敏感的全基因组测序的基因疾病,”基因组医学,7卷,不。1,货号。100年,2015年。视图:出版商的网站|谷歌学术搜索
c . g .槽“医学概念表示,”医学信息学:知识管理和数据挖掘在生物医学h·陈,s . s .富勒c·弗里德曼和w·赫斯,Eds。施普林格,页61 - 73年,2005年。视图:谷歌学术搜索
Sakr和a . Elgammal”综合数据分析框架,智能医疗保健服务,“大数据的研究4卷,44-58,2016页。视图:出版商的网站|谷歌学术搜索
h·陈,美国美国福勒,c·弗里德曼和w·赫斯,“知识管理、数据挖掘和文本挖掘在医学信息,”医学信息学:知识管理和数据挖掘在生物医学h·陈,s . s .富勒c·弗里德曼和w·赫斯,Eds。,20 - 40页,施普林格,2005年。视图:谷歌学术搜索
h·w·d . Li公园,m . i m . Ishag e . Batbaatar和k h . Ryu“卫生保健系统的设计和部分实现疾病检测和行为分析利用DM技术”学报》第14届IEEE国际会议上可靠,自主和安全计算,DASC 2016年第14届IEEE国际会议上无处不在的智能和计算,PICom 2016年,第二届IEEE国际会议上大数据情报和计算机数据网络科技大会,2016年和2016年IEEE 2016年CyberSciTech DASC-PICom-DataCom-CyberSciTech 2016新西兰,页781 - 786年,2016年8月。视图:出版商的网站|谷歌学术搜索
d . Chrimes m·h·郭农业部,和w·胡”对健康应用程序实时大数据分析平台,“国际大数据情报杂志》上,4卷,不。2、61 - 80年,2017页。视图:出版商的网站|谷歌学术搜索
d . Chrimes恐鸟,M.-H。郭,a . Kushniruk”操作效率和模拟大数据分析平台的性能超过数十亿的病人医院系统的记录,”科学技术的进步和工程系统杂志,卷2,不。1,23-41,2017页。视图:出版商的网站|谷歌学术搜索
e·m·约翰逊和n . d .开松机“可用性故障和医疗数据出血,”IEEE安全与隐私,2011年。视图:谷歌学术搜索
k .摩泽尔河数据管理在健康安全的研究环境企业架构在温哥华岛健康权威,维多利亚,加拿大,2015。
e . Pattuk m . Kantarcioglu诉Khadilkar h . Ulusoy和s . Mehrotra”BigSecret:键值存储的安全数据管理框架,”学报2013年IEEE国际会议6日在云计算、云2013,页147 - 154,美国,2013年7月。视图:出版商的网站|谷歌学术搜索
n v·乔·d·a·戴维斯,“把个性化医疗的大数据:以病人为中心的框架中,“普通内科医学杂志》上补充卷28日,3,S660-S665, 2013页。视图:出版商的网站|谷歌学术搜索
z陈、杨,棕褐色,l .他h .阴和g .张“新片段NoSQL数据库系统功率分配策略,”计算机科学的前沿,9卷,不。1,第127 - 111页,2015。视图:出版商的网站|谷歌学术搜索|MathSciNet
蜂巢HBase Hive-HBase集成项目主页,http://wiki.apache.org/Hadoop/Hive/HBaseIntegration,2016年。
m·k·罗斯·w·魏,l . Ohno-Machado”“大数据”,电子健康记录。”医学信息学年鉴,9卷,不。1,第104 - 97页,2014。视图:出版商的网站|谷歌学术搜索
t·邓宁和e·弗里德曼“现实世界的Hadoop,”O ' reilly出版、旧金山,加州,美国,2010年。视图:谷歌学术搜索
答:福尔摩斯,Hadoop在实践中曼宁,第二版,2014年版。
n .汗Yaqoob,中情局t·哈西姆et al .,“大数据:调查中,技术、机会和挑战,”科学世界日报ID 712826条,卷。2014年,18页,2014年。视图:出版商的网站|谷歌学术搜索
e·a·穆罕默德,b . h, c . Naugler”MapReduce编程框架,临床应用大数据分析:当前景观和未来的趋势,”个人经历矿业,7卷,不。1,第二十二条,2014。视图:出版商的网站|谷歌学术搜索
李问:姚明,y, p . l .田y钱和j·李,“医学大数据处理系统的设计和开发基于Hadoop,”医疗系统杂志,39卷,不。23日,2015年。视图:出版商的网站|谷歌学术搜索
a·约根森j . Rowland-Jones j .韦尔奇d·克拉克,c .价格和b·米切尔微软大数据解决方案约翰·威利& Sons Inc .,印第安纳波利斯,印第安纳州,美国。
f . Chang j·迪恩,美国格玛沃特et al .,“Bigtable:结构化数据的分布式存储系统,”ACM交易计算机系统,26卷,不。2、第四条,2008年。视图:出版商的网站|谷歌学术搜索
m·r·卡里姆·c·f·艾哈迈德,s。宋,周宏儒。崔”,一个高效的分布式编程模型挖掘有用的模式在大型数据集上,“IETE技术评审,30卷,不。1,53 - 63年,2013页。视图:出版商的网站|谷歌学术搜索
C.-T。杨,J.-C。刘,W.-H。许,H.-W。陆,w . c c。楚,”实现数据转换方法到NoSQL数据库的医疗数据,”学报》第14届国际会议上并行和分布式计算,应用程序和技术,PDCAT 201312月,页198 - 205年,台湾,2013。视图:出版商的网站|谷歌学术搜索
p . O ' sullivan, g·汤普森和a·克利福德“数据模型应用到大数据架构,”IBM研发杂志》上,第18卷。1 - 12,2014页。视图:谷歌学术搜索
吴s . Wang Pandis, c . et al .,“高维生物数据检索与NoSQL技术优化,“BMC基因组学补充卷。15日,8条S3, 2014。视图:出版商的网站|谷歌学术搜索
M.-H。郭,A . Kushniruk和大肠Borycki比较国家卫生数据互操作方法在台湾,丹麦和加拿大,”电子医疗保健,10卷,不。2,14-25,2011页。视图:谷歌学术搜索
j·斯科特,Apache火花与Apache钻。收敛的博客,由MapR供电,https://www.mapr.com/blog/apache-spark-vs-apache-drill,2015年。
w . y . Wang吴作栋、l . Wong和g·蒙大拿、“随机森林Hadoop的全基因组关联研究多变量神经影像表型,”BMC生物信息学,14卷,不。16日,货号。S6, 2013年。视图:出版商的网站|谷歌学术搜索
a .结石和j·马特森研究大型数据存储解决方案:比较运行良好、可伸缩的数据存储解决方案的实时提取和批量插入的数据(主人,论文)计算机科学与工程系,查尔姆斯理工大学的,Goteborg, 2010年瑞典。
c·j·m·约瑟夫·s Aravindh, a . b . Shreeharsha“新一代的比较研究,灵活、可伸缩的、高性能的NOSQL数据库”国际期刊的计算机应用程序,48卷,不。20日,1 - 5,2012页。视图:出版商的网站|谷歌学术搜索
s . Sakr A . Liu d·m·巴蒂斯塔和m . Alomari”大规模的调查数据管理方法在云环境中,“IEEE通信调查和教程,13卷,不。3、311 - 336年,2011页。视图:出版商的网站|谷歌学术搜索
张c和h . De Sterck”,支持多行与全球使用基本的HBase快照隔离,分布式事务”学报2010年11日IEEE / ACM国际会议上网格计算,网格2010,页177 - 184,比利时,2010年10月。视图:出版商的网站|谷歌学术搜索
j·迪恩和美国格玛沃特,”MapReduce:一个灵活的数据处理工具,”ACM的通信,53卷,不。1,第77 - 72页,2010。视图:出版商的网站|谷歌学术搜索
l . Greeshma和g . Pradeepini”输入分裂频繁模式树使用hadoop mapreduce的范例,”理论和应用信息技术杂志》上,卷84,不。2、260 - 271年,2016页。视图:谷歌学术搜索
s . m . Nabavinejad m . Goudarzi, s . Mozaffari”mapreduce应用程序的内存减少阶段的挑战,”IEEE事务,14卷,不。8,2016。视图:谷歌学术搜索
r·c·泰勒“Hadoop MapReduce / HBase框架的概述及其当前在生物信息学中的应用”BMC生物信息学文章补充卷。11日,12日,S1, 2010。视图:出版商的网站|谷歌学术搜索
c·p·Hertzman n .米格尔和k·m·麦克格雷,“隐私设计在公元前人口数据:一个案例研究描述的技术,管理,和身体的隐私控制二次使用个人信息研究公共利益,“美国医学协会杂志》上,20卷,不。1、25 - 28,2013页。视图:出版商的网站|谷歌学术搜索
k .摩泽尔河在台湾卫生安全研究数据管理环境。企业架构在温哥华岛卫生权威,工作草案5。
王a . y . Tang粉丝,y, y姚明,“mDHT: multi-level-indexed DHT算法对HDFS / Hadoop架构extra-large-scale数据检索,“个人和无处不在的计算,18卷,不。8,1835 - 1844年,2014页。视图:出版商的网站|谷歌学术搜索

计算和数学方法在医学

文摘