文摘
电子健康记录(EHR)使临床决策支持系统。在这项研究中,一组112腹部计算机断层扫描成像检查报告,包括59例肝细胞癌(HCC)或肝转移(所谓的肝癌组为简单起见)和53例没有检测到异常(NAD组),收集从四个医院在香港。我们提取条件对肝癌相关报告并将它们映射到本体特性使用系统化的医学术语(snom)临床术语(CT)。主要预测面板是由这些本体特性。协会每两个特性之间的水平在肝细胞癌和NAD组使用皮尔逊相关系数的量化。肝癌组揭示了一个独特的协会模式,表明肝癌和为疑似病例提供临床决策支持,激励的新特性形成了增强预测面板。逻辑回归分析与逐步前进过程应用到主和增强预测集,分别。获得模型的新功能获得84.7%的敏感性和88.4%的总体精度区分肝癌和NAD情况下,相比显著提高了,没有的新特性。
1。介绍
纯粹的临床数据量主办的电子健康记录(EHR)系统促进疾病的探索签名和强化相关的临床决策支持功能1,2]。
作为一个实时的数字以病人为中心的记录,EHR包含大量的患者信息和实验室和测试结果。它提供了机会,提高病人的治疗,在临床实践中嵌入性能的措施,使信息快速而安全地向授权用户(3]。这些大量的复杂的数据包含丰富的输入精密医学和大数据分析,可以提取巨额知识来提高医疗保健的质量(4]。多个异构数据源集成开发也符合生物医学工程等多学科改造。在这篇文章中,推断电子医疗纪录的人类词汇判断计算模型语义的方法,可以大大减少人工干预,拯救人类的努力。
EHR的快速发展提供了良好的机会,利用数据对风险建模和临床决策。除了结构良好的人口统计数据和实验室信息,临床报道EHR为机器学习和数据挖掘提供巨大的潜力开发的详细临床信息来改善风险建模和预测。例如,机器学习方法可以开发基于承认笔记和进步笔记来提高预测的主要不良心血管事件(MACE)的急性冠脉综合征(ACS) (5,6]。提取关键信息的报告是一个基础的步骤,使这些数据挖掘应用程序。
作为一个在自然语言处理和信息检索,简化表示bag-of-words模型一直被应用在文本聚类任务,独立的文档是由单一治疗方面(7]。没有参考术语,一袋的话可以从文档中提取数组形式的独特功能权重取决于频率和形式特征向量。然而,特征向量的长度与文档的数量增加单调感兴趣的数据集,危害bag-of-words模型的实用性。
最近,一些研究人员关注的应用从文档中提取概念的本体特性。基于参考本体论,特征向量包含常见的固定元素,那些已经被定义在特征提取之前。这样的本体论特征向量模型可以提高文本检索和分类的性能(8,9]。在一些研究中,特征向量模型已经开发了EHR的临床文本和图像模式转换成一个数组的数值(10- - - - - -13]。
需要一个医学本体映射的支持文本信息,如图像诊断报告中发现,一个特征向量(12,13]。系统化的医学术语(snom)临床术语(CT)是一个本体论的临床术语标准,组织为概念,与“是”或逆”是一个“关系14- - - - - -17]。在这种层次结构,概念在特定级别可选为特征的概念。
一些研究SNOMED-CT相比与其他标准,如国际疾病分类(ICD)和MEDCIN18,19]。触发点实验室检测,临床条件提取和映射到ICD10 SNOMED-CT实验室指导方针。发现ICD10只能覆盖43.1%的临床条件,而这些条件被SNOMED-CT映射的80.1%。代表创伤性脑损伤(TBI)概念,SNOMED-CT产生的敏感性为90%,优于MEDCIN的敏感性为49%。因此,SNOMED-CT被选为参考本体论的研究。
临床术语之间的语义距离EHR概念和特性可以量化计算沿道路边缘连接在“是”层次结构(10- - - - - -12,20.,21]。聚集所有的语义距离功能概念生成一个本体论特征向量描述一种EHR的疾病上下文。一项研究进行了评估和比较信息内容和边缘计算方法提出的各种作品发表对基准(11]。发现功能由edge-counting优于大多数的信息内容的方法。因此,边缘计算权重的特性是必要的。我们假设功能协会模式来自于电子医疗纪录可以唯一区分疾病组从nondisease组。如果这样的协会模式存在,新特性可能来源于模式和纳入现有的本体论特征向量的本体论特征加强电子医疗纪录,因此使用相似度算法的分类性能,如图1。
确定了本体论模式可以用来开发一个临床决策支持功能。新情况下,类似的情况下从EHR数据库检索使用的模式为临床医生提供可行的诊断和治疗选择的证据。相似搜索算法基于本体论向量模型已成功应用于类似放射图像检索和类似的放疗治疗计划检索报告(22- - - - - -24]。
除了临床证据,概念之间的关系的模式可以用来提醒临床医生检查时包含一个概念相关的概念已经被提到的电子健康档案。
2。方法
2.1。数据收集
我们回顾性收集112图片报道的腹部电脑断层检查放射学四个部门在香港当地医院。肝癌或肝转移中发现了59例(称为肝癌组为简单起见),其他53例没有检测到异常(NAD组)。这些从池中随机选择112例肝癌或肝转移的图像报道在肝癌病例的诊断报告,而不是在NAD病例的诊断报告。数据收集之前,第三方临床人员删除病人姓名、身份证号码、电话号码和地址的报告和一个随机生成惟一的ID分配给每个案例。我们获得人类主体伦理批准香港理工大学(HSEARS20140710002)。
2.2。本体论特征提取
HCC-related临床条款从图像中提取手动报告根据SNOMED-CT策划统一医疗语言系统(uml;注册码:nlm - 0315126310)。在提取过程中,整个形象报告被读取和解释。否定和不确定性的一种疾病,疾病,或图像发现被认为是“不检测”和相应的词并没有被视为本体论特征映射。修饰符的临床术语没有发现图片报道。促进未来研究更大的数据集,可以自动提取如果条款在图像报告已经标记SNOMED-CT或自动提取文本挖掘方法。uml组织临床术语在概念和SNOMED-CT定义概念之间的关系用“是一个”层次树。提取的术语被投影到特征概念在一个特定的水平,以确保一致的对比报告。
在我们之前的研究中,一组电子病历收集来自47个科目的II型糖尿病患者(在香港21]。SNOMED-CT层次结构的水平1 - 4被视为个人候选集的特征的概念。对于每一个级别,使用符合SNOMED-CT本体论特征向量生成层次结构之间的相似性得分计算每一个可能的一对电子医疗纪录。使用SNOMOD-CT 4级,准确性是排名最高的协议在EHR对颈动脉斑块的识别。重要的是要注意,四级已经有6964个特性方面,提供足够的粒度描述电子医疗纪录。5级的使用确实是不可行的,由于非常大量的功能。由于最优分类粒度,四级概念被认为是功能概念在这工作。
Edge-counting方法如图2。对于每个报告,本体论的特性, 使用edge-counting方法,生成基于以下公式: 在哪里的条件概率是吗由于肝癌的发生和功能概念代表之间的边数我th概念和特性j从报告中提取th临床术语。一个较小的边数意味着功能概念上更接近临床术语概念。因此,应采取边的最小数量确定功能的激活度的概念。PubMed文档聚类已经成功演示了使用edge-counting方法(25]。
的值在0和1之间,表明之间的相关性我th功能概念和临床术语在一份报告中称。这种相关性可以调制条件概率,,这是估计的具体term-weighting方法(22]。事实上,来自方向余弦相似度度量代表本体特征的产品的总和。每个产品对应的特性消除了平方根,和价值变成了重量与产品的相关程度的功能概念激活两个电子医疗纪录。
很明显,的值遵循一个非正态的分布在肝细胞癌和NAD人口,这违反了的假设使用皮尔逊相关系数的统计分析。Rank-based逆规范化是一个流行的方法,将特征值转换为那些通常分布在个人(26]。这些特性与零值不会导致任何影响形象的描述报告和特性之间的关联模式。因此,那些新鲜感特性被排除在逆规范化流程和保持不变。为每个特性的概念,非零值被排名 在小组的报告和分别是总数的报告和新鲜感的数量特征。激活的价值我概念是由th特性 在哪里代表标准正态分位数函数和表示一个常数,其值是由零所显示van der Waerden [27]。跨一组功能的激活值概念形成以下向量:
请注意,非零遵循正态分布, 后,逆规范化。
2.3。本体论协会模式
协会之间的水平两个特性的概念是用 肝细胞癌组和 NAD集团,由以下公式: 在哪里和代表向量权重和肝细胞癌组特性的概念;和代表向量权重和特性的概念在NAD组;和 是两个数组之间的皮尔逊相关系数。两组相关系数,和在肝细胞癌和NAD团体形成两个累积分布,和相比,使用两个示例Kolmogorov-Smirnov (KS)。为了测试显著差异,两个累积分布之间的最大偏差,价值,而其临界值,派生,这是基于我们的开发方法(28),由以下方程。相关阈值,和非常倾斜,可以识别和用于描述摄动本体论协会模式。 在哪里是显著性水平,0.05, , 在这项研究中。的临界值是0.2102,已经被详尽的证明了计算机模拟(28]。
2.4。新特性来自协会模式
有趣的是去探索一些新特性,这意味着图像的肝癌病例报告,基于上述本体论协会模式。第一个新功能,的平方的总和激活值描述的图片报告k在一组。
这个新特性的期望值可以估计其平均组。
显然表明这个新特性的期望值的下界协会水平的总和所有可能的双功能。第二个新功能,的平方的总和激活值的绝对值描述图像的报告k在一组。
第二个新特性的期望值,再一次,可以估计其平均组。
上面的公式中清楚地表明,第二个新特性的期望值定义了协会的总和的上限水平在所有可能的双功能。当KS测试表明,两组的本体论协会模式显著不同,我们希望协会的和水平的一组区别于另一组。因此,新特性可以表示两组之间的差异。
2.5。逻辑回归
统计分析是由SPSS (IBM SPSS统计22;位于纽约阿蒙克市)。二元逻辑回归选择和独立变量的最优估计子集预测分类结果Y编码由1或0,代表肝细胞癌和NAD的工作。逐步推进过程被用来获得潜在的逻辑回归模型预测是优先和输入到模型一个接一个,直到预测能力进行优化。过程的结果在接下来的模型米预测, 其中分对数是日志的几率估计 ,P估计的概率 ,是预测输入到模型和我相关系数预示 。之间的关联结果的统计学意义,每个指标表示 。均衡的示例中,我们假设50%的情况下将归类为 和截止分对数设置为0。样本不平衡时的病例数的结果分类与另一类2 - 5倍。样本不均衡,常量0是纠正了扣除日志的几率 观察到的样本。模型系数的综合测试表明识别模型的整体性能。
两组候选预测,主要设置和增广集,被认为是对于识别逻辑回归模型。的主要设置由激活值特性的概念: 。增强集是由激活的特性值的概念和三个新特性来自协会模式: 。
2.6。实验设置
图3说明了实验步骤的流程图进行研究。
2.7。绩效评估
敏感性、特异性和准确性是用来评估整体性能的两个逻辑回归模型基于主和增强预测集。检查协议主要预测模型(PPM)和增强预测模型(APM), 2×2应急表HCC,河畔,所有情况下构造。McNemar检验法测试是用来比较敏感,特异性,两个模型的整体精度。性能的差异被认为是重要的如果值小于0.05。
3所示。结果
3.1。提取的特征
从59岁和53图像各自的肝癌和NAD组织的报道,38个临床术语提取和映射到uml 38独特的概念。根据图中所示的方法2,这些术语被投射到30功能概念的四级SNOMED-CT“是一个”层次结构(表1)。后计算边缘和估计的条件概率的概念,他们的权重计算,形成30×59岁和30×53矩阵对肝癌和NAD组。
3.2。本体论协会模式
协会每两个特性之间的水平计算的概念。我们生成435协会水平为每个HCC和NAD组。图4显示了协会的累积分布水平两组和他们的区别。最大的偏差, 被发现在 和超过其临界值。因此,两个本体论协会模式明显不同。
3.3。主要预测模型
逐步推进过程停止在第二步预测准确性是最优的,收益率以下回归: 在哪里代表了激活“放射发现”和价值,“异常放射密度,结节性。“预测放射发现,“与HCC的log-odds显著相关( )。不断调整补偿不平衡NAD和肝细胞癌的病例。综合测试表明log-odds解释的方差模型显著大于无法解释的方差(χ2= 11.989,df = 2, )。为 ,比肝癌NAD的可能性更大。为 ,比NAD HCC的可能性更大。分类器基于这个模型如图5(一个)。的y设在代表的线性组合和在上面的方程。水平虚线表示方程的阈值水平,0.114,上面一个病变分为肝细胞癌,否则,河畔。
(一)
(b)
3.4。增强预测模型
逐步推进过程停止在第5步预测精度是最优的,收益率以下回归: 在哪里和的广场和本体论的特性和他们的绝对值,被纳入模型在前两个步骤;,,代表的激活值“放射发现”,“身体质量区域,”和“成像结果异常,”分别包括在步骤3 - 5。增强预测,和主要预测因子,放射发现,“和“成像结果不正常”的log-odds显著相关肝细胞癌( ,0.006,0.003,0.04)。常数也已经调整,以补偿不平衡NAD和肝细胞癌病例。综合测试表明log-odds解释的方差模型显著大于无法解释的方差(χ2= 70.619,df = 5, )。为 ,比肝癌NAD的可能性更大。为 ,比NAD HCC的可能性更大。分类器基于这个模型如图5 (b)。在步骤5中,增强预测因子的线性组合,和,形成y设在的主要预测因子,,,,x设在。分类器是用虚线表示。
3.5。模型的性能比较
使用PPM, 98.1%,也就是说,52 53 NAD的情况下,和57.6%,也就是说,34个59 HCC的情况下,正确分类。总体精度为76.8%。使用APM,正确分类肝癌病例显著增加到84.7% ( ),它包含50个59的肝癌病例。虽然正确分类NAD病例是轻微下降到92.5% ( ),APM提高整体精度显著(88.4% )。表现的比较总结了表2。
4所示。讨论
本研究说明的方法描述文本图像报告的数值,重量的一致性与本体论标准报告内容。这种方法在我们之前的研究已经证明所有SNOMED-CT的四级功能概念被认为是描述图像相同的一组用于这项研究报告(22]。使用特定的术语权重,总体精度最高,达到74.3%,报告对映射方向余弦相似性度量的基础上修改。在这项研究中,进一步转化为标准化的特性值, 通过逆规范化(26]。这种转换可以帮助减少引起的噪声或离群值通过edge-counting特性的方法。转换后的特征被认为是主要的预测因子。二元逻辑回归模型,确定使用的主要预测因子作为候选人逐步前进过程中,用于分类的报告。总体精度提高到76.8%。
表明interfeature协会水平在肝细胞癌和NAD组表现出明显不同的分布特性的概念具有强有力的协会在肝细胞癌(29日]。这个观察推导了两个新特性,这是平方的现有功能和他们的绝对值。我们证明了这两个新特性的预期值,由他们的平均估计,代表协会的总和的上下极限水平。新功能是结合现有功能提供增强预测集的逐步发展过程。发现总体精度显著提高到88.4% ( )。敏感性,一个重要的诊断性能指标,也显著从57.6%上升到84.7% ( )。除了前两个新特性,我们确定了功能概念:“放射的发现,”“身体质量区域,”和“成像结果不正常。”
对于新的疑似病例,这预测小组代表一种疾病签名可以用来协助临床决策时对观察到的。在未来的工作中,发现签名前应与独立的数据验证了其临床应用。详细的签名在病人管理的潜在含义应该进一步探讨使用大数据分析。
另一个应用程序确定协会的模式是不准确的检测医疗编码。疾病诊断时,可获得“coactivated”功能概念和检查对疾病的研究模式。潜在的不准确的编码可以检测和临床医生会提醒。在公共卫生层面上,在适当的医疗编码可能导致系统失败或overadjustment病例组合测量当评估护理质量(30.]。在一些医疗模式,这也将影响计费,报销,保险索赔31日]。
一些观察到的图像模式中提到的图像SNOMED-CT报告不能映射到概念。例如,静脉注射对比诱发像素光密度的变化在不同阶段的CT扫描。对比度增强特别是阶段对肝癌的诊断是至关重要的。然而,SNOMED-CT尚未定义的概念,这可能代表密切“对比度增强,”“动脉增强”和“hyperdensity在动脉相。“这是本研究的一个限制,阻碍了该预测模型的精度。
5。结论
本研究证明了本体论特征的提取图像基于本体论标准的报告内容。结合新特性,推导出微分协会的模式,与本体论特征形式增强小组预测,表明HCC的形象报道。
的利益冲突
作者宣称没有利益冲突。
确认
这项研究是由飞利浦研究中国财务支持。