Semantics-Powered医疗工程和数据分析

1。介绍

卫生信息系统(嘘)在21世纪医疗保健中发挥着至关重要的作用。颁布的2009年美国复苏与再投资法案》,经济和临床医疗卫生信息技术(高科技)法案签署成为法律2月17日,2009年,旨在促进健康信息技术的采用和有意义的使用。从那时起,non-United-States-federal急性病医院的比例,采用基本的电子健康记录(EHR)系统从2008年的9.4%增加到2014年的75.5% (1]。然而,即使采用电子病历的医院是成功的在美国,嘶嘶声的互操作性是落后,阻碍医疗组织之间的数据交换和有意义的异构医疗数据的聚合。这样,即使大幅增加的医疗数据为挖掘未知的知识提供了前所未有的机遇,它仍然是具有挑战性的妥善利用来自不同数据源的数据,克服障碍的数据分析(例如,缺失的数据),和解决现实世界问题,如早期诊断的医疗条件,预测疾病进展,识别患者人群的临床试验。

生物医学本体和受控词汇表提供结构化的领域知识来支持数据标准化和互操作性等各种各样的嘶嘶声EHR,医疗管理和临床决策支持。一些著名的例子包括国际疾病分类(ICD),这是一个广泛使用的受控词汇表计费诊断和程序编码的嘶嘶声(2]。snom CT用于编码问题列表在电子医疗纪录3]。RxNorm是一个医学术语,可实现所有临床药物的名称可以在美国市场,与许多药物的常用词汇在药房管理(4]。此外,随着丰富的语义关系有关的概念,他们也被广泛应用于自然语言处理、数据挖掘、机器学习、语义注释和自动推理。统一医疗语言系统(uml),开发和维护由美国国家医学图书馆,是一个纲要190多个受控词汇表和生物医学本体,包括snom CT, RxNorm ICD。文艺复兴时期的人工智能(AI)、知识密集型和/或数据驱动的医疗应用和研究将直接受益于形式和丰富的生物医学本体知识编码。然而,他们还没有充分利用在医疗保健工程和数据分析。

这个特殊问题的主要目的是汇集了知识表示的该领域的研究人员,数据管理、基于语义和健康数据分析引入创新的方法来解决重要问题在医疗保健工程,说明了使用的生物医学本体和语义web技术来发现隐藏的知识在生物医学和健康数据,和展示最先进的研究和发展。所选的论文进行了严格的审查和修订过程。我们高兴地看到,所选论文提出了新颖的基于语义的使用技术和本体在紧迫的健康问题,如医疗数据集成,从电子医疗纪录模式挖掘,临床医学实体识别文本,和临床数据共享。与此同时,我们也看到了基础研究论文,专注于发展和组织的生物医学本体。这种特殊的多学科性质问题反映,基于语义的问题医疗工程和数据分析被研究人员解决在不同的社区,包括计算机科学,医学,生物医学工程,生物医学信息学,统计,等等。

2。论文在这个特殊的问题

在这个特殊的问题,我们现在8小说研究semantics-powered医疗工程和数据分析。这些研究可以分为以下三个主题:(1)自然语言处理,数据挖掘,(2)临床数据共享和数据集成,和(3)本体工程和质量保证(QA)。

2.1。自然语言处理和数据挖掘

自然语言处理(NLP),可以打开知识和从一种或非结构化的医疗数据的详细信息(例如,临床叙述电子医疗纪录和病理报告),已被广泛用于支持结果报告、临床研究和操作。然而,临床的自由格式文本,它可能包含缩略词(如慢性阻塞性肺病,ADR, BP),印刷错误,和一词多义(如感冒),在文本处理和理解带来了重大挑战。命名实体识别等基本NLP任务(尼珥)和词义消歧(WSD)被广泛在字母语言如英语学习。英语中的大量的受控词汇表也简化了尼珥的英语文本的任务。在中国等以字符为基础的语言没有单词之间的空间和一些受控词汇表,分词是一个特别困难的问题。在这篇文章题为“一个新颖的方法对中国临床医学实体识别文本,“使用中国药品名称字典、j .梁等人提出一个级联类型中国药物实体识别方法,旨在整合句子类别使用支持向量机分类器和条件随机实地药物实体识别。他们应用这种技术的测试集324中国书写承认与人工注释指出,医学专家和展示出了有前景的结果。

自动文本分类NLP的一直是一个受欢迎的应用程序。在处理大量的文本,如在线论坛的帖子,传统手工文本分类有很大的限制对可伸缩性。在这篇文章中,“一个可判断的分类信息提取框架从在线医疗论坛、“j·高等人介绍了一个创新的、有效的随机与森林有关的模型解释的句子分类的结果在网上医疗论坛帖子分成三类:药物治疗,症状,和背景。用于训练模型的特性包括标记序列模式,uml语义类型,填空题型可以特性和启发式特征。这种方法可以帮助研究者和临床医生更好地理解和分析病人的意见和需要对各种健康主题。

使本体从文本中提取用于自动词,重要的是要评估其覆盖。本文题为“语义建模与探索性Exposomics评估在临床情况下,“j .风扇等人介绍了他们的研究在创建一个exposome-oriented从现有本体语义网络实体和关系。然后他们评估了派生的语义网络的文献报道和文本注释。

受控词汇表和生物医学本体可以促进关联模式挖掘的任务在非结构化的医疗数据。本文题为“协会的本体论特征模式意味着在肝癌电子健康记录,”l·w·c·陈等人确定为肝癌患者协会模式提取从肝癌报告并将它们映射为snom CT概念。他们进一步量化协会每两个特性之间的水平在肝癌或肝转移的情况下,那些没有发现异常。

2.2。临床数据共享和数据集成

与电子病历应用的普及和各种医疗组织嘶嘶声,健康数据生成以前所未有的速度和数量。数据共享和数据集成可以减轻不同数据源的偏见来支持更有意义的数据分析。为此,国家联盟在美国如出现网络(电子医疗记录和基因组学),临床与转化科学研究院,以病人为中心的临床研究网络(PCORnet)和观察健康数据科学和信息学(OHDSI)将共同努力创建数据模型,资源和工具来支持医疗来自异构数据源的数据共享和集成。这样的努力也被意大利和泰国等其他国家制造的。在文章“soa平台支持临床数据共享,”r . Gazzarata等人介绍了一个面向服务架构的平台中支持技术的互操作性。平台使用Health Level 7 (HL7)版本3信息结合LOINC逻辑观察标识(名称和代码)词汇表,以确保在意大利嘶嘶声之间的语义互操作性。在这篇文章题为“基于语义Web服务组合为医疗数据集成,“n Arch-int等人提出了一个基于语义Web服务组成系统集成医疗数据在不同卫生组织在泰国和评估系统对执行时间和正确性。

2.3。本体工程和管理

没有well-curated元数据标准,大健康数据集是很难管理和分析。一直在努力开发元数据标准,通常在本体的形式,组织大型卫生数据集语义知识库。在《颗粒本体模型对孕产妇和儿童健康信息系统,”美国伊斯梅尔等人提出了一个数据访问模型管理孕产妇和儿童卫生保健数据利用快速医疗资源的互操作性(FHIR),最新的数据交换标准HL7创建的。他们有针对性的完整性而孕产妇和卫生信息系统在发展中国家。

由于大小和复杂性的生物医学本体建模错误,缺失的概念,失踪的关系,和矛盾是不可避免的,限制他们的效用在关键的临床应用和生物医学研究。自动和半自动的QA方法,突出本体的错误,将导致高质量产量和更好的利用QA人员。在他们的文章“Taxonomy-Based方法本体的质量保证,“m·哈尔普等人提出了一个指导选择并结合适当的抽象网络本体自动识别的概念,将错误的可能性很高。

3所示。讨论和结论

在大数据时代,大量的医疗数据在数据管理和分析带来了重大挑战。基于语义的知识表示形式和方法,封装结构的领域知识,克服这些挑战中扮演重要角色。见这个特殊的问题,数据分析中的重要问题包括数据挖掘、自然语言处理、数据共享、数据集成和本体工程解决了多学科团队提供多元化的专业知识。此外,新方法、平台和算法开发了集成过程,分析不同类型的健康数据,将它们转化为可操作的知识和智慧为更好的病人护理和临床实践。我们设想这项工作将有重大影响的医疗工程和数据分析。我们期待着看到更多的工作在这个领域是出于这个特殊的问题。

确认

客人这个特殊问题的编辑要感谢作者和评论者的科学贡献,祝贺他们高质量的工作。

哲,他
崔道
江扁
米歇尔Dumontier
威廉·r·霍根

引用

国家卫生信息技术协调员办公室,“采用电子健康记录系统在美国非急症护理医院:2008 - 2014,”2017年8月,https://www.healthit.gov/sites/default/files/data-brief/2014HospitalAdoptionDataBrief.pdf。视图:谷歌学术搜索
r·芬尼根“ICD-9-CM编码医生帐单。”美国医疗记录协会杂志》上,60卷,不。2 - 1989页。视图:谷歌学术搜索
a . Agrawal z, y Perl et al .,“snom的准备问题清单的概念意义的电子健康记录的使用,“人工智能在医学上,卷。58岁的没有。2、73 - 80年,2013页。视图:出版商的网站|谷歌学术搜索
c·c·班尼特,“利用RxNorm支持实际计算应用:获取药物历史电子健康记录生活,”生物医学信息学杂志,45卷,不。4、634 - 641年,2012页。视图:出版商的网站|谷歌学术搜索

医疗保健工程