文摘

医学文本数据的数量急剧增加。医学文本数据记录医学的进步,意味着大量的医学知识。自然语言,他们的特点是半结构式,高维、高数据量的语义,不能参与算术运算。因此,如何从总可用数据中提取有用的知识和信息是非常重要的任务。使用各种数据挖掘技术可以从数据中提取有价值的知识或信息。在最近的研究中,我们回顾了不同方法申请医学文本数据挖掘。每个技术相比的优点和缺点不同的医学文本数据的过程进行了分析。我们还探讨了应用程序的算法为用户提供见解,使他们能够使用的资源的具体挑战医学文本数据。此外,讨论了在医学文本数据挖掘的主要挑战。本文的研究有利于帮助研究人员选择合理的采矿技术医学文本数据和呈现的主要挑战他们在医学文本数据挖掘。

1。介绍

大数据的时代即将到来的质量数据以不可思议的速度增长。大数据的概念首次提出在2011年第11届EMC世界大会,指大规模数据集不能被捕获,管理或处理常见的软件工具。大数据时代的到来,医学文本数据的数量急剧增加。分析这些大量的医学文本数据中提取有价值的知识或信息是有用的决策支持,在世界医疗预防、诊断和治疗(1]。然而,大量的多维分析或原始数据非常复杂和耗时的任务。数据挖掘功能了这件事。

数据挖掘的方法发现这部小说,有价值的,和有用的信息,知识,或隐藏模式从巨大的数据集通过使用各种统计方法。数据挖掘是与许多优点与传统模式将数据转换为知识和一些手工分析和解释。数据挖掘方法更快,优惠,节省时间的和客观的。总结各种数据挖掘方法在医学文本数据为临床应用健康管理和医疗研究至关重要。

本文分为4个部分。部分2介绍了医学文本数据的概念。部分3包括数据挖掘方法及其在医学应用文本数据分析。部分4本文总结并提出了未来的工作。

2。医学文本数据

大数据的多样性丰富的数据来源是分不开的。医疗大数据包括实验数据、临床数据和医学影像数据与医学的快速发展正在增加。医疗大数据大数据的应用在医学领域对人类健康和医学有关的数据已经存储,搜索、共享,进行了分析,并提出了创新的方法(2]。医学文本数据是医学的一个重要组成部分大数据中描述自然语言,无法参与一个算术运算,并以半结构式、高维、高数据量的语义(3]。它们不能被应用于研究由于没有固定的写作格式和高度专业的(4]。医学文本数据包含临床数据,医疗记录数据,医学文献数据,等,和这种类型的数据记录医学的进步,意味着大量的医学知识。然而,利用人力来提取实体之间的关系的事实从大量的医学文本需要耗时的工作。随着数据挖掘技术的发展,数据挖掘技术用于医学文本发现在医学文本的关系成为了热门话题。医学文本数据挖掘能够帮助医疗信息的发现。COVID-19研究领域,医学文本挖掘可以帮助决策者控制皇冠疫情通过收集和整理科学基本数据和相关科研文献新皇冠病毒,预测易感人口新皇冠肺炎、病毒变异,和潜在的治疗药物(5- - - - - -8]。

3所示。医学文本数据挖掘

数据挖掘的定义在“1995年国际会议上的第一部分知识发现和数据挖掘,“已广泛应用于疾病辅助诊断、药物开发、医院信息系统、和遗传医学促进医学知识发现(9- - - - - -12]。数据挖掘用于处理医学文本数据可以分为四个步骤:数据收集、数据处理、数据分析和数据评估和解释。本研究总结了算法和工具用于医学文本数据基于数据挖掘的四个步骤。

3.1。数据准备

医学文本数据包括电子病历、医学图像、医疗记录参数,实验结果,根据不同的数据源和制药文物。选择不同的数据是基于数据挖掘任务和存储在数据库中进行进一步处理。

3.2。数据处理

数据的质量将影响数据挖掘的效率和准确性,最终的模式的有效性。原始医学文本数据包含大量的模糊、不完整,嘈杂,冗余信息。以医疗记录为例,传统的纸质医疗记录有很多缺点,如非标准条款,难以形成临床决策支持,分散分布的信息,等等。电子病历的出现后,医疗记录数据逐渐标准化(13]。然而,电子医疗记录仍然作为数据挖掘的自然语言是困难的。因此,它是必要的清理和过滤数据,确保数据的一致性和确定性通过删除丢失,不正确的,嘈杂的,和不一致或没有质量数据。

缺失值在医学文本数据通常是由删除和插值处理。删除是最简单的方法来处理,但是还是少了一些有用的信息。插值方法,分配合理的替换值缺失值通过特定的算法。目前,许多算法都出现在数据处理的过程。多个归罪,回归算法,K最近的邻居经常用来补充缺失的值在医学文本数据。详细算法信息如表所示1。为了进一步了解医学文本的语义关系,研究人员利用自然语言处理(NLP)技术来执行实体命名,关系抽取,对医学文本数据和文本分类操作,效果很好(19]。

3.2.1之上。自然语言处理

自然语言处理(NLP)作为人工智能的一个分支,它主要用于中文分词,词性标注,解析、自然语言生成、文本分类、信息检索、信息提取、text-proofing、问答、机器翻译、自动文摘、文本蕴涵和快速的优点过程和持久的影响。它肯定积极的动机没有负面影响,可有效刺激潜力,不断学习,不断成长,不断发展20.]。

在医学文本处理,NLP是通常用于信息提取和实体命名包括分词、句子分割、语法分析、语法分析和语用分析。自然语言处理的示意图如图1。口等。21)使用NLP工具从临床中提取重要疾病相关概念指出,形成一个多通道处理方法,提高数据提取能力。Jonnagaddala et al。22)提出了一个混合NLP模型识别弗雷明汉心脏衰竭临床症状和体征笔记和电子健康记录(EHR)。Trivedi et al。23)设计了一个交互式NLP从临床文献中提取信息的工具,可以很好地服务于临床医生在评估。达塔等。24)评估了NLP技术提取EHR的癌症信息,总结每个框架的实现功能,发现许多重复的部分在不同的NLP框架造成一定的资源浪费。多元化的医学文本数据的可能性也会带给医疗数据的变换分析模式和决策支持模式。罗伯茨和Demner-Fushman [25]人工注释标签468电子医疗记录,生成一个语料库提供语料库对医学数据挖掘的支持。NLP技术的发展大大减少了手工数据挖掘中数据处理的难度。Shikhar Vashishth et al。26]使用语义类型过滤来提高医疗实体所有的性能连接工具包和数据集,它提供了一种新的语义类型预测模块的生物医学NLP管道。黄玉et al。27]NLP-based分类系统,使用支持向量机(SVM),递归神经网络(RNN),和其他机器学习方法来识别糖尿病患者临床记录和减少人工工作量在医学文本数据挖掘。

3.3。数据分析

数据分析是应用数据挖掘的方法提取有趣的模式。模型的建立是至关重要的知识发现的数据分析。根据数据的特点,进行建模和分析。在最初的测试中,该模型参数化调整。分析了不同模型的优缺点来选择最后的优化模型。数据分析方法用于医学文本数据包括集群、分类、关联规则、回归的目标。方法的详细信息如表所示2

3.3.1。人工神经网络

人工神经网络(ANN)是一种非线性预测模型,由培训学习,准确分类的优点,自学习、联想记忆和高速度寻找最优解决方案,数据挖掘中稳定性好。安主要由三部分组成:输入层、隐层和输出层(40]。输入层负责接收外部信息和数据。隐藏层负责处理信息,不断调整神经元之间的连接属性,如重量和反馈,而输出层负责输出计算结果。安是不同于传统的人工智能和信息处理技术,克服了传统人工智能的缺陷基于逻辑符号处理直观和非结构化信息,具有自适应的特点,自组织和实时学习。它能完整的数据分类、特征挖掘和其他矿业的任务。医学文本数据包含大量的病人健康记录,生命体征和其他数据。安可以分析条件的病人的康复,发现病人数据的规律,预测病人的病情或康复,并有助于发现医学知识(41]。

有几个安用于医学文本数据挖掘技术,如反向传播和分解machine-supported神经网络(FNN)。安信息挖掘技术如表所示3

(1)安核心算法:BP算法。反向传播(BP)算法,安的经典算法,广泛用于医学文本数据。BP算法是单层神经网络的基础上发展起来的。它使用反向传播调整权重,构建多层网络,这样系统就可以继续学习。英国石油公司是一个多层前馈网络及其传播。与递归神经网络算法相比,误差传播相对地使它更快和更强大的高通量芯片和测序数据建模(45]。

BP算法训练数据主要分为以下两个阶段:(1)正向传播过程:每个计算机单元的实际输出值是隐式地处理一层一层地从输入层(2)反向传播过程:当输出值没有达到预期值,实际产出和预期的输出之间的差异是递归地计算,并根据体重调整差异。总误差被定义为 是样品的总数。K样本数据的顺序。T是单位序列号。 是所需的输出。 是实际的输出。

在诊所,判断疾病通常是由多维数据的集成。建立疾病预测模型,BP算法不仅可以有效地分类复杂的数据也有良好的多功能映射。数据和疾病之间的关系可以发现在反复迭代的过程46]。

(2)应用实例。自适应学习基于ANN可以找到医疗发展的巨大医疗的法律文本数据和协助医学知识的发现。Heckerling et al。47结合神经网络和遗传算法来预测尿路感染患者的预后(如图2)。在这项研究中,九个索引(如尿频,排尿困难等)从212年的女性尿路感染被用作预测变量进行训练。症状和尿分析输入数据之间的关系和尿液文化输出数据确定使用安。预测的结果准确。

Miotto et al。48)派生的一个通用的病人表示基于ANN的从聚合电子病历,促进临床预测建模考虑到病人的状态。阿姆斯特朗et al。49]使用安分析240微钙化物质在220例乳房x光检查。数据挖掘结果可以准确预测是否怀疑乳腺癌早期的微钙化是良性或恶性。

3.3.2。朴素贝叶斯

朴素贝叶斯分类(NB)是一种基于贝叶斯理论的计算方法(50]。NB分类算法的条件独立性假设假设属性值是相互独立的,位置是相互独立的(51]。属性值是相互独立的,这意味着不存在之间的依赖项。位置独立性假设意味着文档中的词的位置对概率的计算没有影响。然而,条件依赖性存在条款在医学文献中,在文档的位置不同有助于分类(52]。但医学文本存在条件取决于中词与词之间的关系在文档中;的位置对分类的贡献是不同的。这两个独立的假设导致穷人NB估计的影响。然而,NB已广泛应用于医学文本,因为它在分类决策起到了有效的作用。

(1)核心算法:NBC4D。朴素贝叶斯分类器对连续变量使用一个新方法(NBC4D)是一种基于NB的新算法。它将连续变量分为朴素贝叶斯类,取代传统的分销技术替代分布技术,通过选择合适的分布技术,提高了分类精度(53]。NBC4D算法的实现主要分为五个步骤:(1)高斯分布: (2)指数分布: (3)核密度估计: (4)瑞利分布: (5)NBC4D方法:发现概率的乘积(可能性)给定特定类的每个属性和一个特定类的概率提高准确性

x是输入值,μ是平均值,σ2方差,α参数代表平均值吗(μ),θ代表标准偏差(σ),K高斯函数的核函数,h是平滑参数。

(2)应用实例。挂Ehsani穆贾达姆et al。54]采用电子医疗记录(电子病历)从加拿大初级保健中提取哨点监测网络,使用朴素贝叶斯算法对疾病进行分类特征,并发现朴素贝叶斯分类器是一种有效的算法来帮助医生诊断亨特综合征病人和优化管理(如图3)。为了预测血管造影结果,Golpour et al。55]NB算法用于处理医院的医疗记录和评价尺度,发现NB模型与三个变量有最好的性能和可能医生决策的支持。

3.3.3。决策树

决策树是一个树结构中,每个nonleaf节点表示一个测试功能属性,每个分支代表功能属性在某值的输出域,和每个叶节点存储一个类别56]。使用决策树的过程做出决定是要从根节点开始,然后测试相应的特征属性的物品分类,选择输出分支机构根据其值,直到到达叶子节点,并最终以分类存储在叶节点为决策结果(57]。决策树学习算法的优点包括良好的可解释性感应,各种类型的数据处理(分类和数值数据),白盒建模、噪音,声音强劲性能和处理大型数据集。医学文本数据是复杂的58]。例如,电子病历数据不仅包括疾病的特点还病人年龄、性别和其他特性数据。自建设决策树从一个节点开始,训练数据集划分为若干个子集根据决策节点的属性,因此,决策树算法可以处理的数据类型和一般属性的同时,也具有一定的优势对医学文本数据处理的复杂性59]。决策树的结构主要分为两个步骤:分类属性选择和修剪。常见的算法C4.5 [60]。

(1)核心算法:C4.5。几个提出如ID3和C4.5决策树算法。著名的昆兰于1986年提出的ID3算法具有明确的理论,简单的方法,和很强的学习能力。缺点是只有有效的小数据集,对噪声敏感。当训练数据集的增加,相应的决策树可能会改变。决策树在选择测试属性,倾向于选择属性值。1993年,昆兰提出了基于ID3算法C4.5算法(61年]。相比与ID3、C4.5克服信息属性选择多个属性选择的短缺,李子树上施工过程和流程不完整的数据。和它使用增益比率作为选择标准的决策树中的每个节点属性(62年]。特别是,它扩展名为S-C4.5-SMOTE,不仅可以克服数据失真的问题也提高整体系统性能。其机制的目标是有效地减少数据无失真通过维持平衡的数据集和技术平滑。

处理公式如下: n是分类的数字。p (x))代表样本的比例x。一个作为划分数据集的特性年代 样品的数量的比例在样本的总数。

(2)应用实例。决策树算法可以构造特定的多属性决策树数据集,在相对时间得到可行的结果。它可以作为一个好的医疗文本数据挖掘的数据分类方法。

机构(63年)利用C4.5算法开发了一个抑郁预测模型对韩国痴呆照顾者基于二次分析的2015韩国社区健康调查(KCHS)调查结果。和有效的预测率为70%。整个研究想法如图4

魏et al。64年)选择从中国自发报告数据库报告从2010年到2011年,用决策树计算药品不良反应(ADR)信号的分类。道郑et al。65年)采用决策树算法构建一个基本的数据框架。300年的数据被随机选中的EHR 23281糖尿病患者对糖尿病的类型进行分类。框架的性能很好,分类精度高达98%。

然而,决策树算法很难处理缺失值数据。有很多缺失值在医学文本数据,由于数据的高复杂性。因此,当各种类型的数据不一致,决策树算法会产生信息偏差,并不能获得正确的结果。

3.3.4。关联规则

关联规则往往寻求非常大的数据集,其高效的算法是很有价值的。它们被用于发现大量数据的相关性和反映事件和其他活动之间的依赖或相关知识(66年]。医学文本数据包含大量关联数据,如症状和疾病之间的联系和药物和疾病之间的关系。医疗文本数据挖掘使用关联规则算法有利于发现医学文本数据的潜在联系,促进医学的发展。关联规则是表达式XY。在事务数据库中有两个关键表达式:(1)支持{XY}。交易的数量的比率XY所有事务(2){信心XY}。交易的数量的比率XY交易的数量X

给定一个事务数据集,挖掘关联规则是生成关联规则的支持和信任是大于用户给定的最小支持度和最小信心,分别。

(1)核心算法:先验的。先验的算法是最早和最经典的算法。迭代搜索方法用于查找数据库中的项目一层一层地之间的关系。的过程由连接(类矩阵运算)和修剪(删除不必要的中间结果)。在该算法中,项目集的概念是项目的集合。一套包含K项目是一组K物品。项目集频率是交易中包含一个项目集的数量。如果一个项目设置满足最低的支持,它被称为一个频繁项集。

先验的算法分为两个步骤来发现的最大项目集:(1)计算一个元素项目集的出现频率,并找出数据集不小于最小支持形成一维最大项目集(2)循环,直到没有最大项目集生成

(2)应用实例。通常关联规则是数据挖掘的方法用于探索和解释大型事务数据集来确定独特的模式和规则。他们常常被用于预测索引数据和疾病之间的关系。Exarchos et al。67年)提出了一个基于关联规则的自动化方法,利用关联规则算法分类和模型心电图(ECG)数据,和监控在心电图缺血性拍了很长一段时间。在这项研究中,关联规则的具体应用过程如图5

Hrovat et al。68年结合关联规则挖掘,挖掘大型事务数据集设计,基于模型的递归分区预测时间趋势(例如,行为模式)子组的患者基于放电总结。之间的相关分析药物不良反应事件和药物治疗,Chen等人。69年]先验的算法用于探索不良事件之间的关系和药物治疗在非小细胞肺癌患者,表现出一种很有前途的方法来揭示不良事件的风险因素在癌症治疗的过程。在药物和疾病之间的关系,陆et al。70年)使用先验的算法寻找草药组合治疗尿毒症的瘙痒从中草药浴治疗和探索的核心药物。

3.4。模型评价

通过测试集生成的分类数据挖掘模型不一定是最优的,这可能导致错误的测试集分类。为了得到一个完美的数据模型,是非常重要的评估模型。接受者操作特征(ROC)曲线和曲线下面积(AUC)是常见的评价方法在医学文本数据挖掘。

中华民国曲线有一个y设在TPR(敏感性,也称为召回率)和一个x设在玻璃钢(1-specificity)。TPR越高,玻璃钢,越小,模型的效率就越高。AUC被定义为ROC曲线下的面积,也就是说,AUC是中华民国的积分,面积小于1的值。我们随机选择一个正样本和负样本。的概率分类器确定正样本值高于负样本AUC值。Pourhoseing胡里节等。71年)使用AUC方法评估直肠癌患者的预后模型的预测精度,发现随机森林(RF)和BN模型高。

4所示。讨论

数据挖掘是有用的医学小说文本数据中提取有用的信息或知识。综述了几种研究工作为医疗文本数据挖掘是基于四个步骤。它有利于帮助研究人员选择合理的方法挖掘医疗文本数据。然而,一些困难在医学文本数据挖掘也会考虑。

首先,缺乏公开注释数据库影响数据挖掘的发展在一定程度上,由于各国医疗信息的记录和描述的差异。其信息组件高度异构和数据质量不均匀。最终,它带来了一个关键障碍,使注释存在的瓶颈医学文本数据(72年]。当前,国际标准包括ICD(国际疾病分类),snom CT(人类和兽医临床方面的系统化的术语),CPT术语(当前程序),按(Diagnosis-Related组),LOINC逻辑观察标识(名称和代码),网格(医学主题词)MDDB(主要药物数据库)和uml(统一医学语言系统)。很少有全集在医疗领域的文本。在最近10年,自然语言经历了一次真正的革命范式转变。更多的新技术被应用于自然语言信息的提取。许多学者已经建立了某种疾病的语料库。然而,有一个医疗实体之间的密切关系。一个语料库不能把数据准确,很容易忽略关键字信息。

其次,文本的记录不同的国家有不同的看法。例如,阿育吠陀医学,传统的阿拉伯伊斯兰医学和传统马来药品从印度,中东,和马来西亚等问题不一致的描述,治疗复杂的治疗方法,在统计分析困难,导致很大的困难在医学数据挖掘(73年]。同时,传统医学的信息化建设是不够的。例如,传统的北美土著医学文献主要涉及临床疗效评价和疾病的应用程序,这是复杂的记录方法,导致困难的数据挖掘74年]。中国医学文本语言的特殊性。与英语表达不同,汉字不是彼此分离,从而增加数据分析的困难。在语义方面,中国医学文献等问题存在一词多义,同义词,模棱两可的表达,复杂的关系,缺乏明确的相关性。建立一个标准数据库基于这些数据是非常困难的,这需要非常先进和复杂的算法。

此外,电子医疗记录包含个人隐私信息。有时,临床电子病历数据不可避免地会被用于医学文本数据挖掘。因此,保护病人隐私数据也是一个问题,在数据挖掘需要注意。

在未来的工作中,我们将尝试建立和推广医疗文本数据标准智能代理的帮助下,构建公开注释数据库医学文本数据挖掘的。

缩写

EMC: 美国一个EMC company
NLP: 自然语言处理
安: 人工神经网络
英国石油公司: 反向传播
中华民国: 接受者操作特性
TPR: 真阳性率
玻璃钢: 假阳性率
AUC: 曲线下的面积
射频: 随机森林
BN: 贝叶斯网络
电子健康档案: 电子健康记录
ICD: 国际疾病分类
snom CT: 人类和兽医临床的系统化术语条款
CPT: 当前程序的术语
按: Diagnosis-related组
网: 医学主题词
LOINC: 逻辑观察标识名称和代码
uml: 统一医疗语言系统
MDDB: 主要药物数据库
支持向量机: 支持向量机
RNN: 递归神经网络
ID3: 迭代二分3
KCHS: 韩国社区健康调查
美国存托凭证: 药品不良反应
心电图: 心电图描记的
模糊神经网络: 分解machine-supported神经网络。

数据可用性

没有数据被用来支持本研究。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作得到了国家自然科学基金(81703825),四川科技项目(2021 yj0254),和自然科学基金项目的四川省教育部门(18 zb01869)。