一个可判断的分类框架从在线医疗论坛信息提取

文摘

在线医疗论坛(OHFs)已成为越来越受欢迎的病人分享他们与健康有关的经历。医药相关文本发布OHFs可以帮助医生和患者更好地理解具体的疾病和其他病人的情况。提取文章的意义,常用的方法是将句子分成几个预定义的类别不同的语义。然而,非结构化形式的在线文章带来挑战现有的分类算法。此外,尽管许多复杂的分类模型如深层神经网络有良好的预测能力,很难解释模型和预测的结果,那就是,然而,医疗应用的关键。应对上述挑战,我们提出一个有效的和可翻译的OHF帖子分类框架。具体来说,我们把句子分成三类:药物治疗,症状,和背景。每个句子是投射到一个解释的特征空间组成的标记序列模式,uml语义类型,以及其他启发式的功能。与森林有关的模型为分类OHF开发职位。一种解释方法也发达,可以显式地提取决策规则有所了解有用的信息的文本。 Experimental results on real-world OHF data demonstrate the effectiveness of our proposed computational framework.

1。介绍

过去几年见证了越来越受欢迎的在线健康论坛(OHFs),如WebMD讨论和病人,病人之间的沟通平台。普华永道2012年的一项调查显示,54%的1060名参与者满意他们的医生获取信息从在线医生社区有关他们的健康状况1]。OHFs可以用于病人寻求建议和分享经验。丰富的用户生成内容相关医疗OHFs能提供洞察力的信息其他病人,医生,和决策者促进了解疾病和病人的健康状况。

提取的信息从OHF帖子,普遍采用的策略是把文章分成句子,每个句子划分成不同的类别根据其语义意义(2,3]。例如,图1显示了从一个叫做patient.info (OHFhttps://patient.info/forums)。我们强调橙色的句子有关的症状,一个紫色的药物。前的症状提供关于用户的信息,反映在术语“心痛”,“胃酸倒流,”和“腹痛、肠易激综合症。”后者一告诉用户的药物治疗,在术语“埃索美拉唑”介绍了药物治疗疾病。这些信息可以帮助其他用户获得更全面的对疾病的理解。

然而,这是一项具有挑战性的任务有效地分析表达式在健康论坛上。首先,用户生成内容在OHFs通常是结构化和包含背景相对不那么重要的信息分析(3]。不规则和噪音数据阻碍我们直接将现有的分类模型应用于自动分析文章。需要一个更复杂的分类框架在OHFs处理非结构化数据,为了提取有用的模式(例如,条款,文本序列)的准确分类。第二,当分类文章句子分成不同的类,很难使分类精度之间的权衡和可解释性4,5]。与健康有关的任务,除了理想的分类性能,human-understandable解释分类结果也至关重要,因为病人或医生不会冒险信任预测他们不理解。复杂的模型(例如,深层神经网络,支持向量机)是准确的分类,但是他们不直接提供个人的原因分类的结果。简单的模型,如线性分类器和决策树可以提供解释和分类结果,但通常他们不能达到相应的表现为复杂的模型。

在本文中,我们提出一个有效的框架分析OHF职位。我们建议开发一种随机森林模型将句子划分为三类,即药物治疗,症状,和背景,为了得到一个准确的理解每个句子的作用在整个表达式的健康情况。此外,human-understandable解释分类结果生成的森林模型。使解释,所涉及的功能分类任务human-understandable方式设计。此外,功能分类实例的贡献可以显式地衡量决策规则构造训练过程中(6- - - - - -8]。具体来说,我们代表医药相关句子等各种语义特性标记序列模式(物流服务商),uml语义类型特征(3),填空题型可以和启发式特征。物流服务商代表基于频繁模式的文本。uml特性表明存在术语由领域专家定义的。这样,每一个非结构化的句子是映射到特征空间,便于进一步分析。同时,基于启发式信息也可以用来提高分类性能。本文的贡献总结如下:(我)我们提出一个与森林有关的框架来处理医药相关的文本分类问题。标记顺序参与模式特性描述非结构化医药相关文本从句法和语义两个层面。(2)我们开发一种方法构建决策规则集成的决策树与森林有关的模型来实现模型的可解释性。(3)的有效性和可解释性框架通过实验演示了一个真正的OHF数据集,我们详细分析我们所提供的解释框架。

2。框架概述

在本节中,我们将简要介绍每个模块提出了框架(图2),包括数据预处理,可判断的特征提取,与森林有关的模型分类和解释。我们把每个句子文章分为三个类别之一:药物治疗,症状,背景。给出了每个类别的定义如下。(我)药物治疗:如果一个句子包含相关的信息来治疗疾病,治疗任何疾病,缓解疾病症状,或预防任何疾病,那么我们分配的句子药物治疗类别。(2)症状:如果一个句子包含任何相关内容偏离正常功能或个人的感觉,可以表达现象受到疾病的影响,我们分配的句子症状类别。(3)背景:如果一个句子不能分类药物或症状类别,然后我们分配的句子背景类别。

给定一个句子“我一天两次服用90单位应用”为分类,例如,我们将首先将它转换成一个实例特征空间通过预处理识别项“90”药物项数量“应用”,频率词“一天两次,”每一项的背景下,等等。然后,我们将使用这个句子与森林有关的模型分类,以及解释基于歧视特性确定的模型。

2.1。模块1:预处理和标签

在这个模块中,我们收集到的在线健康社区的帖子分割成句子和手动分配每个句子一个标签的类{药物治疗,症状,背景}。正式,让自然语言空间和医药相关是目标标签空间。假设的集合标记的句子可用于模型的训练和测试;代表的原始文本我th句子和代表的标签我句子。换句话说,每个句子都贴上,,或。

2.2。模块2:可判断的特征提取

在这个模块中,我们提出的特征提取方法医药相关的句子转换成在一个实例D维数值空间,在那里是用来表示每个句子的数量特性。通过这种方式,我们可以用数值表示每个非结构化句子向量,这有助于模型的训练和测试。在那之后,整个数据集转换在哪里原来的句子标记数据集和吗是句子的数量,而为代表的合成数值实例吗特性。这些特性也直观和深刻的来帮助人们更好地理解句子。我们将详细讨论这个模块部分3。

2.3。模块3:与森林有关的模型分类和解释

在这个模块中,任务是训练模型可以分类成一个类实例和解释句子属于类和。我们主要介绍建筑与森林有关的模型分类和解释实例:(1)随机森林(9)是生长在数值实例从功能获得工程模块,可以解读为更高的重要性根据一些标准的特点,例如,基尼杂质。(2)DPClass [8)是一种基于随机森林模型的方法在森林里提取决策规则的区别的组合,可以实现通过使用向前选择选择顶部的组合。这个模块将在节中详细讨论4。

3所示。提取可翻译的功能

可翻译的功能发挥重要作用使用户能够理解预测结果。在本节中,我们讨论如何与健康有关的句子转换成数值实例特征空间组成的标记序列模式,uml语义类型特性,填空题型可以特性和启发式特征。提取标记的方法,详细介绍了序列模式。

3.1。标记序列模式

在句子分类,如果我们简单地使用包的单词来表示每个句子,整个数据矩阵将是巨大的和稀疏的,因为有大量的术语,很多条款只对一些特定疾病发生在一些句子。不良的使用这些原始术语来解释他们的相关性与句子类别作为分类结果的解释。原因是原始条款没有明确指定词语的语义,或包含句子的结构信息。因此,我们建议使用更高级的特性来表示一个句子,而不是单词。我们将依靠这些高级特性来解释句子分类的结果。

3.1.1。标记序列映射

我们第一次提取标记序列作为句子的初步表征10]。一个标记序列形式序列→标签,在那里序列是一个序列标签和标签是标签的类。将一个句子转换成一个序列,我们使用标签在表1替换句子中的词。词的语义映射到相同的标签。例如,药物句子“我一天两次服用90单位应用”可以转化为关键字对((PRP”,我”),(VBP”,我”),(VBG”,采取”),(CD”,90年”),(发自”,单位”),(药物”,应用”),(频率”,一天两次"))和整个句子都表示为一个标记序列:(PRP,VBP,VBG,CD,发自,药物,频率)→药物治疗。


标签	描述

CC,CD,DT,前女友等等	词性标记(https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html)
药物	药物或药物方面(http://www.webmd.com/drugs/index-drugs.aspx?show=drugs)
计算机协会	症状术语(http://symptomchecker.webmd.com/symptoms-a-z)
频率	频率短语(自定义正则表达式)

给定一个训练集的标记的句子 ,我们每一对转换成一个标签序列通过应用上述方法,这样我们可以获得数据库标记的序列。我们的下一个目标是我的标签序列的频繁模式和采用这些频繁模式作为功能捕捉医药相关句子的特点。这个任务可以分为两个步骤:(1)频繁序列模式挖掘和(2)建设频繁序列模式的标签。

3.1.2。频繁序列模式挖掘

我们现在关注的频繁序列模式挖掘的数据库。在此之前,我们首先定义顺序模式如下。

定义1。一个序列模式是一个序列标签的一个或多个的子序列吗序列在数据库中。相邻标记不一定是相邻的原始序列,但他们的距离应不大于一个阈值在原始序列,在实验(设置为510]。

例如,给定两个标记序列和在数据库中, 可以被认为是一个连续的模式吗序列s。请注意,序列不同于一个标记序列。前者只包含标签的顺序,而后者包括从序列映射到标签,也就是说, 。

定义2。一个频繁序列模式(FSP)序贯模式p′与 ,在那里μ是一个定制的阈值和表示的支持在,也就是说, 在哪里是任何序列在数据库中包含。代表数据库中的序列包含的百分比,这显示了普遍性的在数据库中。

有几个从数据库中挖掘频繁模式的算法。我们选择CM-SPAM (11)获得FSPs。最小阈值μ由用户自定义,这样合成FSPs将一般足够了。

3.1.3。标签频繁序列模式

与FSPs可用,下一步是选择有前途的一个子集FSPs称为频繁标签序列模式(FLSPs)然后用于分类。

请注意,我们有两个类:和;因此,FLSPs对于每个类都是不同的。正式的FLSP标签被定义为的FSP高吗信心关于。给定一个特定的标签,频繁序列模式的信心,用,计算的比例是什么序列包含FSP和标记到序列包含FSP。FSPs高信心给定标签显示强烈的关系,因为大部分的频繁序列模式都贴上。

我们也想小百分比的最小支持度阈值的方法,以涵盖更多FSPs。在我们的实验中,我们设置了最小值支持到5%。此外,设定最低信心阈值也不一定很大,因为我们想获得更多FLSPs通过减少在早期阶段的一些预测能力。在实验中,我们设置了最小值信心85% (10]。算法1显示了生成的整个过程FLSPs从文本数据。

FLSPs的最后,我们获得一组可以作为特征来识别标签和句子中的模式之间的关系(12]。我们使用每个频繁标签顺序模式作为一个特性。每个实例的训练集,如果它的映射序列包含一个FLSP,我们会将相应的功能条目的值设置为1;否则0。

3.2。uml Metathesaurus语义类型

除了FLSPs以外,我们还使用uml (13]Metathesaurus语义类型的特性。总共有133个uml Metathesaurus语义类型。通过使用第三方软件MetaMap (https://mmtx.nlm.nih.gov/)[14),我们可以映射的句子语义类型(https://mmtx.nlm.nih.gov/Docs/SemanticTypes_2013AA.txt)。因此,每个语义类型特性,我们将值设置为1,如果句子包含任何相关短语的语义类型;否则,0。

一般来说,对于每一个句子在转换成这是一个表示向量的特征空间的句子FLSPs和uml的语义类型。如果包含任何FLSPs或短语与uml语义类型,进入相应的价值功能设置为1。

3.3。填空题型可以特性

代表句子填空题型可以特性能够以直接的方式(3]。在本文中,我们使用下面的填空题型可以特性来表示句子。

3.3.1。基于特征

虽然基于特性,比如bag-of-word表示通常遭受诅咒的维度,我们还考虑到他们比较的分类性能,因为它们的有效性(15]。Unigrams和三元可以捕获这些重要和频繁的词或短语与一个特定的标签。举例来说,很可能一个句子分为药物类别如果出现了“开”这个词。每个unigram或三元对应二进制特征表明如果一个句子包含这个特性。

3.3.2。形态学特征

大写的单词和缩写可以良好的指标是否有任何医疗术语的句子,这可能是高度相关的药物或症状的句子。我们可以使用两个二进制特征指示是否这个句子包含任何大写单词或缩写,分别。

输入:标记的句子的集合最小支持度阈值,最低阈值的信心
输出:FLSPs的集合来表示
标记序列数据库;
为每个句子的样本()在做
转换成一个序列包括POS的标签,
药物,计算机协会,频率;
;
;
结束
FSP集:= CM-SPAM(11];
FLSP集;
为每个FSP 在做

;
结束
结束
返回

算法1:频繁序列模式生成的标签。

3.4。启发式特征

除了所有的特性源于课文的句子,我们也可以采取有用的边信息的文章(3]。具体地说,一个句子写的线程的创造者更可能是symptom-related相比其他用户的写的,因为线程创造者往往寻求帮助从其他用户发布自己的条件。除了文章的位置,一个句子来自还可以显示的类别,因为线程创作者通常写的第一篇文章描述了病人的情况,而后者的帖子往往回答产生的潜在的问题在第一个帖子。因此,两个二进制特征被认为是表示一个句子是否写的线程的创造者,和文章的句子的位置,分别。

一般来说,我们可以选择不同的组合在这一节中介绍的特性来表示与健康有关的句子,然后建立模型来预测和解释句子的类别。

4所示。可翻译的分类与森林有关的模型

在本节中,我们首先介绍健康论坛的句子的分类使用一个随机森林模型和如何解释森林模型特征的高度重视。其次,介绍如何从决策树在森林里收集规则构造一个新的模式空间(8通过选择高级模式)和实现可解释性。

4.1。用随机森林分类

一个随机森林由一个树型分类器和计算的选票从树上分类问题(最受欢迎的课9]。整体的增长是由每棵树的生长。树木生长的过程介绍如下(16]:(1)样本实例与更换随机从训练集样本将用于种植这棵树模型。(2)的一个子集从总特征选择在随机特性, 。上最好的分裂功能将用于构建树节点,基尼杂质的后代将小于父节点,使用购物车中介绍的方法(17]。的价值森林生长过程中保持不变。(3)每棵树长到没有修剪的最大大小。

当越来越多的树使用原始训练集样本,大约三分之一的实例在训练集的样本随机选择。这out-of-bag数据将一个无偏估计的分类精度目前越来越多的树,也可以用来估计特征的重要性。

4.2。解释区别的特性

随机森林的分类机理解释路径通过一组决定。解释随机森林模型,我们提出量化节点特性的贡献,他们排名根据他们的贡献,并找出最歧视的(7,18]。

决策树的随机森林,它的决策函数可以制定如下: 在哪里是树中的叶子节点的数量。表示标准分数,在回归问题是一个标量或矢量分类问题,从训练的过程。是输入样本。从根到的路径吗米叶子节点。是一个指标函数识别是否通过运行。我们正在解决一个分类问题,和应该是向量的大小的类的数量。的我值向量中代表实例的标准评分被分为我th类,它可以转化为一个概率值正常化。在我们的分类问题,输入实例划分为一个类的类根据指定的最大概率决策树。

从另一个角度来看,我们可以观察一个特性导致的标准分数(即。,Gini impurity or entropy) vector by calculating the score vector difference between the current node and the next node in the path. The final prediction result along a tree path is determined under the cumulative influences of nodes in the path. Therefore, a prediction can be defined as a sum of feature contributions plus a bias: 在哪里特征向量的贡献吗kth的特性t树一个输入向量,特征的数量,是树的偏见。这两个和是标准得分向量。我们的目标是为实例计算功能的贡献决策树分类一直在训练集上训练。具体地说,它是通过运行通过决策树的路径。根节点的路径, 和被初始化为。每次实例到达一个节点的决策分支rth特性,将增加的区别标准分数在沿着路径和当前节点的子节点。一旦决定的过程到达一个叶子节点,我们指定一个类和获得所有特性的贡献决定的道路。

森林的预测功能,这是一个整体的决策树,树的预测的平均值: 在哪里森林里的树的数量。同样,森林也可以分解的预测功能对功能的贡献: 在哪里的贡献吗kth的特性t树。因此,的贡献kth特性对一个实例进行分类可以被定义为和森林的偏见。解释随机森林模型的概念,它把句子分为或类别,是找出这些特性最主要贡献一个实例或叶节点。我们不会解释背景的句子,因为它们不像其他两个信息类。

假设一个随机森林模型给定的训练集构造吗与标记的实例。找出分类的重要特征和,我们选择两个标签的训练集的子集和,分别。让是药物的子集和实例症状实例的子集;这两个类的平均特性的贡献可以计算如下: 在哪里和的积极贡献向量kth功能药物类和症状类,分别。计算功能,为每个类的贡献后,我们这些特性来表示它们的相对重要性排序。最后,选择较大的贡献为每个类的区别的特征。

4.3。解释与区别的模式

进一步利用可解释性,我们从森林中提取决策规则模型,形成一个新的空间,提出选择在哪里应用选择顶部有识别力的决策规则的组合,也就是说,歧视模式(8]。

具体地说,一个模式被定义为的形式在哪里价值功能吗的实例和是一个标量阈值。在我们的问题中,模式可以从决策树规则的任意组合。此外,有识别力的模式(DPs)是那些强大的信号模式信息增益高或低基尼杂质的分类。在我们的问题中,模式是指一个完整的决策路径,和歧视模式是基尼杂质较低的路径。

然而,由于维度区别的模式仍然很高,我们需要确定最丰富的。为此,我们应用向前选择(19选择顶部有识别力的模式。让正向选择函数,然后我们有。我们运行K迭代,DP迭代k表示为。在迭代,我们遍历歧视模式。一个临时的DP组在当前迭代通过添加在迭代中获得的DP组,也就是说,

然后,我们建立一个分类器使用支持向量机(20.基于所选择的模式和获取的准确性的分类器。最好的模式添加到DP组,在哪里和 ,所以。后迭代,我们获得有识别力的模式。最后,每个实例在数据集映射到DP空间。如果kth模式出现在,那么相应的条目设置为1;否则,0。

5。结果和讨论

在本部分中,首先,我们现在的实验结果表明,与森林有关的模型比基线的方法。第二,我们比较套索之间的可解释性和与森林有关的模型通过分析区别的特征和区别的模式。

5.1。实验装置

5.1.1。数据集

以来,很少有数据集用于卫生相关的文本分类,我们创建数据集通过收集文献从在线健康社区来解决这个问题。本研究用于实验的数据从patient.info爬(http://patient.info/forums使用Scrapy),一个python框架。地面真理是通过分配一个标签数据集内的每个句子。257187年616 subforums论坛讨论爬。然后,我们使用NLTK标记包(http://www.nltk.org/api/nltk.tokenize.html)每个讨论的文本分割成一组句子。鉴于列出了讨论的句子,我们随机选择句子每个列表的一部分和所选句子的数量是2585。我们招募了两个志愿者完成标签的工作。两个志愿者提供总计2585随机选择的句子,要求分类的每个句子成药物,症状,或其他人。标记的句子合并基于一致投票。我们丢弃的句子标记与分歧,并获得2099句分为相同的标签。句子标记的结果表2。在实验中,我们设置了标签的类背景,药物治疗,症状分别为0、1和2。


地中海。	计算机协会。	其他人	总

1127年	772年	200年	2099年

5.1.2中。基线的方法

的贡献我们的学习我们要索赔多少改善的性能我们建议的方法可以实现通过引入标记序列模式的特性和如何解释能力可以使我们提出的方法应用到句子代表在不同的空间获得的洞察力与卫生相关的文本分类模型。显示第一个贡献,我们选择支持向量机训练的各种特性提出了(3]。我们二叉分类支持向量机模型类和与RBF核,在那里数的倒数的特性。支持向量机模型预测实例,使用普拉特比例计算概率。如果概率分类的实例和都小于0.5,然后分类实例类背景;否则,它分为类以更大的概率是。为了确保性能时,我们使用一个决策树实现基于熵的特征选择模型。在第二个贡献方面,我们比较了模型之间的可解释性套索(21)随机森林和DPClass和解释模型使用的特性和非零权重与L1套索项系数设置为0.001。

5.1.3。评价指标

指标评价的准确性,加权平均精度、加权平均召回,加权平均得分。多级分类的精度加权平均,回忆,和分数可以计算如下: 在哪里测试集的大小,是标签组, ,测试子集的大小标签吗,,,精密,召回,得分的二元分类与标签实例。

5.2。分类性能评价

表3显示了每个模型的评估使用5倍交叉验证。每一行代表一个模型的评价结果训练数据在不同的功能空间。每种类型的特性用于训练模型的选择与entropy-based方法,以便他们更丰富和更有识别力的分类。对于每个模型,平均精度(Acc),加权平均精度(Prec),回忆(Rec)和f值(F1)药物类(M),症状类(S),分别和整体类了。


	英尺集	Acc。	前的。	m . Rec。	m . F1。	Acc。	美国前的。	s . Rec。	美国F1。	Acc。	前的。	矩形。	F1。

选择+支持向量机	基于单词	0.843	0.846	0.867	0.856	0.886	0.875	0.804	0.838	0.798	0.808	0.798	0.802
	+语义	0.851	0.854	0.871	0.862	0.884	0.874	0.801	0.836	0.804	0.816	0.804	0.808
	+位置	0.843	0.846	0.867	0.856	0.886	0.875	0.805	0.838	0.798	0.808	0.798	0.802
	+刺。Crt。	0.844	0.846	0.867	0.857	0.896	0.894	0.814	0.852	0.800	0.812	0.800	0.805
	+大闪蝶。	0.848	0.855	0.864	0.859	0.891	0.883	0.811	0.846	0.801	0.816	0.801	0.807
	+单词问。	0.802	0.785	0.871	0.826	0.864	0.888	0.722	0.796	0.761	0.773	0.761	0.763
	太阳能发电	0.799	0.894	0.709	0.790	0.831	0.862	0.644	0.737	0.691	0.821	0.691	0.731
	+语义	0.849	0.865	0.852	0.858	0.891	0.878	0.818	0.846	0.806	0.823	0.806	0.813
	+位置	0.841	0.851	0.852	0.851	0.893	0.883	0.817	0.848	0.800	0.815	0.800	0.806
	+刺。Crt。	0.844	0.852	0.859	0.855	0.897	0.885	0.826	0.855	0.801	0.814	0.801	0.807
	+大闪蝶。	0.851	0.860	0.864	0.861	0.896	0.883	0.826	0.854	0.808	0.820	0.808	0.813
	+单词问。	0.848	0.856	0.862	0.859	0.897	0.884	0.830	0.856	0.807	0.819	0.807	0.812
	+基于单词	0.810	0.810	0.844	0.826	0.870	0.887	0.739	0.806	0.768	0.792	0.768	0.776

套索	基于单词	0.794	0.730	0.979	0.837	0.886	0.969	0.712	0.820	0.791	0.785	0.791	0.756
	+语义	0.793	0.741	0.947	0.831	0.886	0.923	0.752	0.828	0.789	0.754	0.789	0.757
	+位置	0.795	0.742	0.947	0.832	0.886	0.920	0.754	0.829	0.790	0.757	0.790	0.758
	+刺。Crt。	0.796	0.745	0.945	0.833	0.889	0.922	0.762	0.834	0.791	0.756	0.791	0.759
	+大闪蝶。	0.797	0.745	0.947	0.834	0.889	0.924	0.759	0.833	0.792	0.757	0.792	0.760
	+单词问。	0.798	0.746	0.947	0.834	0.891	0.927	0.762	0.836	0.793	0.759	0.793	0.762
	太阳能发电	0.715	0.663	0.955	0.782	0.802	0.875	0.538	0.666	0.711	0.678	0.711	0.665
	+语义	0.769	0.712	0.955	0.816	0.861	0.911	0.689	0.785	0.767	0.727	0.767	0.728
	+位置	0.767	0.710	0.955	0.814	0.860	0.910	0.686	0.782	0.765	0.716	0.765	0.725
	+刺。Crt。	0.771	0.715	0.953	0.817	0.864	0.911	0.700	0.791	0.769	0.728	0.769	0.731
	+大闪蝶。	0.771	0.715	0.953	0.817	0.864	0.910	0.698	0.790	0.769	0.728	0.769	0.730
	+单词问。	0.771	0.715	0.953	0.817	0.864	0.910	0.698	0.790	0.769	0.728	0.769	0.730
	+基于单词	0.799	0.745	0.950	0.835	0.893	0.930	0.765	0.839	0.795	0.759	0.795	0.763

与森林有关的	基于单词	0.848	0.795	0.969	0.873	0.881	0.891	0.773	0.827	0.819	0.808	0.819	0.795
	+语义	0.815	0.761	0.956	0.847	0.878	0.901	0.751	0.819	0.802	0.805	0.802	0.778
	+位置	0.820	0.767	0.957	0.851	0.887	0.908	0.772	0.833	0.807	0.791	0.807	0.779
	+刺。Crt。	0.817	0.765	0.949	0.847	0.872	0.884	0.749	0.811	0.799	0.792	0.799	0.774
	+大闪蝶。	0.832	0.776	0.965	0.860	0.890	0.907	0.781	0.838	0.816	0.815	0.816	0.789
	+单词问。	0.830	0.779	0.954	0.858	0.893	0.893	0.804	0.846	0.814	0.797	0.814	0.783
	太阳能发电	0.786	0.742	0.921	0.822	0.863	0.861	0.748	0.801	0.771	0.725	0.771	0.739
	+语义	0.837	0.824	0.887	0.854	0.879	0.860	0.802	0.829	0.809	0.805	0.809	0.805
	+位置	0.840	0.836	0.873	0.854	0.882	0.844	0.834	0.839	0.808	0.800	0.808	0.803
	+刺。Crt。	0.832	0.825	0.875	0.849	0.879	0.849	0.814	0.831	0.802	0.796	0.802	0.797
	+大闪蝶。	0.841	0.829	0.886	0.856	0.881	0.843	0.832	0.837	0.812	0.802	0.812	0.804
	+单词问。	0.829	0.816	0.881	0.847	0.880	0.856	0.808	0.831	0.800	0.791	0.800	0.793
	+基于单词	0.848	0.816	0.927	0.868	0.887	0.861	0.827	0.843	0.821	0.803	0.821	0.802

支持向量机模型,整个平均预测精度达到79.8%,只有基于特性,它的精度优于套索。支持向量机在精度方面的表现也很好,还记得,和F1的分数。模型训练只靠太阳能发电特性未能超越基于功能模型训练,但前者可以取得更好的性能比后者如果我们添加uml语义类型的特性。注意,只有数百LSP特性而有超过16 k基于单词的。没有特征选择,SVM的性能不是很好,由于基于特征是相当稀少的。此外,svm与RBF内核不提供可解释性直接对我们有所了解的句子虽然模型实现良好的性能。

使用套索从实验结果,我们可以发现药物句子分类的回忆成绩比那些症状的,而精度和精度的分数表明相反的趋势。当我们使用多级分类器,许多被列为药物类的测试实例。略优于基于特性上的套索模型训练的训练在太阳能发电特性。如表4显示,太阳能发电特性的权重小得多比基于单词的套索。


基于单词	平均体重	太阳能发电	平均体重	语义	平均体重

避免	−0.413	(PRP, PRP, RB,计算机协会)	0.081	sosy	0.329
错误的	−0.363	(PRP, PRP, VB,计算机协会)	0.060	mobd	0.207
避免	−0.343	(CC VBZ计算机协会)	0.058	patf	0.190
开	−0.323	(协会、计算机协会、计算机协会)	0.054	resa	−0.173
出血	0.283	(PRP,计算机协会,CC,计算机协会)	−0.053	inpo	0.100
焦虑	0.281	(CC,计算机协会、计算机协会)	−0.052	阿纳布导弹	0.094
肿胀	0.233	(VBG PRP,计算机协会)	0.049	mcha	−0.092
增加	−0.185	(VB, RB,计算机协会)	0.048	aggp	−0.090
偏头痛	0.185	(JJ, JJ,计算机协会)	0.036	plnt	−0.063
发烧	0.160	(神经网络,计算机协会,RB,计算机协会)	−0.033	mamm	−0.052

与森林有关的模型,我们可以发现,药物和症状类的精度可以达到80%以上,只有太阳能发电特性和uml语义类型的特性。总体精度达到80.9%,优于其他方法。此外,太阳能发电和uml语义类型特征,两类的精度和召回大于0.8。此外,随着位置特性和基于特征,与森林有关的模型更好的性能。一般而言,随机森林模型可以实现相对更好的F1分数对药物和句子分类症状。同样,在基于随机森林模型训练系统特性略优于那些训练有素的LSP的特性。

虽然不能保证这个模型训练LSP特性优于基于功能的训练,我们仍然愿意利用太阳能发电特性自特征维度显著降低不牺牲的歧视能力模型。此外,太阳能发电特性提供一个有价值的视角在标签和结构两个层面来解释分类结果与健康有关的句子。

5.3。可解释性评价

5.3.1。可解释性的套索

表4列出的特性与基于最大的权重组合特性,太阳能发电特性,uml Metathesaurus语义类型功能,位置特性,线程创造者指标特性,和单词计数功能。学习过程后,dedication-related负权值分配特性,虽然潜在symptom-related特性分配积极的权重。与此同时,大部分的基于特征比其他功能有更大的权重。“避免”、“开”和“增长”是最信号词在药物的句子。可能的原因可能是药物通常需要患者为了避免某些事情,处方药,或调整剂量。如“流血”、“焦虑”,“肿胀”“偏头痛”,和“发烧”是常见的症状句子的论坛,他们表达外部身体伤害和精神疾病。

物流服务商,他们通常与积极的权重分配矿业的症状方面的句子的能力。该模式(PRP,PRP,RB,计算机协会)例如,常见的symptom-related句子像“经常/偶尔有人患有一些症状。“然而,我们还发现标签计算机协会非常频繁的句子在药物治疗和症状,这是由于拉索的原因不能实现良好的性能使用太阳能发电特性,也很难解释类之间的差异药物治疗和类症状。

几个uml语义类型特性分配相对较大的权重确定症状的句子。例如,术语“sosy”,简称“迹象或症状,”显然是一个有用的特性来确定症状的句子。术语“mobd”(即。”,米ental or behavioral dysfunction”) can be used to detect mental disease symptoms. “patf” (i.e., “pathologic function”) is a parent semantic type of “mobd,” which is also an informative feature to detect pathologic terms.

5.3.2。与森林有关的模型的可解释性

解释医药相关句子与森林有关的模型,我们计算功能的贡献决策树在森林里。我们选择一个随机森林模型最好的精度实验和10特性列表为每个类表最大的贡献5。


功能	回来。	地中海。	信谊。

十大俱乐部对药物的句子
规定= 1	−0.00275	0.01195	−0.00920
(PRP、CD、CD) = 1	−0.00251	0.01156	−0.00905
大闪蝶。= 1	−0.00206	0.00660	−0.00455
hlca = 1	−0.00071	0.00559	−0.00489
(神经网络,电脑,计算机协会,CC) = 0	0.00115	0.00429	−0.00544
sosy = 0	0.00191	0.00406	−0.00597
(PRP, CD,神经网络,神经网络)= 1	−0.00075	0.00402	−0.00327
(CD、CD、CD) = 1	−0.00120	0.00396	−0.00276
用力推。Crt。= 0	0.00154	0.00381	−0.00535
(PRP, CD, JJ, JJ) = 1	−0.00086	0.00362	−0.00276
十大俱乐部对症状的句子
sosy = 1	−0.00589	−0.00783	0.01371
规定= 0	0.00234	−0.015734	0.01339
用力推。Crt。= 1	−0.00381	−0.00683	0.01064
(PRP、CD、CD) = 0	0.00271	−0.01264	0.00993
(协会、计算机协会、计算机协会)= 1	−0.00330	−0.00564	0.00895
(神经网络,电脑,计算机协会,CC) = 1	−0.00209	−0.00667	0.00876
位置<v_th1	−0.00334	−0.00540	0.00874
patf = 1	−0.00254	−0.00379	0.00633
(电脑、CC、JJ) = 1	−0.00172	−0.00404	0.00576
字数>v_th2	−0.00131	−0.00423	0.00554

在识别药物治疗句子,unigram特性“规定”最大的贡献。这是因为这种类型的句子通常包含处方药物的信息。太阳能发电特性(PRP,CD,CD),(PRP,CD,在,神经网络,神经网络),(CD,在,CD,CD),(PRP,CD,JJ,JJ)也有助于识别句子中与药物的,因为他们都含有POS标记CD代表的数字在描述药物的剂量。形态特征选择是许多药物的名字大写术语或缩写。uml语义类型特性(即“hlca”。”,health care activity”) is important since healthcare activity terms are commonly seen in medication sentences. On the contrary, if a sentence does not contain LSP (神经网络,计算机协会,计算机协会,CC)或“sosy”(“迹象或症状”),或不是由用户发布的(用力推。Crt。= 0),这句话也可以分为药物类,因为它不太可能symptom-related。

为症状类,uml语义类型特征“sosy”和“patf”是最相关的,因为他们有能力检测症状和病理条件方面,分别。线程创造者指标也很有用因为症状句子主要由用户上传分享他们的情况和要求更多的信息。如果一个句子不包含“规定”,就不太可能与药物。太阳能发电特性(计算机协会,计算机协会,计算机协会),(神经网络,计算机协会,计算机协会,CC)和(计算机协会,CC,JJ)选择因为通常有多个条件匹配的标记计算机协会在症状的句子。位置特征识别症状班上也很重要,因为它是自然为用户在第一个提到他们的症状的帖子,是一个阈值决策树学习的。类似地,如果从一个句子的字数大于决策树学习的句子句子将更有可能是一个症状。

特性在套索排名相比,我们可以有一个更好的理解的特性贡献排名为每个类随机森林。特性和类之间的关系可以从特征向量的贡献而套索仅提供的重量的特性,这可能不够表达代表特性和类之间的关系。随机森林模型可以实现更好的性能和可解释性而套索。

DPClass [8]提出了采取进一步的优势区别的模式随机森林建立在训练集。选定的DPs数据可以帮助用户获得的见解。在实验中,我们选择获得前30名DPs。表6列出所选10 DPs与森林有关的模型的训练提出的所有功能。例如,考虑到歧视模式((RB, CD,) = 0)∩((VBP,、CD、CD, NN) = 0)∩(“毫克”= 0)∩(“规定”= 1)∩(dsyn = 0),如果满足每个规则模式中的一个实例,其相应的DP功能条目将被设置为1。这种模式的存在增加分类实例的可能性到药物类决策树。从表中的模式,我们可以发现匹配的标记计算机协会可能在症状出现的句子,而标签CD和药物往往会导致nonsymptom叶子,因为他们更有可能发生在药物的句子。在另一个单词,句子通常包含症状方面的表现,而药物的句子通常包含药物术语和数字代表药物的剂量。除了太阳能发电功能,有两个明显的unigram模式“焦虑”和“咳嗽”,因为训练集包含了许多句子相关的焦虑和咳嗽的条件。


模式	叶子类

((RB、CD、CD) = 0)∩((PRP、CD、CD, JJ) = 0)∩((PRP、CD、神经网络、神经网络、神经网络)= 0)∩((VB, CD) = 1)	地中海。
(神经网络,神经网络,逗号,计算机协会)= 0)∩((CD, RB, CD) = 1)∩((RB,,, CD) = 0)∩((PRP、CC、CD, NN) = 1)	地中海。
((计算机协会,NN, VBG) = 1)	信谊。
((VBP、CD、神经网络、神经网络)= 0)∩((协会、计算机协会NN) = 1)	信谊。
((RB, CD,) = 0)∩((VBP, CD, CD, NN) = 0)∩(“毫克”= 0)∩(“规定”= 1)∩(dsyn = 1)	地中海。
((PRP、VBP、CD) = 0)∩((CD, CD,神经网络,神经网络)= 1)∩((CD,) = 1)	地中海。
(“咳嗽”= 1)	信谊。
((RB, CD,) = 0)∩((VBP, CD, CD, NN) = 0)∩(“毫克”= 0)∩(“规定”= 0)∩∩(fndg = 0) ((NN,逗号,逗号,计算机协会)= 1)	信谊。
((RB, CD,) = 0)∩((VBP, CD, CD, NN) = 0)∩(“毫克”= 0)∩(“规定”= 1)∩(dsyn = 0)	地中海。
(“焦虑”= 1)	信谊。

以前的药物信息提取的研究主要集中在提取药物临床信息指出,如(22)使用条件随机域识别命名实体和支持向量机建立one-vs-one模型(23),使用各种药物词典和(24使用语义标记和解析)。Sondhi et al。3)使用条件随机域和支持向量机分类文本从在线健康论坛。王等人。25]提出一种无监督的方法提取在线健康论坛上的药品不良反应。扁et al。26)建议我与毒品有关的不良事件在大规模的tweet。

我们的工作都集中在分类和解释在线医药相关文本。医药相关文本分类和解释的主要挑战是如何表示的文本和如何分类和解释数据。前的问题,3)提出了使用基于特征、语义特征,以及其他启发式的功能。这表示是基于特征的问题有一个巨大的尺寸,但是介绍的数据通常是稀疏的,相当大的计算成本的特征选择和构建模型。丁和Riloff27]提出代表文本使用词特性,当地环境特征和web上下文特征。除了大而稀疏的词特征空间中的数据,生成web上下文特性在线培训过程中通过查询谷歌和收集标题和片段,也可以引入大量的爬行和提取计算,增加维特征表示。一个方法来表示文本在一个低维的空间提出了(10]。该方法采用标记序列模式功能,达到良好的性能和效率。后一个问题,建模和启用可解释性,套索(21)提出了提高性能和可解释性的回归模型调优参数收缩的特性。特性与更大的权重可以被认为是更重要的是,使回归模型的可解释性。基于树和与森林有关的方法,例如,车(17和随机森林9),也被广泛用来处理分类使用的决策规则和解释数据树。

7所示。结论和未来的工作

在我们的研究中,我们建议使用标记序列模式代表医药相关的句子,以减少数据的维度和稀疏,既能保证性能,提高效率。然后,我们在训练数据构建与森林有关的模型与体面的表现能够预测和解释的医药相关的句子提取决策规则中使用的重要特征,在他们的贡献,歧视模式由决策规则。总体而言,提出了特征空间上的训练与森林有关的模型可以实现良好的性能,使数据的可解释性。在未来,我们会建立一个基于这个框架的紧凑的系统来帮助用户直接提取和突出了深刻的句子时查看医药相关文章、文章、等等此外,我们还将目标提取和解释的句子等其他类别的药物治疗效果和用户的问题和数据从其他来源包括临床讲义。

信息披露

本文中包含的观点和结论是作者和不应被解释为代表任何资助机构。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

部分工作是由美国国防部高级研究计划局(n66001号- 17 - 2 - 4031和w911nf - 16 - 1 - 0565)和NSF(没有。iis - 1657196)。

引用

普华永道社交媒体?喜欢吗?医疗保健从营销到社会企业,2012年。视图:出版商的网站
x胡:太阳,c·张,t·s·艾。蔡”,利用内部和外部语义聚类的简短文本使用世界知识,”学报18 ACM会议信息和知识管理香港,页919 - 928年,2009年。视图:谷歌学术搜索
p . Sondhi m·古普塔c翟,j . Hockenmaier“浅从医学论坛数据信息提取,”第23届国际会议在计算语言学:学报》海报,第1166 - 1158页,北京,中国,2010年,计算语言学协会。视图:谷歌学术搜索
z格瓦拉,s . Purushotham r . Khemani, y . Liu“蒸馏知识从深层网络与应用到医疗领域,”2015年,http://arxiv.org/abs/1512.03542。视图:出版商的网站|谷歌学术搜索
崔e . m . t . Bahadori j .太阳,j·库拉,a . Schuetz和w·斯图尔特“保留:医疗保健的可判断的预测模型使用反向时间注意力机制,“先进的神经信息处理系统,第3512 - 3504页,2016年。视图:谷歌学术搜索
n .刘黄x, x,“加速当地通过解决由于网络异常检测”学报》第26届国际联合会议上人工智能,2017年。视图:出版商的网站|谷歌学术搜索
a . Palczewska j . Palczewski r·m·罗宾逊和d . Neagu”解释随机森林分类模型使用一个特性贡献的方法,”可重用的系统集成施普林格,页193 - 218年,瑞士,2014年。视图:谷歌学术搜索
w . j .商通、j .彭和j .汉Dpclass:一个有效但简洁歧视基于模式分类框架,2016年。
l . Breiman“随机森林”,机器学习,45卷,不。1,5-32,2001页。视图:出版商的网站|谷歌学术搜索
g .琮、l . Wang彭译葶。林,我。歌,和y的太阳”,从网上论坛问答发现双,”31日学报》国际市立图书馆年会在信息检索的研究与开发,页467 - 474,新加坡,2008年。视图:谷歌学术搜索
p . Fournier-Viger a . Gomariz m·坎波斯和r·托马斯,“快垂直挖掘序列模式使用同现信息,”亚太会议知识发现和数据挖掘页40-52 Springer,可汗,2014年。视图:谷歌学术搜索
n金达尔和b . Liu“识别比较句子文本文档,”学报》第29届国际市立图书馆年会在信息检索的研究与开发,第251 - 244页,西雅图,佤邦,美国,2006。视图:谷歌学术搜索
o . Bodenreider”统一医疗语言系统(uml):将生物医学术语,“核酸的研究,32卷,补充1,D267-D270, 2004页。视图:谷歌学术搜索
a·r·阿伦森,“有效的生物医学文本映射到uml metathesaurus: metamap项目”《AMIA研讨会2001年,p . 17日美国医学信息学协会。视图:谷歌学术搜索
x胡锦涛和h·刘,在“文本分析在社会媒体,”挖掘文本数据施普林格,页385 - 414年,美国,2012年。视图:出版商的网站|谷歌学术搜索
l . Breiman随机森林狮子座Breiman和阿黛尔·卡特勒。随机Forests-Classification描述,2015年。
l . Breiman j·弗里德曼,c . j .石头和r . a . Olshen分类和回归树,CRC出版社,1984年。
a . Saabas“解释随机森林”,2014年,http://blog.datadive.net/interpreting-random-forests/。视图:谷歌学术搜索
美国Derksen和h . Keselman后退、前进和逐步自动化子集选择算法:获得真实和噪声频率变量,“英国心理学杂志上的数学和统计,45卷,不。2、265 - 282年,1992页。视图:出版商的网站|谷歌学术搜索
范德维尔j . a . Suykens和j .最小二乘支持向量机分类器”,神经处理信件,9卷,不。3、293 - 300年,1999页。视图:出版商的网站|谷歌学术搜索
r . Tibshirani“回归通过套索收缩和选择,”英国皇家统计学会杂志》上。系列B(方法论)58卷,第288 - 267页,1996年。视图:谷歌学术搜索
j·帕特里克·m·李,“高精度信息提取的药物信息从临床指出:2009年i2b2药物提取的挑战,”美国医学协会杂志》上,17卷,不。5,524 - 527年,2010页。视图:出版商的网站|谷歌学术搜索
大肠Sirohi和p . Peissig”效应的研究药物词典从电子医疗记录中提取药物,”太平洋生物运算研讨会上,第318 - 308页,2004年。视图:谷歌学术搜索
h, s . p . sten s Doan k·b·约翰逊,l . r .魏曼牵和j·c·丹尼,”助理医生:药物临床信息提取系统的叙述,“美国医学协会杂志》上,17卷,不。1,19到24,2010页。视图:出版商的网站|谷歌学术搜索
d . y . s . Wang Li弗格森,c .翟”Sideeffectptm:一个无监督的话题模型从健康论坛,我的药品不良反应”第五届ACM学报》会议上生物信息学、计算生物学、和健康信息学纽波特海滩,页321 - 330年,CA, 2014年,ACM。视图:出版商的网站|谷歌学术搜索
j .扁,Topaloglu f . Yu,“twitter大规模开采与毒品有关的不良事件,”学报2012年国际研讨会上聪明的健康和福祉页25-32毛伊岛,嗨,美国,2012年。视图:出版商的网站|谷歌学术搜索
h·丁和大肠Riloff从兽医讨论中提取药物的使用信息,”计算语言学协会(ACL),2015年。视图:谷歌学术搜索

医疗保健工程

Semantics-Powered医疗工程和数据分析

文摘

1。介绍

2。框架概述

2.1。模块1:预处理和标签

2.2。模块2:可判断的特征提取

2.3。模块3:与森林有关的模型分类和解释

3所示。提取可翻译的功能

3.1。标记序列模式

3.1.1。标记序列映射

3.1.2。频繁序列模式挖掘

3.1.3。标签频繁序列模式

3.2。uml Metathesaurus语义类型

3.3。填空题型可以特性

3.3.1。基于特征

3.3.2。形态学特征

3.4。启发式特征

4所示。可翻译的分类与森林有关的模型

4.1。用随机森林分类

4.2。解释区别的特性

4.3。解释与区别的模式

5。结果和讨论

5.1。实验装置

5.1.1。数据集

5.1.2中。基线的方法

5.1.3。评价指标

5.2。分类性能评价

5.3。可解释性评价

5.3.1。可解释性的套索

5.3.2。与森林有关的模型的可解释性

7所示。结论和未来的工作

信息披露

的利益冲突

确认

引用

版权

相关文章

医疗保健工程

Semantics-Powered医疗工程和数据分析

一个可判断的分类框架从在线医疗论坛信息提取

文摘

1。介绍

2。框架概述

2.1。模块1:预处理和标签

2.2。模块2:可判断的特征提取

2.3。模块3:与森林有关的模型分类和解释

3所示。提取可翻译的功能

3.1。标记序列模式

3.1.1。标记序列映射

3.1.2。频繁序列模式挖掘

3.1.3。标签频繁序列模式

3.2。uml Metathesaurus语义类型

3.3。填空题型可以特性

3.3.1。基于特征

3.3.2。形态学特征

3.4。启发式特征

4所示。可翻译的分类与森林有关的模型

4.1。用随机森林分类

4.2。解释区别的特性

4.3。解释与区别的模式

5。结果和讨论

5.1。实验装置

5.1.1。数据集

5.1.2中。基线的方法

5.1.3。评价指标

5.2。分类性能评价

5.3。可解释性评价

5.3.1。可解释性的套索

5.3.2。与森林有关的模型的可解释性

6。相关工作

7所示。结论和未来的工作

信息披露

的利益冲突

确认

引用

版权

更多相关文章

相关文章