文摘
生物医学事件抽取是生物信息学的一个重要而艰巨的任务。生物医学文献的快速增长,从非结构化文本的提取复杂事件吸引了更多的关注。然而,带注释的生物医学语料库是高度不平衡,从而影响分类算法的性能。在这项研究中,一个样本选择算法提出了基于序贯模式过滤负样本在训练阶段。考虑关节之间的信息的触发和论点multiargument事件,我们提取三胞胎multiargument事件直接使用支持向量机分类器。联合评分机制,基于句子相似度和重要性触发的训练数据,用于正确的预测结果。实验结果表明,该方法能有效地提取事件。
1。介绍
快速增长的数量的非结构化或半结构式生物医学文献,研究人员需要相当多的时间和精力阅读和获取相关的科学知识。事件从生物中提取文本信息提取语义的任务和作用的生物事件,往往是复杂的结构,如疾病和药物之间的关系(1),疾病和基因之间的关系(2],药物之间的相互作用[3),和蛋白质之间的相互作用4,5]。自动提取生物医学事件可以被应用到许多生物医学应用。因此,生物医学文本挖掘技术是有用的为人们找到生物信息更准确和有效的。
官方BioNLP挑战已经被关了好几年(自2009年以来6- - - - - -8]。BioNLP共享任务(BioNLP-ST) (9)旨在提取细粒度的生物分子事件。也包含了一定数量的子任务,比如GENIA事件提取(GE),癌症遗传学(CG)、通路管理(PC)和基因调控本体(GRO)。越来越多的关注已交予的任务事件提取,主要任务是通用电气在BioNLP-ST,它旨在从生物医学文本中提取结构化事件如事件类型、触发器和参数。一个事件是由通用电气使用一个公式包括定义一个事件触发和一个或多个参数。九个类型的事件被定义在BioNLP-ST GENIA事件提取2011 (GE 11)和扩展到十四类型的事件在2013年GENIA BioNLP-ST事件提取(GE的13)。由于稀缺的新定义的事件类型的样本训练,本文中给出的研究仍然是基于9个类型中定义通用的11。
表1显示了事件类型,可以分为三个类别:简单事件类(SVT)绑定事件类(绑定),和监管事件类(注册),有5个简单的事件,包括Gene_expression,转录,Protein_catabolism,本地化和磷酸化。每个事件只有一个参数,也就是说,一个主题。主题在绑定事件包括两个参数。注册事件类包括监管、Positive_regulation Negative_regulation。他们是复杂的,因为他们有两个参数:一个主题、一个可选的原因。图1显示了一个示例的一个事件”IRF-4”和“IFN-alpha“蛋白质”,表达式”和“诱导“是触发器,可以表示为两个事件E1: Gene_expression:“表达式”,主题:“IRF-4”和E2: Positive_regulation:“诱导”,主题:E1,原因:“IFN-alpha”。我们的目标是自动从文本中提取这些事件结构。
基于模式的方法被用于提取生物医学关系(10,11),但很少用于提取生物医学事件。这些方法主要是提取实体之间的关系通过手动模式和自动定义学习模式的训练数据集,基于规则的方法12- - - - - -15)和基于机器学习方法(16- - - - - -18)是一个事件的主要方法提取的任务。基于规则的方法类似于基于模式的方法,手动定义语法规则和学习新规则的训练数据。基于机器学习的方法对提取的任务作为一个分类问题。高度不平衡问题的训练数据集在生物医学事件抽取是很少的大多数系统来解决。解与支持向量机(svm)通常使用简单的类权重策略19- - - - - -21]。其他方法,如主动学习22,23)和semisupervised学习(24,25),样本量增加积极的解决这个问题。在这项研究中,一个样本选择方法提出了基于序贯模式来解决不平衡数据分类问题,基于句子语义相似度和联合评分机制,介绍了触发器的重要性进一步正确的假阳性预测。
本文的组织结构如下:相关工作提出了部分2。我们的工作,序列模式样本选择算法,检测multiargument事件,联合评分机制提出了部分3。部分4描述实验结果在通用电气的11和通用电气的13个测试集。最后,给出了结论5。
2。相关工作
以来的组织者BioNLP-ST举行了第一次竞争的细粒度信息提取任务2009年生物医学事件,提出了各种方法来解决的任务。目前,事件抽取系统主要分为两种类型:基于规则的事件提取系统和基于机器学习事件提取系统。BioNLP-ST概述论文的2011年和2013年(7,8)的结果表明,基于机器学习的方法比基于规则方法的结果。
基于规则的事件提取系统(26- - - - - -29日)是基于句子结构、语法关系,语义关系,使其更加灵活。然而,这些方法得到的结果有很高的精度和较低的召回,明显的简单事件提取。改善召回,基于规则的事件提取系统被迫放松约束自动访问学习的规则。
基于机器学习的系统一般分为三组。第一组是管道模型(30.- - - - - -32),一个事件提取过程可以分为三个步骤。第一步预测扳机。第二步是边缘检测和基于第一步任务的参数。最后一步是事件元素检测。管道模型的事件提取任务取得了优秀的成果,比如通用电气的09年的冠军(30.)(土)和通用电气的冠军13 (32)(EVEX)。周et al。33)提出了一个新颖的方法基于事件触发的管道模型识别。他们将知识从一个大的文本语料库嵌入特性使用神经语言建模。实验结果表明,该分数的事件触发识别与提出的方法相比提高了2.5% (34]。坎波斯et al。35)优化特性集和训练参数为每个事件类型,但只有预测通用电气的09年测试集的事件。线性支持向量机与“one-versus-the-rest”多级策略用于解决多类和multilabel分类问题基于不平衡数据集在每个阶段。虽然管道模型的性能很好,其时间复杂度高,每一步进行最后一步的基础上,使它的性能依赖于触发检测的第一步。因此,如果一个错误发生在第一步,下一步将传播,造成一连串的错误。
第二组被称为联合模型(16,17],它克服了前面提到的问题。McClosky et al。36]dual-decomposition方法用于检测触发器和参数和使用依赖分析方法提取的事件。李等人。37)集成丰富的特性和字嵌入基于dual-decomposition提取生物医学事件。然而,最优状态的联合模型需要考虑每个令牌的组合,包括可能令牌在搜索空间,使其计算过于复杂。
第三组被称为成对模型(38,39),这是一个组合的管道和接头模型,直接提取触发和论证,而不是检测触发和优势。考虑到触发器和参数的相关性,成对模型的准确性高于管道模型,并超过了联合模型在应用程序的执行时间,因为少量的推理。然而,成对模型仍然使用SVM与“one-versus-the-rest”多级策略解决多类和multilabel分类问题没有处理数据不平衡的问题。
3所示。方法
本节介绍了拟议系统的主要步骤。该系统是基于两两成对结构模型。事件提取过程总结在图2。首先,序列模式生成的文本预处理后的训练数据。代的未标记样本对候选人对选择(触发器,参数)将基于序列模式。然后,他们将一起训练样本的标签。第二,三胞胎multiargument事件中直接提取,然后multiargument之间的预测结果和单参数事件将被整合。最后,联合评分机制应用于后处理和预测结果进行了优化。
3.1。文本预处理
文本预处理的第一步自然语言处理(NLP)。在预处理阶段,非标准符号由NLP工具将被删除。我们使用nltk (nltk.org)将单词和句子并使用Charniak-Johnson解析器与McClosky生物解析模型(McClosky et al。36分析依赖路径)。在句子和单词分割和完整的依赖路径,我们使用这四个功能组t恤(30.)系统:令牌特点:基本杆,性格克()、POS-tag和拼写功能句子特点:bag-of-words候选实体的数量句子依赖特性:依赖链功能,最短的路径依赖特性外部资源特点:Wordnet上位词
3.2。样本选择基于序列模式
序列模式挖掘是最重要的一个研究对象领域的数据挖掘。它的目标是发现频繁子序列或序列满足最小支持度的事件。有许多有效的序列模式挖掘算法被广泛使用。
给定一个序列数据库,这是一组不同的序列,让,每个序列是物品和有序列表,在那里是一个项目,是条目的数量。的长度序列是。让序列和是两个序列,在那里和是物品。如果存在一些整数,使,;然后序列被称为子序列的,或包含,这是表示。序列的支持在序列数据库中序列的数量吗年代包含,表示。给定的最小支持度阈值,如果支持不少于在、序列被称为频繁序列模式,这是表示,。在这项研究中,序列模式结合生成选择样本PrefixSpan算法(40]。的PrefixSpan算法采用“分而治之”的原则通过生成一个前缀与后缀模式然后连接模式获取序列模式,从而避免产生候选序列。
3.2.1之上。提取序列模式的文本
一个序列数据库构造。我们表示作为候选人的设置触发器,来自触发器字典作为候选集参数,来自训练语料库。的集合(触发器,参数)来标示。标签之间的依赖路径对候选人从训练数据中提取,它由输入序列的依赖。例如,序列标记的候选人之间的依赖路径对吗(依赖路径是指输入依赖序列来)。从所有的依赖路径标记候选人对序列数据库,在那里是一个序列。表2显示序列的一部分和频繁子序列。序列显示为子序列的和;因此,是3DS。如果我们将,我们获得年代3作为一个频繁序列模式DS。
我们选择每一对无标号的候选人基于频繁序列模式。频繁模式集表示的输出的序列类型的依赖表示为。如果包含足够数量的序列,是表示数量,是一个阈值;如果,然后两人被选中。这使得选择一双阈值选择无标号的候选人。我们选择合适的阈值对性能发展设置和详细讨论阈值在实验部分(部分以下4.4.1)。公式如下:
例如,让序列,,三个频繁序列LS和序列候选人的类型依赖顺序对吗。序列和的子序列。集阈值2、获得对,那里的候选人被选中。算法1总结了样本选择基于序列模式算法。
|
||||||||||||||||||||||||||||||||||||
3.3。Multiargument事件的检测
绑定和注册事件类更复杂,因为参与的主要和次要参数。的主要参数,有些是一元,其他人可以与两个参数有关。在这项研究中,只有主参数(主题(蛋白质/事件),导致(蛋白质/事件),和主题(蛋白质)+)考虑。为了更好地解决multiargument事件,可以表示为一个三联体(触发器,论点,argument2),我们提出一个方法,提取三联体直接关系。
单一参数的事件,对(触发参数)中直接提取。multiargument事件时,他们通常发现基于单参数事件提取。然后,第二个参数是分配和重新分类预测。这种方法会导致级联的错误。考虑到绑定multiargument成对模型的事件(32作为一个例子,检测过程主要包括两个阶段:()检测对。例如,有两双和从相同的句子提取相同的触发和标记为绑定类型。(根据前一步,评估潜在的三联体使用专门的分类器。例如,三联体评估作为一个潜在的绑定事件。在这里,是一个触发标签之前;和在对蛋白质标记之前。第一步的结果影响了第二步。如果两人或两没有标签,三个一组吗也不会被发现。因此,对于事件,包括两个参数,解决方案是直接提取三联体的关系。这个方法使用一个字典和multiargument事件的分类器。细节如下:(1)为绑定事件类和注册事件生成字典训练数据的类。(2)基于序贯模式选择候选人三胞胎。(3)训练SVM分类器的模型。(4)预测的三胞胎训练后的模型与支持向量机分类器。
在这里,是一组候选实体和是候选人的设置参数在一个句子吗,在那里标签是蛋白质和候选人从训练数据实体。
对于绑定事件,如果三联体事件的预测是正确的,单一的论点吗和预计将被删除的步骤集成单参数的预测结果和multiargument绑定事件。将输出的原因理由REG事件类。
如果三联体是无关紧要的,对吗同样的句子,它是直接输出。成对模型相比,这种方法认为联合信息在三联体(触发器,论点,argument2)开始。它在multiargument事件提取性能更好。
3.4。联合评分机制
由于引入序列模式的方法来平衡训练数据,召回性能显著提高。同时,纠正错误的正面例子,联合评分机制提出了预测结果。句子的评分机制两个方面考虑:相似性和触发的重要性,这些小于阈值将假阳性的例子。
句子相似度是广泛使用的在线搜索领域的问答系统。这是一个NLP领域的重要研究课题。在这里,我们使用这个工具sentence2vec基于卷积深结构化语义模型(C-DSSM) [41,42)来计算语义相关性得分。
潜在语义分析(LSA)是一个知名索引和检索的方法。有许多新方法从LSA, C-DSSM就是其中之一。它结合了深度学习文理学院和延伸。C-DSSM主要用于网络搜索,地图查询和文档通过一个非线性投影一个共同的语义空间。这个模型使用一个典型的卷积神经网络(CNN)架构秩相关文档。C-DSSM模型主要分为两个阶段。
()这个词向量映射到它们相应的语义概念矢量。在这里,有三个隐藏层的架构CNN。第一层是词哈希,这主要是基于字母的方法蟋蟀。这个词哈希方法减少bag-of-words词向量的维数。散列层这个词之后,它有一个卷积层提取本地上下文特征。此外,它使用max-pooling技术局部特征向量融入全球特征向量。收到一个高层语义特征向量在最后语义层。CNN的学习得到有效改善。图3描述C-DSSM的架构。
是表示作为输入项向量,是输出向量,中间隐藏层,是th权重矩阵,是th偏差项。因此,问题变成了
()计算文档之间的相关性分数和查询。通过计算的语义概念向量的余弦相似性,和测量获得的分数
计算过程联合得分为每个预测结果描述如下。
步骤1。计算句子之间的相似度预测结果的位置和所有相关的句子吗。表示的组句子包含相同的触发,并获得最大的价值
步骤2。计算触发的重要性,。 在哪里和在训练数据触发的重要性,指触发器的数量在事件类型,触发器的数量吗属于预测的结果集,触发器的数量吗预测的结果集,表中描述的事件类型吗1。
步骤3。结合和分数的预测结果。给出的计算公式如下: 在哪里代表了一个重量。句子相似度计算是基于语义分析,可以正确的假阳性的例子很好。因此,体重在公式(6)将获得一个更高的价值。
步骤4。给定阈值,如果,被认为是负面的例子。
4所示。实验
4.1。实验装置
通用电气实验的11和通用电气的13个语料库。九个类型的事件被定义在通用电气的11和扩展到十四类型的事件在通用电气的13。本文中给出的研究仍然是基于9个类型中定义通用的11。数据集的通用电气11和通用电气的13是不同的。没有摘要包含在通用电气的13,通用电气的论文数量的13比论文在通用电气的11。表3显示不同的数据集上的统计数据。我们合并通用电气11和通用电气的13个训练数据和开发数据作为最终的训练数据。最后的训练数据,消除重复的文件,包含16375个事件。所有参数的系统一直在优化发展集。近似跨度/近似递归评估报告使用提供的在线工具共享任务的组织者。我们的方法主要分为三个步骤:样本选择基于不平衡数据的顺序模式,对和三胞胎multiargument事件的提取和集成,并联合得分基于句子语义相似度和触发机制的重要性。
以下4.4.1。过滤不平衡数据
在序列模式样本的选择阶段,我们优化的参数序列模式通用电气的11开发设置,不同序列模式的最小支持度和阈值在不同的结果分数。我们合并通用电气11和通用电气的13个训练数据训练数据的优化参数。我们的目标是提高召回时通过序贯模式样本选择提取,然后提高每个事件的精度,同时保持了回忆,从而提高决赛分数。
表4显示了正负样本的比例在不同的最低支持序列模式的参数和阈值选择的训练数据。在这里,我们使用事件的数量作为样本的数量。正样本和负样本的比例是1:13.163在标注语料库。减少负样本过多或过少会导致偏移量数据,从而影响分类器的性能,这不是我们的初衷。因此,我们选择减少约50%的负样本通过设置最低支持和阈值。图4(一)显示了分四个序列的通用电气的11开发设置;当最低支持是4和阈值是2,得分的每个事件明显高于其他的序列。表5显示了正负样本的比例在不同的最低支持和阈值选择的顺序模式最终的训练数据。从表4和5,积极的和消极的样本的比例非常接近。因此,我们将使用最小化的序列支持对通用电气是4和阈值是2 11和通用电气的13测试集。图4 (b)表明,几乎分数小于原始模型的每个事件,这是成对模型通用电气的样本后11开发设置,选择基于序列模式。鉴于我们减少负样本导致高召回和较低的预测,我们建议联合评分机制来提高预测的性能。
(一)
(b)
4.1.2。的集成Multiargument事件
结果在表6回忆和显示得分显著提高了提取直接绑定事件的三胞胎。注册事件类包括嵌套的事件;因此,multiargument的提取具有较高的复杂性。我们只研究multiargument绑定事件的事件。这种方法,直接提取三胞胎multiargument事件,不会导致层叠错误。因此,有效的提取事件的三胞胎。
4.2。结果与讨论
4.2.1。准备结果在2011年GENIA BioNLP-ST
我们评估方法的性能和比较它与其他系统的结果。表7显示结果的方法使用官方通用电气的11个在线评估工具。考虑到通用电气的11个语料库包含文摘和全文,我们评估整体表现,抽象,和全文。文摘和全文的结果,以及整个结果,据报道,说明分类的方法是杰出的事件。表7表明,得分高于全文分数的抽象,它是81.32和71.44在简单的情况下,分别。然而,抽象的分数高于全文在绑定事件类的分数,分别是54.17和45.93。的分数的抽象也高于分数的全文REG事件类,分别是41.36和41.10。总得分高于全文的抽象,分别是54.23和53.64。表7也说明了在全文的方法执行。
表8显示了该方法的比较结果与其他通用电气的11个系统。浮士德的结果,马塞诸斯州大学UTurku, MSR-NLP, STSS模型从[复制7,24]。我们的方法在全文获得最好的得分为54.23。这分数高于最好的萃取体系,如《浮士德》通用电气的11(1.56分),STSS, UTurku(约3.5分)。精度和召回全文的性能也优于其他系统。然而,精度和召回SVT和注册事件类略低于浮士德和马塞诸斯州大学的抽象,但它们高绑定事件。然而,整个分数略低于浮士德和马塞诸斯州大学的高于UTurku, STSS, MSR-NLP。然而,召回取得得分最高,这主要是由于连续的模式样本不平衡数据的选择。
4.2.2。结果在2013年GENIA BioNLP-ST
管道的方法是最好的方法执行通用的13,EVEX是官方的赢家。我们在训练集训练模型和开发和评估测试集上使用官方通用电气的13个在线评估工具。表9显示了评价结果。通用电气的13个测试数据不包含摘要;因此,我们评估性能完整的论文。表10展示了我们的方法的比较结果与其他通用电气的13个系统,包括t恤2.1和EVEX,因为他们属于管道模型。我们添加BioSEM系统表中,这是一个基于规则的系统和取得最好的结果绑定事件。结果为2.1 t恤,EVEX, BioSEM从[复制8]。表10表明我们的方法是明显高于其他系统的召回率。召回率是48.65和2.1 t恤,EVEX,和BioSEM是46.60,45.87,和42.84,分别。的我们的系统是52.17分,而得分2.1 t恤,EVEX, BioSEM是51.00,51.24,和50.94,分别。虽然总分数我们的系统比前面所提到的,它没有达到预期的效果在绑定事件。这可能是一对不理想提取的结果绑定简单事件,导致可怜的整合对三胞胎后提取和三胞胎在绑定事件。总的来说,这些结果清楚地演示了该方法的有效性。
5。结论
在这项研究中,引入了一个新的事件提取系统。比较我们的系统与其他事件提取系统,我们获得了一些积极的结果。首先,我们提出了一种新的基于序贯模式样本选择的方法来平衡数据集,它发挥了重要作用的过程中提取生物医学事件。其次,考虑multiargument事件的触发和参数的相关性,系统提取对(触发器,参数)和三联体(触发器,论点,argument2)在同一时间。两人和三线态的集成提高multiargument事件预测的性能,提高了分数。最后,基于C-DSSM联合评分机制和触发的重要性提出了正确的预测。在一般情况下,样本选择基于序贯模式取得了理想的效果,并结合联合评分机制,进一步提高系统的性能。这种方法的性能和广泛的实验评价。虽然我们的方法是一种监督式学习的方法,我们提供了一个新的想法在构建一个好的预测模型,因为高召回可用于疾病的基因。尽管无数的努力,提取复杂事件仍然是一个巨大的挑战。在未来,我们将进一步优化联合评分机制和外部资源整合到生物医学事件提取通过semisupervised或无监督的方法。
相互竞争的利益
作者宣称没有利益冲突。
确认
这项工作是由中国国家自然科学基金(没有。61373067)和吉林省科技发展计划(没有。20140101195 jc)。