评论文章|开放获取
豪尔赫·瓦内加斯、塞尔吉奥·马托斯、法比奥·冈萨雷斯、何塞·L·奥利维拉, "从科学文献中提取生物分子事件的综述",医学中的计算和数学方法, 卷。2015, 文章的ID571381, 19 页面, 2015. https://doi.org/10.1155/2015/571381
从科学文献中提取生物分子事件的综述
摘要
本文综述了从科学文本中自动提取生物分子事件的最新方法。例如,涉及基因、转录因子或酶等生物分子的事件在生物过程和功能中具有核心作用,并为描述生理和发病机制提供有价值的信息。生物医学文献中的事件抽取具有广泛的应用,包括支持信息检索、知识摘要、信息抽取和发现。然而,由于生物文本中自然语言和推测、否定等高级语言现象的歧义性和多样性,自动抽取事件是一项具有挑战性的任务,可能导致误解或错误解释。在过去的十年中,来自自然语言处理、机器学习和统计学等不同研究领域的许多策略被提出。本文综述了生物分子事件提取中最具代表性的方法,并对目前的技术和常用方法、特征和工具进行了分析。最后,对当前的研究趋势和未来的展望进行了讨论。
1.介绍
科学文献是传播生物医学领域新知识的最重要媒介。由于计算和生物学方法的进步,这一领域的研究规模发生了显著变化,科学出版物的数量呈指数级增长[1]。这使得科学家比以往任何时候都更难发现、管理和利用与其研究领域相关的所有研究和成果[1].正因为如此,越来越多的人意识到需要此类文献的自动化开发工具[2].为了满足这一需求,自然语言处理(NLP)和文本挖掘(TM)技术正迅速成为支持和促进生物分析和生物数据库管理的不可或缺的工具。此外,这类工具的开发使各种应用程序的创建成为可能,包括特定领域的语义搜索引擎和支持路径的创建和注释或自动填充和丰富数据库的工具[3.- - - - - -5].
生物医学TM的最初努力集中在检测感兴趣实体的提及和将这些实体与参考知识库中的特定标识符连接的基本任务上[6,7].尽管实体规范化仍然是一个活跃的研究挑战,但由于实体名称的高度模糊性,一些现有工具提供的性能水平足以满足许多信息提取应用程序[6].近年来,人们对识别生物学相关实体之间的相互作用越来越感兴趣,例如,药物-药物[8]或蛋白质-蛋白质相互作用(PPI)[9].其中,文献中提到的PPI的鉴定受到了最多的关注,这是由于它们在系统生物学中的重要性以及加快众多PPI数据库数量的必要性。
在PPI提取中取得的进展之后,它变得与自动提取更详细的蛋白质相关事件的详细描述,以描述某些条件下的蛋白质特征和行为。这些事件包括表达,转录,本地化,约束力或规定,以及在理解生物过程和功能的理解中起着核心作用,并提供对生理和发病机制的洞察力。自动创建这些文本描述的结构化表示允许他们在信息检索和问题应答系统中使用,用于构建由此类事件组成的生物网络[2或通过知识发现推断新的联系。不幸的是,这类生物信息的提取是一项具有挑战性的任务,原因有以下几个方面:首先,所描述的生物过程通常是复杂的,涉及多个参与者,可能是个体实体,如基因或蛋白质、群体或家族,甚至是其他生物过程;描述这些过程的句子很长,而且在很多情况下有长期依赖关系;最后,生物语篇中还蕴藏着丰富的高级语言现象,如思辨、否定等,如果处理不当,就可能导致对语篇的误读[1,9].
这篇综述总结了用于解决科学文本中描述的生物分子事件的提取和形式化的不同方法。这些进展的下游影响,即网络提取、药物基因组学研究以及系统生物学和功能基因组学,在最近的综述中得到了强调[2,4,10,其中还描述了基于这些技术开发的各种终端用户系统。这篇综述集中在方法学方面,描述了可用的资源和工具,以及用于处理这一信息提取任务的特征、算法和管道,特别是在这一视角中最受关注的蛋白质相关事件。我们提出并讨论了目前可用的最具代表性的方法,描述了每种策略的优点、缺点和具体特征。并讨论了该领域未来的研究方向。
本文的内容组织如下:首先介绍生物分子事件,定义事件提取任务;然后我们描述事件提取步骤,给出常用的框架、文本处理和NLP工具和资源,并比较用于处理该任务的不同方法;在下一节中,我们将比较所提出的方法和系统的性能,然后讨论最相关的方面;最后,我们在最后一节提出了一些结束语。
2.生物分子事件
在生物医学领域,事件是指一个或多个生物医学实体的状态变化,如蛋白质、细胞和化学品[11].在其文本描述中,事件通常通过指定事件及其类型的触发器表达式引用。这些触发器通常是动词形式(如“刺激”)或动词名词化(如“表达”),可以作为单个单词或单词序列出现。这个文本描述还包括事件中涉及的实体(称为参与者),以及进一步指定事件的可能的附加信息,例如观察所描述事件的特定单元格类型。生物分子事件可能描述单个基因或蛋白质的变化,因此只有一个参与者表示受影响的实体,也可能有多个参与者,例如参与结合过程的生物分子。此外,事件可能作为更复杂事件的参与者,如规则事件,需要检测递归结构。
从科学文献中提取事件描述在过去十年中吸引了大量的关注,即那些涉及蛋白质和其他生物分子的事件。该任务需要确定事件的语义类型,识别事件参与者,可能是实体(如蛋白质)或其他事件,他们在事件中相应的语义角色,最后使用特定的形式主义对该信息进行编码。事件的结构化定义与本体相关联,本体定义事件和实体的类型、语义角色,以及可能分配给事件的任何其他属性。描述生物分子事件的本体的例子包括GENIA事件本体[11]及基因本体论[12].
数字1提供文本片段中描述的复杂事件的示例。TNF-α是IL-8基因表达的快速活化剂 从这个片段中,我们可以构造一个由两个事件组成的递归结构:第一个事件,类型为表示由触发词"表达式“它有一个单独的参数(“IL-8”)与角色主题(表示这是由事件影响的参与者),以及第二种类型的事件积极的监管,由触发词“激活。第二个事件有两名参与者:具有该作用的蛋白质“TNF-alpha”原因(定义该蛋白质是事件的原因)和第一个事件的作用主题.
3.事件提取
数字2说明一个常见的事件提取管道,确定每个阶段中使用的最流行的工具、模型和资源。这两个初始阶段通常是预处理和特征提取,然后是命名实体的识别。下一步是执行事件检测。此步骤通常分为两个独立的阶段:触发器检测,其中包括事件触发器及其类型的识别,以及边缘检测(或事件构造),重点是将事件触发器与其参数关联起来。另一方面,一些作者在单个联合预测步骤中解决了事件检测问题。这些方法可以处理两阶段方法中出现的级联错误,并且通常显示出性能的提高。最后,通常会出现一个后处理阶段,以细化和完成候选事件结构。否定或推测检测也可以包含在最后的步骤中。本节描述每个阶段,介绍最常用的方法。
3.1.用于事件提取的语料库
信息抽取系统的开发和改进通常要求存在手工标注的文本集或语料库。对于有监督的机器学习方法来说,这基本上是正确的,但注释数据也可以用来推断基于规则的方法中使用的模式。在生物医学事件提取的情况下,已经编制了各种语料库,包括标注了蛋白质-蛋白质相互作用的语料库。
3.1.1。珍妮亚事件语料库
GENIA事件语料库包含复杂的、嵌套的和类型的事件关系的人工策划注释[51.,52.].GENIA文集[53.]由Medline的1000篇论文摘要组成。它包含9,372个句子,其中确定了36,114个事件。该语料库由BioNLP共享任务的组织者提供给参与者,作为培训和评估的主要资源,并可在网上公开(http://www.nactem.ac.uk/aNT/genia.html).
3.1.2。BioInfer语料库
生物医学信息提取资源(http://www.it.utu.fi/BioInfer) [54.]是一种公共资源,为生物医学领域的信息提取提供手动注释的语料库和相关资源。
该语料库包含生物医学研究文章摘要的句子,为关系、命名实体和句法依赖做了注释。该语料库由蛋白质、基因和RNA关系注释,并作为开发信息提取系统及其组件(如解析器和领域分析器)的资源。该语料库由1100个来自生物医学研究论文摘要的句子组成。
3.1.3。基因调节事件语料库
基因调控事件文集(GREC) (http://www.nactem.ac.uk/GREC/) [55.]由240篇MEDLINE摘要组成,其中生物学家对与基因调控和表达相关的事件进行了注释。该语料库不仅具有注释实体之间的核心关系的特殊性,而且还具有关于这些关系的一系列其他重要细节,例如,位置、时间、方式和环境环境条件。
3.1.4。GeneReg语料库
GeneReg语料库[56.]由314个MEDLINE摘要组成,其中包含1770个表示模式生物中基因表达调控事件的成对关系E.科利.语料库注释与GENIA事件语料库兼容,具有域内和域外词汇资源。
3.1.5。PPI全集
虽然不像事件语料库那样注释丰富,但蛋白-蛋白相互作用语料库可以作为现有训练数据的补充。最相关的PPI语料库是LLL语料库[57.],目标语料库[58.和BioCreative PPI语料库[7].
3.2.预处理和特征提取
预处理是任何文本挖掘管道中的必要步骤。这包括将数据从原始格式读取到内部表示,并提取特征,这通常涉及到某种程度的文本或语言处理。在事件提取的特定情况下,预处理也可能涉及到解析共引用[59.或应用某种形式的句子简化[60.],例如,通过扩展连接,以改进提取结果。
3.2.1之上。预处理工具
框架。为了从文本中获得特征表示,有必要执行涉及一组常见NLP任务的文本处理,从句子分割和标记化,到词性标注、组块和语言分析。存在各种支持这些任务的文本处理框架,其中包括输出:NLTK(http://www.nltk.org/)、Apache OpenNLP (https://opennlp.apache.org/)和斯坦福大学CoreNLP (http://nlp.stanford.edu/software/corenlp.shtml)(图2).
句法解析器. 语法分析器将树或图形结构指定给自由文本句子。这些结构建立了组织动词与其从属参数之间的关系或依赖关系,在否定检测和消歧等许多应用中都很有用。语法分析器可以分为三类:依赖项分析器、阶段结构分析器和深度分析器[61.]依赖解析器的目的是计算一个句子的树结构,其中节点是单词,边表示单词之间的关系;短语结构解析器专注于识别短语及其递归结构,深层解析器通过计算特定于理论的语法/语义结构来表达深层关系。对于事件提取任务,使用了每个解析器组的几个实现,如图1所示2.
3.2.2。特性
一个好的事件提取系统的主要要求之一是丰富的特征表示。大多数事件提取系统提供一组复杂的特征,这些特征是从标记、句子、依赖项解析树和外部资源中提取的。表1总结在此处理阶段通常提取的特征,并指出它们在事件提取过程中的使用。(我)基于标记的特征捕获关于每个标记的特定知识,例如语法或语言特征,即词性(POS)和每个标记的引理,以及基于正字法的特征(例如,大写、标点和数字或特殊字符的存在)[42,43,62.- - - - - -68.]和形态信息,即前缀、后缀和字符n-格42,43,64.,67.,69.- - - - - -72.].(2)上下文特征提供了存在目标标记的句子或邻域的一般特征。从句子中提取的特征包括句子中标记物的数量[42],句子中命名实体的数量,以及所有单词的词袋计数[43,64.].本地上下文通常通过窗口或特征连词进行编码,包括POS标记、引理和单词n-gram,这些特征是从目标标记周围的单词中提取的[42,63.,65.,73.].(3)依赖解析提供涉及两个单词的语法关系信息,这些信息是从一个句子中依赖关系的图表示中提取出来的。常用的特性包括两个标记之间依赖跳的数量或类型,以及两个标记之间依赖路径中的单词、词素或POS标记的序列或n-g [65.,68.,72.,74.]这些特征通常在句子中的两个实体之间提取[64.,75.,或在候选触发器和实体之间[75.].(四)最后,将领域知识编码为特征也很常见,使用外部资源,如可能触发词的词汇和基因和蛋白质名称,以表明候选触发或实体的存在[27,76.- - - - - -78.].此外,令牌表示通常根据诸如Wordnet Hypernys(如Wordnet HyperNy)(如Wordnet HyperNy))的相关词语27,77.,79.].
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3.3.实体识别
实体识别包括在自然语言文本中检测对实体的引用(或提及),如基因或蛋白质,并标记它们的位置和类型。生物医学领域的命名实体识别通常被认为比其他领域更难,原因有以下几个:首先,有数百万个实体名称在使用中[71.]和不断增加的新词,意味着字典不够全面;其次,生物医学领域发展得太快,以至于无法就一个特定实体的名称达成共识[80甚至考虑实体本身所定义的确切概念。因此,相同的名称或首字母缩写可以用于不同的概念[81.].
生物医学领域的几个实体识别系统在过去十年中已经开发出来。这方面的大部分工作都集中在基因和蛋白质名称的识别上,最近还集中在化合物的识别上[82.].在这些情况下,使用丰富的功能的机器学习策略提供了最佳结果,表现为85% 测量(83.].
最常用的实体识别工具如图所示2,它还列出了在字典匹配方法或机器学习功能中经常使用的生物医学词汇。其中一些工具,即BANNER [36]金利呢[27],为训练新模型提供简单的界面,并已应用于各种实体类型的识别,如化合物和疾病。
3.4.触发检测
触发词检测是目前最受关注的事件抽取任务。这是一个至关重要的任务,因为以下任务的有效性很大程度上依赖于此步骤中生成的信息。该任务包括识别触发事件并充当谓词的文本块。尽管触发词并不局限于一组特定的词性标签,动词(如“激活词”)和名词(如“表达词”)是最常见的。此外,触发器可以由多个连续词组成。
数字3.用两个例子说明了触发器检测过程的预期结果。如图所示3.,触发器检测涉及确定所选本体指定的事件触发器及其类型。在句子(a)中,识别出两种不同的事件:触发字激活定义类型为的事件积极的监管触发字呢表达式定义类型为的事件基因表达.句子(b)说明了这项任务的难度:它表明短句可以包含各种相关事件;触发器可以以不同的方式表示(两种类型的事件消极的监管使用不同的触发字定义);最后,相同的触发字(表达式)可能表示不同类型的事件,这取决于上下文。
(a)
(b)
目前提出的各种触发检测方法大致可分为三类:基于规则的、基于字典的和基于机器学习的。表中总结了这些方法2并在本节剩下的部分中展示。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 李:线性内核;R:径向基函数核;P:多项式内核;C:卷积树核;CS:余弦相似性。 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3.4.1。触发检测的模式和匹配规则
有几种基于模式的策略[70,93.]和匹配规则。基于规则的方法通常遵循一些手动定义的语言模式,然后基于Word Forms和句法类别来增强其他约束以产生更好的匹配精度。这种方法的主要优点是它们通常需要很少的计算努力。基于规则的事件提取系统由一组规则组成,该规则由训练数据手动定义或生成。例如,Casillas等人。[88.]提出了一种基于Kybots(知识生成机器人)的策略,Kybots是一种抽象模式,用于检测文档中的实际概念实例和关系。这些模式以声明式格式定义,允许定义变量、关系和事件。Vlachos等人[76.)提供一个特定领域的方法基于句法分析器的输出和标准语言处理(即阻止、词元化和词性(POS)标签,等),增强规则从开发获得的数据在一个无监督的方法,避免了需要使用显式带注释的训练数据。
在基于词典的方法中,使用包含触发词及其对应类(事件类型)的词典来识别和分配事件触发器[74.]提出了一种遵循这种方法的策略,使用一组手动清理的字典和一个公式来计算特定事件的每个触发词的重要性。这是必需的,因为同一个单词可能与不同类型的事件相关联[66.].例如,在BioNLP ' 09共享任务数据集[51.],标记“过表达”在大约30%的事件中作为基因表达事件的触发因素出现,而其他70%的事件是正或负调节事件的触发因素。
许多策略结合了这两种方法。例如,Le Minh等人[70]提出了一种将基于规则和基于词典的方法相结合的策略。首先,它们选择具有适当POS标记且出现在蛋白质提及附近的标记,然后应用从训练语料库中提取的启发式规则来识别候选触发器。最后,从训练语料库中构建一个包含触发器单词的词典s及其对应的类用于对候选触发器进行分类。对于不明确的触发器类,选择出现率最高的类。Kilicoglu和Bergler[93.]还提出了一种基于基于规则和语法驱动的语言启发的组合策略,使用从训练语料库收集的触发器表达式的字典。然后,从字典匹配步骤检测到的触发器开始,通过基于语法依赖关系的启发式方法完全指定事件。
基于模式的方法通常具有较低的回忆率,因为定义全面的模式需要大量的努力,而且最常见的模式过于僵化,无法捕获语义/句法意译。
3.4.2。基于机器学习的触发检测方法
触发字检测的最新和成功方法是基于机器学习方法[72.,大多数工作将其定义为序列标记问题。另一方面,事件类型的定义被处理为一个多类任务,其中候选事件触发器被分类为预定义的生物医学事件类型之一。为了解决这些问题,人们提出了几种概率技术,例如隐马尔可夫模型(HMMs)、最大熵马尔可夫模型(MEMMs)、条件随空场(CRFs) [94.,95.]、支持向量机(Support Vector Machines, svm)。
例如,周和他[89.]提出将触发器识别作为序列标记问题处理,并使用最大熵马尔可夫模型(MEMM)检测触发器词。MEMM基于概率有限状态模型(如HMM)的概念,但由一个判别模型组成,该模型假设待学习的未知值是通过马尔可夫链连接的,而不是相互之间有条件独立的。类似地,基于条件随机场(CRFs)的各种策略也被提出[42,73.,85.,86.].CRFs已成为处理序列标记问题的一种流行方法,其主要原因是CRFs避免了memm中存在的标签偏倚问题[96.]但保留所有其他优点。与隐马尔可夫模型(HMMS)不同,CRF是判别模型。因此CRFS使用有条件的推理概率,这意味着它们最大化直接,是输入序列和是输出标签序列,不像HMMs,使联合概率最大化.这放宽了学习生成模型参数所需的强独立性假设。
触发器检测的最新建议基于支持向量机(SVM)。SVM不会遵循概率方法,而是替代是最多尝试在类之间找到最大分离的裕度余量分类器。该分类器呈现出非常好的结果,呈现比CRF更高的泛化性能。但是,培训复杂的SVM模型可能需要过多的计算时间和内存开销。已经提出了使用不同SVM实现和内核的几种策略。
一般的方法是根据一组精心选择的特征和带有注释的事件的训练集,将初始候选触发器分类为阳性或阴性。例如,Björne等[80,86.,97.]提出了一种基于SVM-multiclass (http://www.cs.cornell.edu/people/tj/svm_light/svm_multiclass.html)使用线性内核实现,通过在穷举网格搜索中探索参数最大化触发检测得分。本研究仅使用线性核,因为训练集的规模和复杂性,由超过3万个实例和近30万个特征组成,阻碍了更需要计算的选择,即径向基函数核的应用。
除了纯粹的监督学习(依赖于注释数据的数量和质量),半监督方法也被提出。Wang等[65.]将标记数据与大量未标记数据结合起来,使用基于语义特征(如遍历子序列特征和n-gram特征等)的丰富表示和基于事件特征耦合泛化(EFCG)的新表示。EFCG是在两种原始特征的基础上生成更高层次特征的策略,一种是具有区分不同类别能力的类区分特征,另一种是善于指示具体实例的样例区分特征。EFCG将这两种特征结合起来,并考虑它们之间的某种程度的相关性,生成一组新的特征。
Martinez等人采用了一种不同的策略,他们提出了一种基于词义消歧(WSD)的解决方案,使用了一个组合的CRF-VSM(向量空间模型)分类器,其中将VSM的输出作为一个特征合并到CRF中[73.].这种方法显著地提高了每个方法的性能。
3.5.边缘检测
边缘检测(也称为事件主题构建或事件参数识别)的任务是预测一个事件的参数,可能是命名实体(如基因和蛋白质)或另一个事件,由另一个触发词表示。事件参数通过事件触发词和参数的有向边图形化表示。这些边还表示参与者(实体或事件)在给定事件中所扮演的语义角色。在图4,句子(a)说明了由触发词定义的基本事件磷酸化表示某种类型的事件磷酸化.触发字和实体之间的有向边交通2,表示类型为“Theme”的关系,表示此实体是此事件中受影响的参与者。需要注意的是,事件可以作为其他事件的参与者,从而允许构建复杂的概念结构。例如,考虑句子(c),其中提到了两个事件:第一个事件类型表示和第二个类型的事件积极的监管.来自触发字的定向边活化剂触发字呢表达式表示事件表示由活动直接影响积极的监管.同样,类型的边缘导致活化剂和实体TNFalpha指示这是导致此事件的参与者。
(a)
(b)
针对边缘检测任务,提出了不同的方法,包括基于规则和字典的策略和基于机器学习的方法。这些总结在表中3.并将在下面的小节中进行描述。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| L:线性内核。 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3.5.1.边缘检测的模式和匹配规则
这些策略基于根据一组可以手动定义或从训练数据生成的规则识别边缘。在最基本的方法中,我们发现了MacKinlay等人提出的策略[85.],其中为每种类型的事件定义了一组特定的手工编码语法,这些语法由特定的领域知识(如命名实体注释和词典)支持。在基本事件的情况下,应用一个简单的距离标准,将最近的蛋白质指定为事件的主题,而对于更复杂的事件则需要额外的标准。例如,分配主题估计绑定事件的参数、到触发器事件字的最大距离和可能的主题的最大数量,对于规则事件,除了最大距离之外,还使用一些优先级规则来定义原因或主题论据。
Kilicoglu和Bergler [93.]提出了另一种基于规则的方法,其中识别事件参与者和相应的角色(例如,主题或原因)主要是基于训练语料库中事件触发器表达式和事件参数之间的依赖关系创建的语法来实现的。该策略基于Stanford语法解析器[98,用于自动提取事件触发器及其对应的事件参数之间的依赖关系路径。这些路径都是手工过滤的,只保留了正确的和足够通用的路径。
Le Minh等[70]遵循类似的策略,使用深层语法分析器应用产生的依赖关系图从训练数据生成模式列表。
Bui等人[99]提出了一项最新的研究,该研究基于从训练集自动生成的字典和模式。在这项工作中,在一台有4g内存的计算机上处理大约950个摘要的训练集只需要不到一分钟的时间,这说明了基于规则的系统的主要优势。不幸的是,尽管计算需求很低,但由于建模更复杂的关系和定义能够泛化的规则的困难,这种方法通常在回忆方面表现出适度的性能。
3.5.2。基于机器学习的边缘检测方法
近年来,类似于触发检测,有一个明显的趋势是使用机器学习方法来接近边缘检测任务。大多数工作都同意通过定义有限数量的边类来解决这个问题,将其作为一个有监督的多类分类问题。
如图所示3.,大多数方法都基于支持向量机。Miwa等人[87.]提出了一种这样的方法,将任务分为两个不同的分类问题:两个触发器之间的边缘检测和一个触发器和一个蛋白质之间的边缘检测。为此,我们从训练集中构造了一组带注释的实例,如下所示:对于在训练集中发现的每个事件,使用相应的事件类和边缘类型(例如Binding: Theme)的组合作为标签来构造带注释的边的列表。利用这些提取的标注边,利用单对余线性支持向量机解决了不平衡分类问题。Björne等[64.Wang等人[65.]采用多种方法,采用多种方法,其中两种边缘被注释:触发触发和触发蛋白。每个例子被归类为主题,原因,或负表示两个节点之间没有一条边。每条边都是独立预测的,这样分类就不受其他边的正分类或负分类的影响。
罗勒和史蒂文森[68.]评估了一个类似的策略,使用了一个多项式核。关系的分类分三个阶段进行。第一个包括通过定义触发器和指向蛋白质的主题来识别基本事件;第二阶段试图通过定义触发器和引用先前确定的基本事件的触发器的主题来识别规则事件;最后一个阶段试图识别其他的参数。哈卡拉等人[91.]提出了一种重新排序方法,该方法使用第一个SVM分类器的预测分数和有关事件结构的信息作为新的支持向量机模型的输入,重点优化预测边的排序。对新模型进行了多项式核和径向基核的评估,表明系统的整体精度有了提高。
周和何采用了不同的策略[89.],世界卫生组织提出了一种基于隐藏的向量状态模型的方法,称为HVS-BioEvent。虽然该方法在基本事件中表现出较低的性能,但与基于SVM分类器的系统相比,由于分层隐藏状态结构,它在复杂事件中实现了更好的性能。这种结构确实更适合于复杂的事件提取,因为它可以自然地模拟句子中的嵌入结构背景。
Van landdeghem等人[74.]提出了一种使用二进制支持向量机并行处理各类事件的方法。所有预测组合在一个集成图中,在该图上应用启发式后处理技术以确保全局一致性。线性和径向基函数(RBF)核通过5倍交叉验证进行参数调整进行评估。Van Landeghem等人对特征选择进行了有趣的探索;他们应用了全自动特征选择技术,旨在从大量初始特征集中识别最相关特征的子集。对结果的分析表明,高达50%的所有功能可以被删除,而不会损失超过一个百分点的时间-score,同时创建更快的分类模型。
3.5.3.混合方法
在文献中,我们可以找到许多将基于ml的策略与基于规则和基于词典的策略相结合的研究。这种组合通常有两种方式:(1)在集成策略中,每一种方法都是独立执行的,并通过规则或使用某种分类或回归模型将每一种方法的结果结合起来获得最终输出;(2)在堆叠策略中,一种方法的输出用作下一种方法的输入,下一种方法执行过滤和精炼过程,以产生更精确的最终输出。
作为第一种方法的一个例子,Pham等人[One hundred.]提出了一个混合系统,结合了基于规则和基于机器学习的方法。该方法将基于语法和依赖图的规则方法提取的事件与支持向量机分类器提取的事件相结合,得到最终的预测事件列表。在第二种方法中,一些研究[68.,80,97.]已使用基于规则的后处理步骤,通过消除重复节点并根据句子语法和参数类型组合中的条件将其边缘分离为有效组合,并考虑到eac的特征和特性,来细化基于ML的分类器生成的初始结果图h类事件。
3.5.4。结构化预测和联合模型
为了解决由上述两阶段方法产生的潜在级联错误,一些作者提出了触发器、事件参与者和连接边的联合预测。Riedel等[101]及Poon和Vanderwende [102]提出了基于马尔可夫逻辑的两种方法。马尔可夫逻辑是一阶逻辑的扩展,其中每个子句都附加一个概率权[103].而不是在事件实体上使用关系结构,如图所示4, Riedel等人将它们表示为句子标记之间的标记链接,并对标记序列应用链接预测。正如作者所述,这种基于链接的表示简化了马尔可夫逻辑网络(MLN)的设计。另一方面,Poon和Vanderwendle使用Markov逻辑对斯坦福依赖解析器获得的依赖边进行建模。因此,产生的MLN共同预测一个令牌是否是一个触发字、相应的事件类型,以及令牌的哪些依赖边连接到(主题或原因)事件参数。这允许在MLN中使用一组更简单的特性,从而在不牺牲预测性能的情况下获得更高效的计算解决方案。作者使用启发式方法修复了两个典型的解析错误,即命题短语连接和协调,并表明这对最终结果有重要的影响。
里德尔和麦卡勒姆[104]提出了另一种方法,该方法将问题分解为三个子模型:一个用于提取事件触发器和传出边,一个用于提取事件触发器和传入边,一个用于蛋白质-蛋白质绑定。通过对偶分解将三个子模型的优化方法进行组合[105,采用三种类型的约束来实现联合预测模型。符号之间的链接通过一组二进制变量表示,如Riedel等人[101].
McClosky等[98]提出了一种不同的方法,将事件结构转换为事件触发器和事件参与者之间的依赖关系。使用这些依赖树的特征以及从原始句子中提取的特征训练各种依赖解析器。在识别阶段,解析结果被转换回事件结构,并由最大熵重排序组件进行排序。
Vlachos和Craven [106]将基于搜索的结构化预测框架(SEARN)应用于事件抽取问题。该方法将事件抽取分解为针对一组分类任务的联合学习分类器,其中每个模型可以合并代表其他模型预测的特征。此外,损失函数包含了所有预测,这意味着模型是共同学习的,并实现了结构化预测。对于这个特定的任务,我们训练模型将每个标记分类为触发器或非触发器,并对句子中每一对可能的触发器-主题和触发器-原因进行分类。
3.6。形态检测
情态检测是识别否定和推测的关键部分[107].这项任务的目的是避免相反的意思,并区分什么时候一个句子可以被解释为主观的或非事实的陈述。生物医学文献中推测(也称为对冲)的检测一直是最近几项研究的焦点,因为区分事实信息和不确定信息的能力对于任何信息提取任务都是至关重要的[108].
在许多方法中,模态检测被视为边缘检测过程之后的一个额外阶段。大多数方法通过两步解决这个问题:首先检测推测/否定线索(可能是“可能”、“可能”、“建议”、“怀疑”和“似乎”等词),然后分析线索的范围。大多数最初的系统是基于规则的,依赖于词汇或句法信息,但最近的研究着眼于使用二进制分类器来解决这个问题[64.,78.,85.]通过生成注释为否定、推测或否定的实例进行训练(见表4).
4.现有方法比较
在本节中,我们对本综述中描述的不同方法和系统进行了比较分析。为了实现一致的比较,我们使用来自Bionlp共享任务的不同系统在事件提取中的标准数据集上实现的结果[51.,52.,109].这些数据集提供了一个直接的比较点,通常用于验证和评价新的方法和开发,这就支持了在比较分析中使用它们。数据集基于GENIA语料库[53.],由一个包含800篇摘要的培训集和一个包含150篇摘要的开发集组成。测试数据由260篇摘要组成,来自语料库中未发布的部分。对于《挑战》第二版,该初始数据集扩展为15篇全文文章,平均分为培训、开发和测试部分。使用标准召回率、准确度和准确度进行评估评分指标。
4.1.关于事件提取的BioNLP共享任务
BioNLP共享任务系列是社区范围内解决事件提取问题的主要努力,提供了标准化的数据集和评估设置,以比较和验证不同方法的性能演变。自2009年成立以来,BioNLP ST系列定义了许多细粒度信息,包括由生物信息学项目驱动的牵引(IE)任务。在本分析中,我们重点关注主要任务GENIA事件提取(GE)。本任务侧重于从科学摘要或全文中识别GENIA事件本体中定义的生物分子事件。从第一版开始,定义了三个独立的子任务,每个子任务都以不同的特异性级别处理事件提取。
任务1.核心事件提取:识别触发词,涉及9个与蛋白质生物学相关的事件。文本中蛋白质出现的注释,用作事件触发器的参数,在训练和测试集中都提供了。
任务2.事件充实:识别次要参数进一步指定Task 1中提取的事件。
任务3.否定/推测检测:检测与提取事件相关的否定和推测语句。
以下4.4.1。目标事件类型
该共享任务从GENIA事件本体中定义了9个生物分子事件的子集,分为三种不同复杂度的事件:基本事件、绑定事件和调节事件。基本事件是最容易完全解决的,因为它们只需要指定一个主参数。这组活动分为五类:基因表达,转录,蛋白质分解代谢,磷酸化,和本地化.绑定另一方面,事件要求至少检测两个参数。最后,监管事件,包括负和积极的监管,是最难完全指定的,因为它们涉及到另一个参数的定义,这个参数可能是一个实体或另一个事件,需要标识递归结构。
4.2.比较分析
4.2.1。准备核心事件提取
桌子5总结了处理核心事件提取子任务(Task 1)的最具代表性的策略所取得的性能。将触发和边缘检测问题转化为不同的多类分类问题,采用线性支持向量机分类器解决[86.].使用同样的方法,Miwa等人[87.]报告了对这些结果的改进,为边缘检测问题添加了一组触发器和蛋白质之间的最短路径特征。从表中可以看出,绑定事件得到了相当大的改进,召回率提高了12个百分点,精确度提高了3个百分点。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
在BioNLP ST 2011中,数据集被扩展到包括全文文章,但为了衡量两个版本之间的进度,保留了用于第一版的摘要集合仅考虑摘要时,FAUST系统的得分为57.46%。这对应于一个大幅增加四个多百分点过去最好的系统,带来的改善识别简单的事件,但特别是从一个更好的识别复杂的监管活动,增加超过11个百分点的精度和召回的3点。
浮士电系统由两种型号的堆叠组合组成:斯坦福赛事解析器[98]用于构建依赖树,然后将其用作第二个模型UMass模型的附加输入功能[104].UMass模型的主要区别在于,它执行触发器、参数和事件结构的联合预测,从而克服了在常见的管道方法中出现的级联错误,例如,在第一阶段没有正确预测触发器[111]在该模型中,事件提取问题被划分为更小的简单子问题,这些子问题分别得到解决,每个子问题表示一组惩罚,这些惩罚被添加到目标函数中。最终的解决方案是通过反复调整惩罚,直到所有单独的解决方案彼此一致。单独使用时,UMass模型在本版中取得了第二好的性能,并且在仅考虑全文时是性能最好的系统。在第三版中,BioNLP ST专注于模拟更现实的场景。因此,仅使用最近的全文构建了一个新的数据集,以便提取的信息能够表示该领域的最新知识。不幸的是,前两个版本(BioNLP ST 2009和BioNLP ST 2011)中使用的摘要集已从官方评估中删除,2011版中使用的全文集仅对应于本版中使用的数据集的一小部分,这使得很难与以前的结果进行比较,也难以衡量社区的进步。
在最新版本的共享任务中,表现最好的系统是EVEX [91.]及tee [97.].tee是UTurku系统的进化,主要基于SVM分类器,引入了一个自动标注方案学习系统,从训练数据中派生出特定任务的事件规则和约束。反过来,EVEX是一个组合系统,接受tee预测的输出,并通过应用重新排名,给事件打分,并删除所有低于定义阈值的事件,试图减少误报。对于这个reranking,is used with a set of features based on confidence scores (i.e., maximum/minimum trigger confidence and maximum/minimum argument confidence, among others) and features describing the structure of the event (i.e., event type of the root trigger and paths in the event from root to arguments, among others). This reranking and filtering approach provided a small overall improvement, achieved through a better precision in the definition of regulation events, which constitute a substantial fraction of the annotated data [105].
BioSEM [99,基于标注事件自动派生模式的基于规则的系统也获得了高性能的结果,与上面描述的机器学习方法只有微小的差异。BioSEM学习事件触发器和在三个不同级别定义的参数之间的关系模式:块、短语和子句。值得注意的是,该系统比基于ml的系统具有更高的精度,特别是考虑简单和绑定事件,改进幅度超过7个百分点。虽然在简单事件的情况下,这伴随着召回率的下降,但对于绑定事件,基于规则的系统取得了最好的结果,差异超过6%-这些结果表明,尽管ML方法仍然能产生最好的泛化效果,但基于规则的系统能够以更高的精度逼近这些结果,并进一步建议将这两种方法结合起来。
4.2.2.事件充实
桌子6显示在BioNLP-ST任务2中获得的结果,该任务2由次要事件参数的识别组成。这些次要参数取决于事件和include的类型地点参数(例如,AtLoc或ToLoc)来定义事件的源或目标网站参数(例如,网站或Csite),以指示域或区域,以便更好地指定事件的主题或原因。这个子任务的设置在不同版本之间发生了变化,不仅在使用的数据集方面,而且在预测作为次要参数的站点方面。这意味着表中显示的结果不具有直接的可比性,也就是说,对于上一版的挑战,不同的蛋白质修饰和调节事件的位点也被考虑在内。尽管如此,这些结果仍作为参考。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
只考虑了磷酸化位点。 结果是整体结合和磷酸化位点。 这项任务包括预测其他蛋白质修饰和调节事件的位点。 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
考虑到对摘要的分析,该表显示了在第一版和第二版中表现最好的系统所取得的结果的明显改善。更有趣的是,全文的结果和摘要的结果之间有相当大的差异。这表明,正如预期的那样,用于描述事件的语言在文章的主体中要比在摘要中更详细地指定事件。此外,虽然对事件的预测具有可接受的精确度,但其召回率却低得多,尤其是全文。
4.2.3.否定和推测检测
桌子7显示了Task 3中表现最好的系统,对应于否定和推测的标识。在第二版中,只有两个小组参与了这项任务,都比2009年的最佳结果有了重要的改进。84.]),与UTurku [64.,77.]在提取否定事件方面表现出更好的性能,而ConcordU11 [93.]在提取推测事件方面表现出更好的性能,在全文方面表现出更好的总体结果。从较低的准确率和召回率可以直接看出,这个任务比提取次要参数要困难得多。尽管数据集不同,无法进行直接比较,但在任务的最后一个版本上,全文的结果与之前的结果相似。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
5.讨论和未来的研究方向
生物分子事件提取包括识别在科学文献中的自然语言文本中描述的两种或多种生物分子之间的生物分子或相互作用的改变。这些事件构成了生物过程和功能的构建块,并自动开采他们的描述具有对理解生理和发病机制的洞察力。通过多种方法解决了事件提取,从基本模式匹配和解析技术到机器学习方法开始。
尽管在过去十年中取得了稳定的进展,但当前最先进的性能清楚地表明,从生物医学文献中提取事件仍然存在各种挑战。而性能结果接近80%-在识别简单事件方面取得了分数,但提取更复杂事件(如约束和监管事件)的能力仍然有限。尽管为识别这些事件做出了大量努力,但所取得的最佳绩效仍比简单事件低30%-40%。
5.1.模式和匹配规则与基于机器学习的方法
生物医学事件提取已经从纯粹的基于规则和基于字典的方法转向基于ml的解决方案,这是因为创建足够丰富的规则来捕获自然语言的可变性和歧义很困难,导致泛化能力有限,召回率较低。尽管如此,从注释数据中自动提取规则可能有助于获得更丰富的规则。例如,在BioNLP-ST的第三版中,基于规则的BioSEM系统显示出比最佳ML方法更高的精度,尽管召回率较低。
另一方面,尽管显示了共享任务设置的最佳性能,但机器学习方法存在重要的缺点,即它们对足够大而高质量的训练数据集的依赖。另一个重要的限制是,即使存在这样的数据集,如在评估任务的情况下,它的焦点也可能过于抑制,这可能意味着在这些数据上培训的模型将被良好地调整,以便从类似文档中提取信息,但可能变得无法使用在略微不同的域名。这项任务的许多近期进步来自不同的系统和方法的组合。例如,已经应用于规则的系统来从手动注释的数据中导出约束,然后用于校正或过滤基于机器学习的事件提取的结果。另一种选择是以合并方法将基于规则和ML的方法的结果组合。
5.2.特征选择和特征缩减
特征提取过程生成各种不同性质的特征。在许多研究中,最终数据表示的生成包括提取尽可能多的特征并以基本方式将其集成。这产生了一个高维空间,不考虑与性质相关的多个方面数据的冗余、噪声信息或其表示空间的复杂性。虽然一些研究试图解决这一问题,但主要是从降维的角度出发。一些研究表明,分析特征的贡献和适当选择这些特征可以费克斯极大地减少了计算需求[42]提出了一个解决方案,选择能够更好地反映特定事件类型触发器语言特征的特征;通过优化问题自动选择这些功能。此外,Van Landeghem等人[74.的结果表明,使用不到50%的原始提取特征就可以获得类似的整体性能。另一个重要的考虑是,这种减少不仅避免了额外的处理时间,也有助于避免不受欢迎的噪音[92.].
5.3。当前趋势和挑战
大多数事件提取策略将问题分解为两个主要步骤:第一步由标识指示事件的触发词组成,第二步(边缘检测)通过添加相应的参数完全指定事件。这使得触发词检测成为事件提取中的一个关键任务,因为第二步通常是在该过程的结果上执行的。事实上,一些研究表明,事件检测中约70%的错误是由于缺少触发器引起的[89.].为了解决这些级联错误,一些作者提出了触发器的联合预测,以及将这些触发器与事件参与者连接起来的边[101,102,104,106,112].如比较结果所示,这种联合推断在预测性能方面取得了最显著的进步,并构成了事件检测的最先进方法。结构化预测和联合训练模型也已成功地应用于其他生物医学信息提取任务。Berant等人[113],利用事件抽取来改进问答的细粒度信息抽取,采用结构化平均感知器算法联合抽取事件触发器和参数。Kordjamshidi等人[114]将结构化预测应用于提取细菌及其位置(如宿主)信息的任务通过联合识别提及的实体、生物体和栖息地以及相应的本地化关系。他们使用一组单词和短语的局部和上下文特征以及成对短语和经过训练的结构化支持向量机来联合提取信息。
使用后处理规则过滤和优化模型预测结果已被证明是事件提取的重要步骤。这些规则通常从注释数据自动获得,并反映在触发器和参与者之间建立事件之间的边缘的限制或可能性。另一方面,自动提取的规则在自己的应用中也可以显示BioSem系统所示的正结果。该策略与ML模型结果的集合组合可以提供平衡每种方法的精度和召回的方法。
虽然这项任务的最初努力集中在摘要的分析上,但这极大地限制了可以提取的信息的数量,从而限制了这些方法对下游应用程序的影响,如回答问题、网络构建和管理,或知识发现。因此,最近的努力集中于挖掘全文文档,但正如预期的那样,使用全文提取事件的精度较低,因为出版物的主要文本使用了更复杂的语言。有趣的是,所获得的结果表明,全文中复杂事件的识别变得更加困难,而简单事件的识别性能更高。
通过规则、ML或混合方法改进复杂事件的提取,即从全文文档中提取,可能取决于训练数据的数量和质量。然而,构建一个覆盖各种语言模式的完整注释的大规模数据集将是一项非常苛刻和不可行的任务。为了克服这个问题,可以使用非监督和半监督机器学习方法,利用PubMed等拥有大量无注释数据的存储库,构建更丰富的文本表示,从而更好地为单词之间的复杂关系建模。这是一个非常有前景的研究方向,因为有大量的可用数据[1但不幸的是,很少有研究试图利用这种非结构化信息(即没有注释的原始文本)。还可以进一步探索的另一个有趣的方面是在资源(如字典、词典和本体)中合并领域信息。从这些资源中获得的相关概念和语义关系可以用来丰富文本实例的表示,或者帮助生成过滤和后处理规则。
事件提取的另一个主要挑战与共指和照应有关,这使得事件参与者的正确识别更加困难。这是计算语言学和自然语言处理中一个非常活跃的研究领域,在生物医学文本挖掘的具体案例中也得到了广泛的研究[75.,115,116].第二版的BionLP-ST包括Coreference分辨率作为支持任务,其中最佳参与者获得的结果从55%到73%的精确度,召回变化在19%和22%之间。这些结果表明,该领域还有很多改进的空间,这也将增强事件提取结果。
除了提取事件、各自的类型和参与者外,更完整的事件说明还需要识别其他参数,如特定的结合位点、蛋白质区域或域。从当前最先进的性能可以看出,这种细粒度信息的提取本质上比事件的主要标识更困难。然而,如果要将自动提取的事件用于构建生物网络,则需要此信息[2].同样,否定和推测的识别,也被各种工作处理和评估在BioNLP-ST设置中,仍然是一个非常困难的挑战。尽管如此,即使目前的限制仍然阻碍从科学文献中直接提取可靠的生物网络,现有的方法可以作为加速网络提取过程的有效帮助,当集成在管理管道中,允许简单和用户友好的修订、修正、以及提取信息的完成。
6.结论
摘要生物分子事件提取是一项具有挑战性的任务,由于科学文献的模糊性和可变性,以及所描述的生物过程的复杂性,本文综述了生物分子事件提取的最新进展。在过去的几十年里,人们提出了各种各样的方法,从基本的模式匹配和解析技术到复杂的机器学习方法。
目前最先进的方法使用堆叠的模型组合,其中第二个模型要么使用规则来细化最初的预测,要么应用重新排序来选择最佳的事件结构。此外,与两或三个阶段的方法相比,对整个事件结构的联合预测已显示出更好的结果。
重要的挑战仍然存在,即复杂调节事件的提取,共参的解决,以及否定和猜测的识别。尽管如此,目前的方法可以用于文本挖掘辅助的策展管道,用于网络建设和知识库的填充。
利益冲突
作者声明本文的发表不存在利益冲突。
参考文献
- M.S.Simpson和D.Demner Fushman,“生物医学文本挖掘:最新进展调查”,年挖掘文本数据,第465-517页,施普林格,纽约,纽约,美国,2012。视图:出版商的网站|谷歌学术
- C. Li, M. Liakata,和D. Rebholz-Schuhmann,“从科学文献中提取生物网络:技术现状和挑战”简报的生物信息学,第15卷,第5期。5, pp. 856-877, 2014。视图:出版商的网站|谷歌学术
- A. Manconi,E.Vargiu,G.Armano和L. Milanesi,“生物信息学中的文献检索和挖掘:艺术状态和挑战”生物信息学的发展,第2012卷,文章编号573846,10页,2012年。视图:出版商的网站|谷歌学术
- S. Ananiadou, P. Thompson, R. Nawaz等人,“生物学和功能基因组学的基于事件的文本挖掘”,功能基因组学简介第14卷第2期3,pp。213-230,2015。视图:谷歌学术
- L. Hirschman, G. A. P. C. Burns, M. Krallinger等人,“生物资源工作流的文本挖掘”,数据库:生物数据库与管理杂志文章编号bas020, 2012。视图:出版商的网站|谷歌学术
- D. Campos, S. Matos, J. L. Oliveira,“生物医学命名实体识别的当前方法”,刊于生物知识发现手册:生物数据的预处理、挖掘和后处理,第839-868页,John Wiley & Sons, 2013。视图:谷歌学术
- C. N. Arighi, Z. Lu, M. Krallinger等人,“生物创新III研讨会概述”,BMC生物信息学,第12卷,增编8,第S1条,2011年。视图:出版商的网站|谷歌学术
- I. Segura-Bedmar, P. Martínez, and M. Herrero-Zazo, " Semeval-2013 task 9: extraction of drug-drug interactions from biomedical texts (DDIExtraction 2013), " in第七届语义评价国际研讨会论文集(SemEval’13),第341-350页,2013年6月。视图:谷歌学术
- S. Ananiadou, S. Pyysalo, J. Tsujii,和D. B. Kell,“通过文本挖掘文献的系统生物学事件提取”,生物技术的趋势第28卷第2期7,页381-390,2010。视图:出版商的网站|谷歌学术
- U. Hahn, K. B. Cohen, Y. Garten,和N. H. Shah,《挖掘药物基因组学文献——最新研究现状调查》,简报的生物信息学,第13卷,第2期4, pp. 460-494, 2012。视图:出版商的网站|谷歌学术
- J-D.Kim,T.Ohta和J.Tsujii,“从文献中挖掘生物医学事件的语料库注释,”BMC生物信息学, 2008年第9卷第10条。视图:出版商的网站|谷歌学术
- M. Ashburner, C. A. Ball, J. A. Blake et al,“基因本体论:生物学统一的工具”,自然遗传学,第25卷,第2期1,pp。25-29,2000。视图:出版商的网站|谷歌学术
- K. Sagae和J. Tsujii,“使用LR模型和解析器集成的依赖解析和领域适应”,出版EMNLP-CoNLL的CoNLL共享任务研究进展,第1044-1050页,捷克共和国布拉格,2007年6月。视图:谷歌学术
- E. Charniak和M. Johnson,“从粗到细的n-最佳解析和MaxEnt歧视性重排名”,发表于第43届“计算语言学协会”第四次年会(ACL '05)的诉讼程序,页173-180,2005年6月。视图:谷歌学术
- d . McClosky任意域解析:用于自然语言解析的自动域自适应[博士论文],布朗大学,普罗维登斯,国际扶轮,美国,2010。
- D. M. Bikel,“柯林斯解析模型的复杂性”,计算语言学,第30卷,第2期4,页479 - 511,2004。视图:出版商的网站|谷歌学术|Zentralblatt数学
- D.克莱因和C. D.曼宁,“准确的非词汇化解析”,在计算语言学协会第41届年会论文集(acl03), vol. 1, pp. 423-430, ACM, 2003年7月。视图:出版商的网站|谷歌学术
- “词汇消歧模型的再训练对HPSG解析器领域适应性的影响”,《语言学杂志》,第2期第十届国际解析技术会议论文集(IWPT '07),第11-22页,捷克共和国布拉格,2007年6月。视图:谷歌学术
- A.A.Copestake和D.Flickinger,“使用HPSG的开源语法开发环境和广泛的英语语法覆盖”,年第二届语言资源与评价国际会议论文集(LREC’00)2000年,希腊雅典。视图:谷歌学术
- Y. Peng, C. O. Tudor, M. Torii, C. H. Wu, K. Vijay-Shanker,“iSimp in BioC标准格式:增强句子简化系统的互操作性”,数据库文章编号:bau038, 2014。视图:出版商的网站|谷歌学术
- 鹤冈勇,立石勇,j.d。Kim等人,“为生物医学文本开发一个健壮的词性标签”信息学进展,第3746卷,共页计算机科学课堂讲稿,页382-392,施普林格,柏林,德国,2005。视图:出版商的网站|谷歌学术
- S. Bird, E. Klein和E. Loper,使用Python进行自然语言处理, O'Reilly Media, 2009。
- C. D. Manning, M. Surdeanu, J. Bauer, J. Finkel, S. Bethard,和D. McClosky,“斯坦福大学corenlp自然语言处理工具包”,在计算语言学协会第52届年会论文集:系统演示,第55-60页,马里兰州巴尔的摩,美国,2014年6月。视图:出版商的网站|谷歌学术
- opennlp项目,2005年,http://opennlp.apache.org/index..
- H. Cunningham, V. Tablan, A. Roberts和K. Bontcheva,“通过GATE的全生命周期开源文本分析,从生物医学文档中获得更多信息,”PLoS计算生物学,第9卷,第5期。2、文章编号e1002854, 2013。视图:出版商的网站|谷歌学术
- Y. Kano, W. A. Baumgartner, L. McCrohon等人,“U-compare:用UIMA分享和比较文本挖掘工具,”生物信息学,第25卷,第2期第15页,1997-1998,2009。视图:出版商的网站|谷歌学术
- D. Campos, S. Matos和J. L. Oliveira,《Gimli:开源和高性能生物医学名称识别》,BMC生物信息学,第14卷,第54条,2013年。视图:出版商的网站|谷歌学术
- NERsuite:一个命名实体识别工具包,2015,http://nersuite.nlplab.org/.
- C.-N。许,Y.-M。Chang C.-J。郭,Y.-S。林,H.-S。黄,pext。Chung,“为基因提及标记整合高维双向解析模型”生物信息学,第24卷,第13期,第i286-i294页,2008年。视图:出版商的网站|谷歌学术
- J. Hakenberg, C. Plake, R. Leaman, M. Schroeder和G. Gonzalez,《蚊蚋提及基因的物种间规范化研究》,生物信息学,卷。24,不。16,PP。I126-I132,2008。视图:出版商的网站|谷歌学术
- J. Wermter, K. Tomanek和U. Hahn,《GeNo的高性能基因名称规范化》,生物信息学,第25卷,第2期6,第815-821页,2009。视图:出版商的网站|谷歌学术
- R. Klinger, C. Kolářik, J. Fluck, M. Hofmann-Apitius,和C. M. Friedrich,“IUPAC和IUPAC类化学名称的检测”,生物信息学,第24卷,第13期,第i268-i276页,2008年。视图:出版商的网站|谷歌学术
- T. Rocktäschel, M. Weidlich和U. Leser,《化学斑点:化学命名实体识别的混合系统》,生物信息学第28卷第2期12, pp. 1633-1640, 2012。视图:出版商的网站|谷歌学术
- D. Campos, S. Matos和J. L. Oliveira,“在科学文件中注释化学实体的文件处理管道,”Cheminformatics杂志, 2015年第7卷,增刊1,第S7条。视图:出版商的网站|谷歌学术
- M. Chowdhury和M. Faisal,“疾病提到特定特征的识别”,在生物医学自然语言处理讲习班论文集,第83-90页,乌普萨拉,瑞典,2010年7月。视图:谷歌学术
- R. Leaman和G. Gonzalez,“BANNER:生物医学命名实体识别进展的可执行调查”第十三届太平洋生物计算研讨会论文集,页652-663,2008年1月。视图:谷歌学术
- B.赛托斯,“ABNER:自动标记基因、蛋白质和其他文本实体名称的开源工具”,生物信息学第21卷第2期14,页3191 - 3192,2005。视图:出版商的网站|谷歌学术
- h . Liu Z.-Z。Hu, J. Zhang,和C. Wu,“生物同义词典:基于网络的蛋白质和基因名称同义词典”,生物信息学第22卷第2期1,第103-105页,2006。视图:出版商的网站|谷歌学术
- Y. Sasaki,S. Montemagni,P.Pezik,D. Rebholz-Schuhmann,J.Mcnaught和S. Ananiadou,“Biolexicon:生物学域的词汇资源”第三届生物医学语义挖掘国际研讨会论文集(SMBM'08), 109-116页,2008年9月。视图:谷歌学术
- O.Bodenreider,“统一医学语言系统(UMLS):整合生物医学术语,”核酸研究,第32卷,D267-D270页,2004年。视图:出版商的网站|谷歌学术
- D.Rebolz Schuhmann,J.-H.Kim,Y.Yan等人,“生物兴趣词汇实体的评估和交叉比较(lexebi)”公共科学图书馆一号,第8卷,第10号,文章编号e75185,2013年。视图:出版商的网站|谷歌学术
- d·坎波斯Q.-C。Bui, S. Matos, J. L. Oliveira,《TrigNER:自动优化生物医学事件触发科学文件识别》,生物和医学的源代码,第9卷,第1条,2014年。视图:出版商的网站|谷歌学术
- “基于邻域哈希特征的生物分子事件触发检测方法”,《中国生物医学工程学报》,2013年第4期,第1期。理论生物学杂志,第318卷,第22-28页,2013年。视图:出版商的网站|谷歌学术
- c c。Chang和C.-J。Lin, " LIBSVM:支持向量机的库,"关于智能系统和技术的ACM交易,第2卷,第2期2011年第27条第3款。视图:出版商的网站|谷歌学术
- K. Crammer和Y. Singer,《基于多类内核的向量机算法实现》,机器学习研究杂志,第2卷,265-292页,2002。视图:谷歌学术
- 关于。风扇,K.-w.Chang C.-J。hsieh,x.-r.王,C.-J.林,“Liblinear:大线性分类的库,”机器学习研究杂志,第9卷,第1871-1874页,2008。视图:谷歌学术
- MALLET:机器学习语言工具包,2002,http://mallet.cs.umass.edu.
- T. Kudo,“crf++:另一个CRF工具包”,软件,2005,http://crfpp.sourceforge.net.视图:谷歌学术
- M.M.Stark和R.F.Riesenfeld,“Wordnet:一个电子词汇数据库”,年第11届欧洲制图学渲染研讨会论文集,第21页,捷克共和国布尔诺,1998年。视图:谷歌学术
- T.Joachims,“在线性时间内训练线性支持向量机”,年第12届ACM SIGKDD知识发现和数据挖掘国际会议论文集,第217-226页,2006年8月。视图:谷歌学术
- J.D.Kim,T.Ohta,S.Pyysalo等人,“BioNLP 09事件提取共享任务概述”,年生物医学自然语言处理当前趋势研讨会论文集:共享任务(BioNLP'09),第1-9页,计算语言学协会,博尔德,科罗拉多州,美国,2009。视图:谷歌学术
- j。Kim,S. Pyysalo,T. Ohta,R. Bossy,N. Nguyen和J. Tsujii,“Bionlp共享任务2011”的概述“2011年BioNLP共享任务研讨会论文集,第1-6页,美国宾夕法尼亚州斯特劳德斯堡计算语言学协会,2011年6月。视图:谷歌学术
- j。金,T.太田,K. Oda, j .-我。Tsujii,“从文本到路径:生物医学文献知识获取的语料库注释”亚太生物信息学会议录(APBC'08),页165-176,帝国大学出版社,京都,日本,2008年1月。视图:谷歌学术
- S. Pyysalo, F. Ginter, J. Heimonen等人,“生物推断:生物医学领域的信息提取语料库”,BMC生物信息学,第8卷,第50条,2007年。视图:出版商的网站|谷歌学术
- P. Thompson, S. A. Iqbal, J. McNaught, and S. Ananiadou,“构建一个支持生物医学信息抽取的注释语料库”,BMC生物信息学, 2009年,第349条。视图:出版商的网站|谷歌学术
- E.Buyko、E.Beisswanger和U.Hahn,“基因表达调控事件通用语料库——语料库及其域内和域外互操作性概述”,年第七届国际语言资源与评价会议记录(LREC'10), N. Calzolari, K. Choukri, B. Maegaard等。,p. 1921, European Language Resources Association (ELRA), Valletta, Malta, 2010.视图:谷歌学术
- 《外语教学语料库》,2015年,http://genome.jouy.inra.fr/texte/LLLchallenge/.
- 目标语料库,2015,ftp://ftp.cs.utexas.edu/pub/mooney/bio-data/.
- K.Raghunathan,H.Lee,S.Rangarajan等人,“共指消解的多通筛”,年自然语言处理中的经验方法会议记录(EMNLP'10)第492-501页,2010年10月。视图:谷歌学术
- 彭勇,M. Torii, C. H. Wu, K. Vijay-Shanker,“基于模式的生物医学关系抽取系统快速发展的通用NLP框架”,BMC生物信息学, 2014年第15卷第285条。视图:出版商的网站|谷歌学术
- R. S. T. Y. Miyao, K. Sagae, T. Matsuzaki, J. Tsujii, "面向任务的句法分析器评价及其表征",刊于计算机语言学协会第46届年会论文集:人类语言技术,美国俄亥俄州哥伦布,2008年6月。视图:谷歌学术
- S.Pysalo、T.Ohta、M.Miwa、H.-C.Cho、J.Tsujii和S.Ananiadou,“跨生物组织的多层次事件提取,”生物信息学第28卷第2期18,页575 - 581,2012。视图:出版商的网站|谷歌学术
- D. Okanohara, Y. Miyao, Y. Tsuruoka, J. Tsujii,“改进用于命名实体识别的半马尔可夫条件随机场的可扩展性”,发表于第21届国际计算语言学会议和第44届计算语言学协会第44届年会,第465-472页,计算语言学协会,悉尼,澳大利亚,2006。视图:谷歌学术
- J. Björne, F. Ginter和T. Salakoski,《图尔库大学的生物信息学共享任务》,BMC生物信息学, 2012年,第13卷,增编11,第4条。视图:出版商的网站|谷歌学术
- 王军,徐青,林海,杨振宇,李勇,“生物医学事件抽取的半监督方法”,蛋白质组学,卷。11,第S17,2013年。视图:出版商的网站|谷歌学术
- S.里德尔,R. Sãtre, H.-W。Chun, T. Takagi, J. Tsujii,《用马尔可夫逻辑提取生物分子事件》,计算智能第27卷第2期4, pp. 558-582, 2011。视图:出版商的网站|谷歌学术
- L. R. McGrath,K. Domico,C. D. Corley,以及B.-J。WebB-Robertson,“复杂的生物事件从使用语言和语义特征的签名提取全文,”2011年BioNLP共享任务研讨会论文集,第130-137页,美国俄勒冈州波特兰计算语言学协会,2011年6月。视图:谷歌学术
- R. Roller和M. Stevenson,“使用多重分类器识别genia事件”,刊于BioNLP共享任务2013研讨会论文集计算语言学协会,保加利亚索非亚,2013年8月。视图:谷歌学术
- D. Campos, S. Matos和J. L. Oliveira,“生物医学概念识别的模块化框架”,BMC生物信息学2013年第14卷第281条视图:出版商的网站|谷歌学术
- Q. Le Minh, S. N. Truong,和Q. H. Bao,“一种用于生物医学事件注释的模式方法”2011年BioNLP共享任务研讨会论文集,第149-150页,计算语言学协会,斯特劳斯堡,宾夕法尼亚州,美国,2011。视图:谷歌学术
- “GENETAG:一种命名为实体识别的基因/蛋白质标记语料库,”BMC生物信息学,第6卷,补编1,第S3条,2005年。视图:出版商的网站|谷歌学术
- X.Liu,A.Bordes和Y.Grandvalet,“通过文本实体对的多类分类进行生物医学事件提取”,年BioNLP共享任务2013研讨会论文集,第45-49页,计算语言学协会,保加利亚索非亚,2013年8月。视图:谷歌学术
- D. Martinez和T. Baldwin,“生物医学中事件触发词检测的词义消歧”,BMC生物信息学, 2011年,第12卷,增编1,第4条。视图:出版商的网站|谷歌学术
- S. Van Landeghem, B. De Baets, Y. De Peer,和Y. Saeys,“使用并行二进制分类器从文本中高精度生物分子事件提取”,计算智能第27卷第2期4, pp. 645-664, 2011。视图:出版商的网站|谷歌学术
- M. Miwa, P. Thompson, and S. Ananiadou,“利用领域适应和共参解析促进文献中的自动事件提取”,生物信息学第28卷第2期13、Article ID bts237, pp. 1759-1765, 2012。视图:出版商的网站|谷歌学术
- A. Vlachos, P. Buttery, D. Ó。Séaghdha和T. Briscoe,“没有训练数据的生物医学事件提取”生物医学自然语言处理当前趋势研讨会论文集:共享任务,第37-40页,美国科罗拉多州博尔德,2009年。视图:谷歌学术
- J. Björne和T. Salakoski,“广义生物医学事件提取”2011年BioNLP共享任务研讨会论文集,第183-191页,ACM,美国俄勒冈州波特兰市,2011年6月。视图:谷歌学术
- M.Miwa,S. Pyysalo,T. OHTA和S. Ananiadou,“使用多个部分重叠的Corpora”宽覆盖生物医学事件提取“BMC生物信息学第14卷第2期1、2013年第175条。视图:出版商的网站|谷歌学术
- H. Kilicoglu和S. Bergler,《使用触发词和句法依赖的有效生物事件提取》计算智能第27卷第2期4, pp. 583-609, 2011。视图:出版商的网站|谷歌学术|Mathscinet.
- J. Björne, F. Ginter, S. Pyysalo, J. Tsujii,和T. Salakoski,《pubmed规模的复杂事件提取》,生物信息学第26卷第2期12,页382 - 3890,2010。视图:出版商的网站|谷歌学术
- Zhou g, J. Zhang, J. Su, D. Shen, and C. Tan,“在生物医学文本中识别人名:机器学习方法,”生物信息学,第20卷,第7期,第1178-1190页,2004年。视图:出版商的网站|谷歌学术
- M.Krallinger,O.Rabal,F.Leitner等人,《化学与药物化学语料库及其注释原则》Cheminformatics杂志, 2015年,第7卷,增刊1,第S2条。视图:出版商的网站|谷歌学术
- D. Campos, S. Matos和J. L. Oliveira,《生物医学命名的实体识别:机器学习工具的调查》高级文本挖掘的理论与应用,第8章,175-195页,InTech,里耶卡,克罗地亚,2012。视图:出版商的网站|谷歌学术
- H. Kilicoglu和S. Bergler,“基于句法依赖的生物事件提取启发式”,发表于生物医学自然语言处理当前趋势研讨会论文集:共享任务,第119-127页,计算语言学协会,博尔德,科罗拉多州,美国,2009。视图:谷歌学术
- A. MacKinlay, D. Martinez,和T. Baldwin,“crf和精确语法的生物医学事件注释”生物医学自然语言处理当前趋势研讨会论文集:共享任务,第77-85页,美国科罗拉多州博尔德,2009年6月。视图:谷歌学术
- J.Björne,J.Heimonen,F. Ginter等,“用基于格图的特征套装提取复杂的生物事件”,生物医学自然语言处理当前趋势研讨会论文集:共享任务,第10-18页,2009。视图:谷歌学术
- M. Miwa, R. Sætre, j . d。Kim和J. Tsujii,“使用丰富特征的复杂事件分类的事件提取”,生物信息学与计算生物学杂志,第8卷,第1期,第131-146页,2010年。视图:出版商的网站|谷歌学术
- A. Casillas, A. D. de Ilarraza, K. Gojenola, M. Oronoz, and G. Rigau, " Using kybots for extraction events in biomedical texts, " in2011年BioNLP共享任务研讨会论文集,第138-142页,美国俄勒冈州波特兰,2011年6月。视图:谷歌学术
- Zhou D.和Y. He,“基于隐藏向量状态模型的生物医学事件提取”,人工智能在医学中的应用,第53卷,第53期3, pp. 205-213, 2011。视图:出版商的网站|谷歌学术
- 钱磊,“生物医学文献中基于树核的蛋白质-蛋白质相互作用的提取”,生物医学信息学杂志,第45卷,第3期,第535-543页,2012年。视图:出版商的网站|谷歌学术
- K. Hakala, S. Van Landeghem, T. Salakoski等,“EVEX在ST’13中的应用:大规模文本挖掘资源在事件抽取和网络构建中的应用”,发表于BioNLP共享任务2013研讨会论文集,第26-34页,计算语言学协会,索非亚,保加利亚,2013年8月。视图:谷歌学术
- Xia,A.C.Fang和X.Zhang,“使用Turku系统增强生物医学事件提取的新特征选择策略,”生物医学研究的国际,第2014卷,文章编号205239,12页,2014年。视图:出版商的网站|谷歌学术
- H.Kilicoglu和S.Bergler,“将一般语义解释方法应用于生物事件提取”,发表于2011年BioNLP共享任务研讨会论文集,第173-182页,计算语言学协会,波特兰,俄勒冈,美国,2011年6月。视图:谷歌学术
- J. D. Lafferty, A. McCallum,和F. C. N. Pereira,“条件随路域:用于分割和标记序列数据的概率模型”,刊于第十八届机器学习国际会议论文集(ICML’01),第282-289页,马萨诸塞州威廉斯敦,美国,2001年6 - 7月。视图:谷歌学术
- H. M. Wallach,《条件随机字段:简介》独联体技术报告MS-CIS-04-21, 2004年。视图:谷歌学术
- 陈志强,“词性标注中标签偏差问题的影响”,《中国科学(d辑)》IEEE RIVF国际会议论文集:计算和通信技术、研究、创新和未来展望(RIVF’13),第103-108页,越南河内,2013年。视图:谷歌学术
- J. Björne和T. Salakoski,“TEES 2.1: bionlp 2013共享任务中的自动注释方案学习”,发表于Bionlp共享任务2013研讨会论文集计算语言学协会,保加利亚索非亚,2013年8月。视图:谷歌学术
- D. McClosky, M. Surdeanu,和C. D. Manning,“事件提取作为依赖解析”,在计算机语言学协会第49届年会论文集:人类语言技术(HLT’11),第1卷,1626-1635页,计算语言学协会,波特兰,俄勒冈,美国,2011。视图:谷歌学术
- Q-C.Bui、D.Campos、E.van Mulligen和J.Kors,“基于规则的生物医学事件提取快速方法”,年BioNLP共享任务2013研讨会论文集, 104-108页,计算语言学协会,索菲亚,保加利亚,2013年8月。视图:谷歌学术
- 范晓强,黎明强,何伯强,“生物医学事件提取的混合方法”,载BioNLP共享任务2013研讨会论文集, 121-124页,计算语言学协会,索菲亚,保加利亚,2013年8月。视图:谷歌学术
- 里德尔,H.-W。田,T. Takagi, J. Tsujii,“生物分子事件提取的马尔可夫逻辑方法”,刊于生物医学自然语言处理当前趋势研讨会论文集:共享任务(BioNLP'09),第41-49页,美国宾夕法尼亚州斯特劳德斯堡,2009年。视图:谷歌学术
- H.Poon和L.Vanderwende,“生物医学文献知识提取的联合推理”,年人类语言技术学报:计算语言学协会北美分会年会(HLT’10),第813-821页,计算语言学协会,2010年。视图:谷歌学术
- M. Richardson和P. Domingos,《马尔科夫逻辑网络》,机器学习,卷。62,没有。1-2,pp。107-136,2006。视图:出版商的网站|谷歌学术
- S.Riedel和A.McCallum,“具有双重分解和最小区域自适应的鲁棒生物医学事件提取”,年2011年BioNLP共享任务研讨会论文集,第46-50页,计算语言学协会,宾州斯特劳兹堡,美国,2011年6月。视图:谷歌学术
- N.Komodakis,N.Paragios和G.Tziritas,“通过双重分解的MRF优化:重新审视消息传递”,在第十一届IEEE计算机视觉国际会议论文集(ICCV’07), pp. 1-8, IEEE,里约热内卢de Janeiro,巴西,2007年10月。视图:出版商的网站|谷歌学术
- A. Vlachos和M. Craven,“使用基于搜索的结构化预测从摘要和全文中提取生物医学事件”,BMC生物信息学,第13卷,增刊11,第5条,2012年。视图:出版商的网站|谷歌学术
- N.Konstantinova,S.C.M.de Sousa和J.A.Sheila,“注释否定和推测:评论领域的案例”,年与RANLP相关的第二届学生研究研讨会论文集(RANLPSLUD'11),pp.139-144,Hissar,保加利亚,2011年9月。视图:谷歌学术
- R. Morante和C. Sporleder,《情态与否定:特刊简介》计算语言学,卷。38,不。2,pp。223-260,2012。视图:出版商的网站|谷歌学术|Mathscinet.
- J.D.Kim,Y.Wang和Y.Yasunori,“genia事件提取共享任务,2013版概述”,摘自BioNLP共享任务2013研讨会论文集,第8-15页,计算语言学协会,索菲亚,保加利亚,2013年8月。视图:谷歌学术
- 范兰德海姆,J. Björne, C.-H。Wei等,“从文献中大规模事件提取多层次基因标准化”,公共科学图书馆一号,第8卷,第4期,文章编号e55814,2013年。视图:出版商的网站|谷歌学术
- S.Riedel,D.McClosky,M.Surdeanu,A.McCallum和C.D.Manning,“2011年生物NLP中事件提取的模型组合”,年2011年BioNLP共享任务研讨会论文集,第51-55页,计算语言学协会,波特兰,俄勒冈,美国,2011年6月。视图:谷歌学术
- H. Liu, L. Hunter, V. Kešelj,和K. Verspoor,“基于近似子图匹配的生物医学事件和关系文献挖掘”,公共科学图书馆一号,第8卷,第4期,文章编号e60954,2013年。视图:出版商的网站|谷歌学术
- [j]。陈等人,“阅读理解的生物过程建模”自然语言处理中的经验方法研究进展(EMNLP’14),2014年10月。视图:出版商的网站|谷歌学术
- P. Kordjamshidi, D. Roth和m.f。从生物医学文本中提取空间信息的结构化学习:细菌生物群落BMC生物信息学, 2015年第16卷,第129条。视图:出版商的网站|谷歌学术
- n .阮j。Kim, M. Miwa, T. Matsuzaki和J. Tsujii,“通过简单的语义分类改进蛋白质共参照的分辨率”,BMC生物信息学2012年第13卷第304条视图:出版商的网站|谷歌学术
- K.吉川,S. Riedel, T. Hirao等,“基于共参的生物医学文本事件-论点关系提取”,生物医学语义学杂志,第2卷,第S6条,2011年。视图:谷歌学术
版权
版权所有©2015 Jorge A. Vanegas等人。这是一篇发布在知识共享署名许可协议,允许在任何媒介上不受限制地使用、传播和复制,但必须正确引用原作。