文摘

信息学方法,文本挖掘和自然语言处理等,总是参与生物信息学研究。在本研究中,我们将讨论文本挖掘和自然语言处理方法从两个角度生物信息学。首先,我们的目标是寻找知识生物学、检索引用使用文本挖掘方法和重建数据库。例如,蛋白质-蛋白质之间的关系和基因-疾病的关系可以从PubMed开采。然后,我们分析文本挖掘和自然语言处理技术的应用在生物信息学中,包括预测蛋白质的结构和功能,检测非编码RNA。最后,许多方法和应用,以及他们对生物信息学的贡献,讨论了未来文本挖掘和自然语言处理的研究人员使用。

1。介绍

文本挖掘和自然语言处理是指理解和分析自然语言通过使用计算机算法和程序。它是一个人工智能的应用领域的重要研究方向。研究自然语言处理和文本挖掘报道最早出现的计算机。连续和广泛的机器学习和数据挖掘算法的研究,现有的文本挖掘技术取得了良好的效果在自动抽象、自动问答、网络关系网络分析,利于解决(1,2]。

生物信息学是一个交叉学科,形成了人类基因组计划的进展和成就。它预测和解决科学问题基因通过使用计算机和统计信息。数据存储、检索和分析是生物信息学的关键过程(3- - - - - -7]。国家生物技术信息中心建立了各种生物数据的数据库,包括DNA或蛋白质序列数据库来存储数据(例如,数据库和dbSNP) (8,9),在线孟德尔遗传疾病数据库来存储数据,基因表达综合数据库来存储基因芯片数据,和PubMed数据库用于存储生物和医学文献[10]。

文本挖掘和自然语言处理技术是必要的,从扩大检索用户偏好的知识数据库。因此,研究人员检索论文在某些感兴趣的话题,如确定蛋白质的相互作用,通过PubMed计算机算法和程序。遗传密码的破解,研究人员确定生物序列,尤其是蛋白质序列,类似于人类的语言成分。除了使用文本挖掘直接检索生物信息学的文章,越来越多的研究人员正在对蛋白质序列作为一种特殊的“文本”,分析他们基于现有的文本挖掘技术。生物信息学和自然语言处理之间的关系如图1。研究人员还预测蛋白质的结构和功能。基于这两个方面,我们总结了文本挖掘技术用于生物信息学研究。我们的目标是将这些技术更多的生物信息学研究人员的数量,希望研究人员可以使用良好的文本挖掘技术在生物信息学研究将会增加。

2。矿业生物信息学文学

文本挖掘技术的发展起着重要的作用在生物文献检索,尤其是在建立生物信息数据库。特殊生物文献检索问题研讨会期间进行了协会的年度会议上对计算语言学和分子生物学年度国际会议上智能系统在2005年讨论文学矿业与生物信息学相关的问题。提取蛋白质相互作用和基因功能和疾病之间的关系是两个主要应用对象。

2.1。提取蛋白质的相互作用

提取的蛋白质相互作用网络是生物信息学和系统生物学的一个重要研究课题11- - - - - -14]。在先前的研究中,研究人员手动搜索蛋白质-蛋白质之间的关系。然而,随着生物文学的指数增长,一个程序,可以自动识别蛋白质-蛋白质之间的关系从PubMed抽象是必要的。然而,没有统一的命名规则建立了蛋白质。许多蛋白质和基因使用相同的名字。因此,识别蛋白质名称从文献摘要,并进一步确定它们的相互作用在文本挖掘中的应用关键问题寻找蛋白质-蛋白质之间的关系。

起初,研究人员提取蛋白质-蛋白质之间的关系通过统计和计算方法。他们手动创建字典的蛋白质包括元素的名称,然后搜索摘要至少发生两次。在此基础上,研究人员确定,相关的蛋白质相互作用[15]。一些研究人员也使用动态规划来提取和比较蛋白质-蛋白质之间的关系(16]。

提取蛋白质-蛋白质之间的关系一直是生物信息学很长一段时间的研究热点,吸引了越来越多的研究者在文本挖掘和自然语言处理。首先,文学的语法抽象更仔细地分析,而不是使一个简单的统计数据字典的单词。金等人把一个复杂的语义结构分析转化为计算最短路径图中通过创建一个核(17]。类似的分析方法的文献摘要包括语法分析(18- - - - - -21),上下文无关语法分析(22[],本体分析23),而其他信息检索的方法。蛋白质相互作用研究使用这些分析方法。此外,许多机器学习方法,比如整体学习(24)和贝叶斯网络(25),应用于识别蛋白质名称和交互。

2.2。提取基因功能和疾病之间的关系

提取蛋白质-蛋白质之间的关系涉及到寻找两种蛋白质在文本和确定它们是否相互作用。同样,提取基因功能和疾病之间的关系还包括寻找基因名称和疾病名称同时在文献中,然后决定是否一个特定基因与特定疾病(26]。

一般来说,这样提取过程可以分为三个步骤。首先,通过搜索相关论文的摘要与字典。第二,必须扩大搜索范围向前和向后有时基于相关的词或句的位置,以确保准确性。最后,事实是评估使用语法分析方法或机器学习方法。这种提取方法经常产生特殊的基因和疾病的良好效果。Bui等人研究了毒品和艾滋病病毒变异之间的关系在PubMed [27]。江等人决定大约3000小分子核糖核酸和不同疾病之间的关系基于微的命名规则28]。程等人开发了一个基于关系的文本挖掘系统在人类疾病中,变化,和药物的影响(29日]。Iossifov等人专注于研究人类和老鼠脑畸形30.]。詹森等人做了一个详细的总结相关文档数据库,文献挖掘软件和函数(31日]。

2.3。检索引用

大量的生物科学文献发表。寻找相互作用蛋白质和研究基因和疾病之间的关系只有两个应用案例。文本挖掘技术是需要获得许多其他生物科学和生物信息学问题的答案在各种数据库中,如PubMed。

生物文学矿业及相关解决问题需要解决两个主要问题,即识别命名实体和提取关系。这些问题主要是解决(1)基于语言分析方法(32基于词典(的),(2)方法33),(3)机器学习方法(34,35),(4)统计方法(36]。

几个重要的数据库也选择与文本挖掘。STRING [37]和BioGRID [38)是建立蛋白质与文学互动挖掘。预测基因功能,PubTator [39]和GeneCards [40利用文本挖掘技术)是重要的数据库。相关作品详细综述了黄和陆的工作(41最近)。随着外包的发展,人工文本搜索和挖掘还可以有利于生物医学文献收集(42]。

此外,PubMed数据库转换成一个可扩展的标记语言关系数据库(43)和模糊搜索的论文和作者名称通过短期的匹配也是目前的研究热点44]。

3所示。文本挖掘技术应用到蛋白质的研究

DNA和蛋白质序列是一个有意义的基因语言和被视为生命的未知之事。因此,越来越多的自然语言处理和文本挖掘算法被应用到生物信息学研究。例如,潜在语义分析应用于蛋白质远程同源性检测(45,46),和蛋白质谱分析源于词频统计自然语言处理。此外,一些语法规则的蛋白质、DNA和RNA序列被发现,并建立了若干web服务器以提取这些特征和规则(47]。

3.1。预测蛋白质结构

蛋白质结构决定功能(48]。因此,它应该分析来确定蛋白质功能。蛋白质的结构分析主要集中在特定的蛋白质序列,将地区分为 螺旋, 薄板,蛋白质无序区域。预测 螺旋和 薄板区域预测蛋白质二级结构是一样的。

如果一个蛋白质序列被认为是一种自然语言,然后分析蛋白质的类型在一个地区是类似于自然语言处理校正语法。首先,蛋白质二级结构预测的组合规则和统计数据(49- - - - - -52]。然而,面对统计预测的瓶颈,一些研究人员提出使用机器学习预测方法,包括基于人工神经网络(ANN)方法(53),支持向量机(SVM) [54,55),随机森林56- - - - - -58),和最大熵59]。

预测蛋白质无序地区也在进行。这个地区是指该地区不稳定的或独特的三维结构的蛋白质空间结构。许多文本挖掘和机器学习方法,包括安(60- - - - - -62年),支持向量机(63年- - - - - -65年),条件随机场(66年),和随机森林67年),被用来预测蛋白质无序区域。常见的现有服务器地址表中列出1

3.2。预测蛋白质功能

蛋白质功能预测是生物信息学中最基本的研究课题之一。它涉及预测蛋白质-蛋白质之间的关系和互动网站(68年,69年),本地化亚细胞蛋白质(70年- - - - - -78年预测和分类),跨膜蛋白(79年- - - - - -82年远程同源性检测)、蛋白质(83年,84年),蛋白质分类函数(85年- - - - - -93年),认识到多功能酶(94年- - - - - -96年),和DNA结合蛋白质识别(97年,98年]。

蛋白质序列很容易确定。类似于自然语言,蛋白质序列有许多复杂的规则。然而,总结和理解蛋白质序列的规则是困难的。因此,分析和预测氨基酸序列表达的“蛋白质语言”通过使用计算语言学和机器学习方法是必要的。通过这些过程,我们可以理解蛋白质序列的功能。

预测蛋白质相互作用是蛋白质功能中最基本的研究课题之一。许多研究人员都致力于预测两个蛋白质序列是否表现出交互。到目前为止,应用了许多机器学习的方法,包括支持向量机(99年),内核方法(One hundred.,101年),决策树(102年,103年),随机森林104年),贝叶斯网络(105年),和自回归模型(106年]。几种文本处理方法,如本体论注释和样本权重(107年),用于检测功能和过程的训练数据。当预测蛋白质相互作用,研究人员还旨在分析蛋白质相互作用的区域,用于预测蛋白质相互作用位点。信息方法中常用的语法分析,如条件随机域(108年)和一个隐藏的马尔可夫模型(HMM) [109年),被用来分析交互网站,取得了良好的效果。此外,随机森林(110年),支持向量机(111年,安112年),贝叶斯网络(113年),线性回归(114年),和其他机器学习方法用于预测蛋白质相互作用位点。然而,一些研究人员怀疑,确定蛋白质序列本身是不足以提供足够的信息预测的相互作用[115年]。文本挖掘和机器学习的研究人员应该开发新特性和分类方法来解决这个问题。网站现有的通用软件用来预测蛋白质-蛋白质之间的关系和互动网站提供的表格2

4所示。将自然语言处理技术应用于非编码RNA识别

4.1。比较RNA预测方法

对齐也是自然语言处理的一个重要话题。DNA或RNA序列也可以被看作是文本。基于多重序列比对方法可以使用只有在序列相似性水平。ncRNAs的二级结构通常比他们更保守序列(116年,117年];例如,microrna的前体共同分享时发针形般的结构,图示形式蝶式结构(118年,119年]。许多ncRNAs因此的功能取决于他们的二级结构而非序列。结果,基于结构的多重序列比对方法开发了一致输入序列已知ncRNA结构来确定输入序列所属ncRNA类。

LocARNA [120年)可以产生快速、高质量的成对和RNA序列的多重比对。它使用一个复杂的RNA能源模型同时折叠和序列/ RNA的结构调整。LocARNA执行全球和本地序列比对以及当地结构对齐的RNA分子。LocARNA的升级版本,称为LocARNA-P,最近开发的(121年]。新版本包含了一个概率模型,可以计算准确的多重比对基于概率一致性转换和可靠性资料评估局部比对质量和本地化RNA图案。这些特性都是基于计算序列和结构匹配概率基于LocARNA对齐模型。

虽然比较方法表现良好在大多数情况下,他们有三个固有的局限性:(1)他们是高度依赖于同源序列或结构的可用性和无法预测当没有可用相关序列相似性或结构相似;(2)不能正确识别真正的ncRNAs与已知ncRNAs同源性较低;(3)他们只能识别ncRNAs与已知ncRNA类成员同源但不能识别小说ncRNA类的成员。大多数lncRNAs(长非编码rna)无法预测使用比较的方法,因为他们没有特定的结构或序列相似性。这些限制意味着显示低特异性识别ncRNAs比较方法。多重序列比对工具,目前可用的表中列出3

4.2。Noncomparative RNA预测方法

noncomparative方法是同源信息和独立的,因此,检测nonconserved ncRNAs。大多数noncomparative方法使用机器学习技术的预测(122年),类似于文本挖掘技术。

由于RNA结构的重要性,一些计算RNA折叠工具被开发出来,如mfold RNAfold, vsfold evofold, sfold。一般来说,这些算法确定折叠二级结构和输入序列的优化分子间碱基配对最小化自由能。一些microrna的识别方法如表所示4和现有的RNA二级预测工具表中列出5

5。结论和未来的研究

随着自然语言和文本挖掘方法研究的发展,不同的应用领域将是未来的研究的关键。交叉学科由生物信息学正成为越来越多的信息科学研究者的焦点。文本挖掘技术和方法的应用在生物信息学研究将成为文本挖掘研究的重点。与此同时,生物信息学研究人员学习文本挖掘技术集中来解决特定的生物信息学问题。

在生物文献检索,除了上述预测蛋白质相互作用和基因-疾病的关系,很多问题,尤其是那些需要更新文献检索结果,如药物不良反应和分子成分之间的关系以及在单核苷酸多态性网站,疾病,和药物不良作用,需要使用文本挖掘在文献数据库中搜索相关知识。

在生物信息学中,几乎所有的蛋白质组学相关研究并根据氨基酸序列预测蛋白质结构可以进行使用文本挖掘和自然语言处理技术。许多成熟的文本挖掘技术,如词频统计,条件随机域,嗯,和上下文无关文法,已经成功地应用于预测蛋白质二级结构,不规则区域,互动,互动网站。然而,最新的研究结果在文本挖掘和自然语言处理应该验证通过应用他们的蛋白质和DNA的语言。没有有效的计算方法可以预测第三和第四的蛋白质结构,蛋白质同源远程检测、蛋白质无序区域检测、交互网络建立和药物目标预测。信息科学研究人员应该开发并提供更有效的算法。此外,新的机器学习和文本挖掘方法(例如,semisupervised学习和主动学习)已经提出,并将应用于生物文献检索和生物信息学。目前,推荐系统基于反馈已成为生物文献检索的一个新的热点问题。和Hadoop技术为大数据是另一个热点生物学序列(123年]。

生物信息学的发展依赖于信息科学。特别是,文本挖掘和自然语言处理研究人员应该提供一个更广泛的应用空间。文本挖掘算法的研究人员应该开发更加有效的智能算法基于生物数据的特点。本研究不仅总结文本挖掘方法用于生物信息学和相应的问题,但它也提供了成功的预测软件的相关网站。最近,文本挖掘研究人员参与生物信息学可以测试和比较不同类型的软件。作者希望文本挖掘研究人员的数量可以用自己的方法在生物信息学将增加,这将促进生物信息学的发展,甚至基因研究。

利益冲突

作者宣称没有利益冲突。

确认

这项工作得到了中国自然科学基金(批准号31200769),中国福建省自然科学基金(赠款。2013 j05103也没有。2014 j01253)、厦门科技计划项目(批准号3502 z20143030),福建教育部门和科研计划项目(赠款nos JB12184和JB09203)。