计算和数学方法在医学

在这一页上

文摘介绍结论确认引用版权相关文章

特殊的问题

机器学习和网络生物学和医学的方法

把这个特殊的问题

评论文章|开放获取

体积2015年| 文章的ID674296年| https://doi.org/10.1155/2015/674296

自然语言处理技术在生物信息学的调查

志强曾,¹ 华史,¹ Yun吴,¹ 和Zhiling香港 ²

学术编辑器: 道黄

收到了 2015年5月10日

修改后的 2015年6月12日

接受 2015年6月21日

发表 2015年10月07

文摘

信息学方法,文本挖掘和自然语言处理等,总是参与生物信息学研究。在本研究中,我们将讨论文本挖掘和自然语言处理方法从两个角度生物信息学。首先,我们的目标是寻找知识生物学、检索引用使用文本挖掘方法和重建数据库。例如,蛋白质-蛋白质之间的关系和基因-疾病的关系可以从PubMed开采。然后,我们分析文本挖掘和自然语言处理技术的应用在生物信息学中,包括预测蛋白质的结构和功能,检测非编码RNA。最后,许多方法和应用,以及他们对生物信息学的贡献,讨论了未来文本挖掘和自然语言处理的研究人员使用。

1。介绍

文本挖掘和自然语言处理是指理解和分析自然语言通过使用计算机算法和程序。它是一个人工智能的应用领域的重要研究方向。研究自然语言处理和文本挖掘报道最早出现的计算机。连续和广泛的机器学习和数据挖掘算法的研究,现有的文本挖掘技术取得了良好的效果在自动抽象、自动问答、网络关系网络分析,利于解决(1,2]。

生物信息学是一个交叉学科,形成了人类基因组计划的进展和成就。它预测和解决科学问题基因通过使用计算机和统计信息。数据存储、检索和分析是生物信息学的关键过程(3- - - - - -7]。国家生物技术信息中心建立了各种生物数据的数据库,包括DNA或蛋白质序列数据库来存储数据(例如,数据库和dbSNP) (8,9),在线孟德尔遗传疾病数据库来存储数据,基因表达综合数据库来存储基因芯片数据,和PubMed数据库用于存储生物和医学文献[10]。

文本挖掘和自然语言处理技术是必要的,从扩大检索用户偏好的知识数据库。因此,研究人员检索论文在某些感兴趣的话题,如确定蛋白质的相互作用,通过PubMed计算机算法和程序。遗传密码的破解,研究人员确定生物序列,尤其是蛋白质序列,类似于人类的语言成分。除了使用文本挖掘直接检索生物信息学的文章,越来越多的研究人员正在对蛋白质序列作为一种特殊的“文本”,分析他们基于现有的文本挖掘技术。生物信息学和自然语言处理之间的关系如图1。研究人员还预测蛋白质的结构和功能。基于这两个方面,我们总结了文本挖掘技术用于生物信息学研究。我们的目标是将这些技术更多的生物信息学研究人员的数量,希望研究人员可以使用良好的文本挖掘技术在生物信息学研究将会增加。

2。矿业生物信息学文学

文本挖掘技术的发展起着重要的作用在生物文献检索,尤其是在建立生物信息数据库。特殊生物文献检索问题研讨会期间进行了协会的年度会议上对计算语言学和分子生物学年度国际会议上智能系统在2005年讨论文学矿业与生物信息学相关的问题。提取蛋白质相互作用和基因功能和疾病之间的关系是两个主要应用对象。

2.1。提取蛋白质的相互作用

提取的蛋白质相互作用网络是生物信息学和系统生物学的一个重要研究课题11- - - - - -14]。在先前的研究中,研究人员手动搜索蛋白质-蛋白质之间的关系。然而,随着生物文学的指数增长,一个程序,可以自动识别蛋白质-蛋白质之间的关系从PubMed抽象是必要的。然而,没有统一的命名规则建立了蛋白质。许多蛋白质和基因使用相同的名字。因此,识别蛋白质名称从文献摘要,并进一步确定它们的相互作用在文本挖掘中的应用关键问题寻找蛋白质-蛋白质之间的关系。

起初,研究人员提取蛋白质-蛋白质之间的关系通过统计和计算方法。他们手动创建字典的蛋白质包括元素的名称,然后搜索摘要至少发生两次。在此基础上,研究人员确定,相关的蛋白质相互作用[15]。一些研究人员也使用动态规划来提取和比较蛋白质-蛋白质之间的关系(16]。

提取蛋白质-蛋白质之间的关系一直是生物信息学很长一段时间的研究热点,吸引了越来越多的研究者在文本挖掘和自然语言处理。首先,文学的语法抽象更仔细地分析,而不是使一个简单的统计数据字典的单词。金等人把一个复杂的语义结构分析转化为计算最短路径图中通过创建一个核(17]。类似的分析方法的文献摘要包括语法分析(18- - - - - -21),上下文无关语法分析(22[],本体分析23),而其他信息检索的方法。蛋白质相互作用研究使用这些分析方法。此外,许多机器学习方法,比如整体学习(24)和贝叶斯网络(25),应用于识别蛋白质名称和交互。

2.2。提取基因功能和疾病之间的关系

提取蛋白质-蛋白质之间的关系涉及到寻找两种蛋白质在文本和确定它们是否相互作用。同样,提取基因功能和疾病之间的关系还包括寻找基因名称和疾病名称同时在文献中,然后决定是否一个特定基因与特定疾病(26]。

一般来说,这样提取过程可以分为三个步骤。首先,通过搜索相关论文的摘要与字典。第二,必须扩大搜索范围向前和向后有时基于相关的词或句的位置,以确保准确性。最后,事实是评估使用语法分析方法或机器学习方法。这种提取方法经常产生特殊的基因和疾病的良好效果。Bui等人研究了毒品和艾滋病病毒变异之间的关系在PubMed [27]。江等人决定大约3000小分子核糖核酸和不同疾病之间的关系基于微的命名规则28]。程等人开发了一个基于关系的文本挖掘系统在人类疾病中,变化,和药物的影响(29日]。Iossifov等人专注于研究人类和老鼠脑畸形30.]。詹森等人做了一个详细的总结相关文档数据库,文献挖掘软件和函数(31日]。

2.3。检索引用

大量的生物科学文献发表。寻找相互作用蛋白质和研究基因和疾病之间的关系只有两个应用案例。文本挖掘技术是需要获得许多其他生物科学和生物信息学问题的答案在各种数据库中,如PubMed。

生物文学矿业及相关解决问题需要解决两个主要问题,即识别命名实体和提取关系。这些问题主要是解决(1)基于语言分析方法(32基于词典(的),(2)方法33),(3)机器学习方法(34,35),(4)统计方法(36]。

几个重要的数据库也选择与文本挖掘。STRING [37]和BioGRID [38)是建立蛋白质与文学互动挖掘。预测基因功能,PubTator [39]和GeneCards [40利用文本挖掘技术)是重要的数据库。相关作品详细综述了黄和陆的工作(41最近)。随着外包的发展,人工文本搜索和挖掘还可以有利于生物医学文献收集(42]。

此外,PubMed数据库转换成一个可扩展的标记语言关系数据库(43)和模糊搜索的论文和作者名称通过短期的匹配也是目前的研究热点44]。

3所示。文本挖掘技术应用到蛋白质的研究

DNA和蛋白质序列是一个有意义的基因语言和被视为生命的未知之事。因此,越来越多的自然语言处理和文本挖掘算法被应用到生物信息学研究。例如,潜在语义分析应用于蛋白质远程同源性检测(45,46),和蛋白质谱分析源于词频统计自然语言处理。此外,一些语法规则的蛋白质、DNA和RNA序列被发现,并建立了若干web服务器以提取这些特征和规则(47]。

3.1。预测蛋白质结构

蛋白质结构决定功能(48]。因此,它应该分析来确定蛋白质功能。蛋白质的结构分析主要集中在特定的蛋白质序列,将地区分为螺旋,薄板,蛋白质无序区域。预测螺旋和薄板区域预测蛋白质二级结构是一样的。

如果一个蛋白质序列被认为是一种自然语言,然后分析蛋白质的类型在一个地区是类似于自然语言处理校正语法。首先,蛋白质二级结构预测的组合规则和统计数据(49- - - - - -52]。然而,面对统计预测的瓶颈,一些研究人员提出使用机器学习预测方法,包括基于人工神经网络(ANN)方法(53),支持向量机(SVM) [54,55),随机森林56- - - - - -58),和最大熵59]。

预测蛋白质无序地区也在进行。这个地区是指该地区不稳定的或独特的三维结构的蛋白质空间结构。许多文本挖掘和机器学习方法,包括安(60- - - - - -62年),支持向量机(63年- - - - - -65年),条件随机场(66年),和随机森林67年),被用来预测蛋白质无序区域。常见的现有服务器地址表中列出1。

3.2。预测蛋白质功能

蛋白质功能预测是生物信息学中最基本的研究课题之一。它涉及预测蛋白质-蛋白质之间的关系和互动网站(68年,69年),本地化亚细胞蛋白质(70年- - - - - -78年预测和分类),跨膜蛋白(79年- - - - - -82年远程同源性检测)、蛋白质(83年,84年),蛋白质分类函数(85年- - - - - -93年),认识到多功能酶(94年- - - - - -96年),和DNA结合蛋白质识别(97年,98年]。

蛋白质序列很容易确定。类似于自然语言,蛋白质序列有许多复杂的规则。然而,总结和理解蛋白质序列的规则是困难的。因此,分析和预测氨基酸序列表达的“蛋白质语言”通过使用计算语言学和机器学习方法是必要的。通过这些过程,我们可以理解蛋白质序列的功能。

预测蛋白质相互作用是蛋白质功能中最基本的研究课题之一。许多研究人员都致力于预测两个蛋白质序列是否表现出交互。到目前为止,应用了许多机器学习的方法,包括支持向量机(99年),内核方法(One hundred.,101年),决策树(102年,103年),随机森林104年),贝叶斯网络(105年),和自回归模型(106年]。几种文本处理方法,如本体论注释和样本权重(107年),用于检测功能和过程的训练数据。当预测蛋白质相互作用,研究人员还旨在分析蛋白质相互作用的区域,用于预测蛋白质相互作用位点。信息方法中常用的语法分析,如条件随机域(108年)和一个隐藏的马尔可夫模型(HMM) [109年),被用来分析交互网站,取得了良好的效果。此外,随机森林(110年),支持向量机(111年,安112年),贝叶斯网络(113年),线性回归(114年),和其他机器学习方法用于预测蛋白质相互作用位点。然而,一些研究人员怀疑,确定蛋白质序列本身是不足以提供足够的信息预测的相互作用[115年]。文本挖掘和机器学习的研究人员应该开发新特性和分类方法来解决这个问题。网站现有的通用软件用来预测蛋白质-蛋白质之间的关系和互动网站提供的表格2。

4所示。将自然语言处理技术应用于非编码RNA识别

4.1。比较RNA预测方法

对齐也是自然语言处理的一个重要话题。DNA或RNA序列也可以被看作是文本。基于多重序列比对方法可以使用只有在序列相似性水平。ncRNAs的二级结构通常比他们更保守序列(116年,117年];例如,microrna的前体共同分享时发针形般的结构,图示形式蝶式结构(118年,119年]。许多ncRNAs因此的功能取决于他们的二级结构而非序列。结果,基于结构的多重序列比对方法开发了一致输入序列已知ncRNA结构来确定输入序列所属ncRNA类。

LocARNA [120年)可以产生快速、高质量的成对和RNA序列的多重比对。它使用一个复杂的RNA能源模型同时折叠和序列/ RNA的结构调整。LocARNA执行全球和本地序列比对以及当地结构对齐的RNA分子。LocARNA的升级版本,称为LocARNA-P,最近开发的(121年]。新版本包含了一个概率模型,可以计算准确的多重比对基于概率一致性转换和可靠性资料评估局部比对质量和本地化RNA图案。这些特性都是基于计算序列和结构匹配概率基于LocARNA对齐模型。

虽然比较方法表现良好在大多数情况下,他们有三个固有的局限性:(1)他们是高度依赖于同源序列或结构的可用性和无法预测当没有可用相关序列相似性或结构相似;(2)不能正确识别真正的ncRNAs与已知ncRNAs同源性较低;(3)他们只能识别ncRNAs与已知ncRNA类成员同源但不能识别小说ncRNA类的成员。大多数lncRNAs(长非编码rna)无法预测使用比较的方法,因为他们没有特定的结构或序列相似性。这些限制意味着显示低特异性识别ncRNAs比较方法。多重序列比对工具,目前可用的表中列出3。

4.2。Noncomparative RNA预测方法

noncomparative方法是同源信息和独立的,因此,检测nonconserved ncRNAs。大多数noncomparative方法使用机器学习技术的预测(122年),类似于文本挖掘技术。

由于RNA结构的重要性,一些计算RNA折叠工具被开发出来,如mfold RNAfold, vsfold evofold, sfold。一般来说,这些算法确定折叠二级结构和输入序列的优化分子间碱基配对最小化自由能。一些microrna的识别方法如表所示4和现有的RNA二级预测工具表中列出5。

5。结论和未来的研究

随着自然语言和文本挖掘方法研究的发展,不同的应用领域将是未来的研究的关键。交叉学科由生物信息学正成为越来越多的信息科学研究者的焦点。文本挖掘技术和方法的应用在生物信息学研究将成为文本挖掘研究的重点。与此同时,生物信息学研究人员学习文本挖掘技术集中来解决特定的生物信息学问题。

在生物文献检索,除了上述预测蛋白质相互作用和基因-疾病的关系,很多问题,尤其是那些需要更新文献检索结果,如药物不良反应和分子成分之间的关系以及在单核苷酸多态性网站,疾病,和药物不良作用,需要使用文本挖掘在文献数据库中搜索相关知识。

在生物信息学中,几乎所有的蛋白质组学相关研究并根据氨基酸序列预测蛋白质结构可以进行使用文本挖掘和自然语言处理技术。许多成熟的文本挖掘技术,如词频统计,条件随机域,嗯,和上下文无关文法,已经成功地应用于预测蛋白质二级结构,不规则区域,互动,互动网站。然而,最新的研究结果在文本挖掘和自然语言处理应该验证通过应用他们的蛋白质和DNA的语言。没有有效的计算方法可以预测第三和第四的蛋白质结构,蛋白质同源远程检测、蛋白质无序区域检测、交互网络建立和药物目标预测。信息科学研究人员应该开发并提供更有效的算法。此外,新的机器学习和文本挖掘方法(例如,semisupervised学习和主动学习)已经提出,并将应用于生物文献检索和生物信息学。目前,推荐系统基于反馈已成为生物文献检索的一个新的热点问题。和Hadoop技术为大数据是另一个热点生物学序列(123年]。

生物信息学的发展依赖于信息科学。特别是,文本挖掘和自然语言处理研究人员应该提供一个更广泛的应用空间。文本挖掘算法的研究人员应该开发更加有效的智能算法基于生物数据的特点。本研究不仅总结文本挖掘方法用于生物信息学和相应的问题,但它也提供了成功的预测软件的相关网站。最近,文本挖掘研究人员参与生物信息学可以测试和比较不同类型的软件。作者希望文本挖掘研究人员的数量可以用自己的方法在生物信息学将增加,这将促进生物信息学的发展,甚至基因研究。

利益冲突

作者宣称没有利益冲突。

确认

这项工作得到了中国自然科学基金(批准号31200769),中国福建省自然科学基金(赠款。2013 j05103也没有。2014 j01253)、厦门科技计划项目(批准号3502 z20143030),福建教育部门和科研计划项目(赠款nos JB12184和JB09203)。

引用

c .林z黄、f·杨和邹,“识别内容质量在线社交网络,”专业的沟通》第六卷,没有。12日,第1624 - 1618页,2012年。
视图: 出版商的网站 | 谷歌学术搜索
l . l . Chen春、l . Ziyu和z,“混合pseudo-relevance反馈微博检索”信息科学杂志》,39卷,不。6,773 - 788年,2013页。
视图: 出版商的网站 | 谷歌学术搜索
y, z .苗族et al ., c . Wang”ViRBase:宿主ncRNA-associated交互的资源,”核酸的研究,43卷,不。1,D578-D582, 2015页。
视图: 出版商的网站 | 谷歌学术搜索
k . l . Wang钱,黄y . et al .,“SynBioLGDB:资源在合成生物学实验验证逻辑门”科学报告5卷,第8090条,2015年。
视图: 出版商的网站 | 谷歌学术搜索
l . y . Wang Chen b . Chen等人“哺乳动物ncRNA-disease存储库:ncRNA-mediated疾病网络的全局视图”细胞死亡和疾病,4卷,不。8篇文章e765 2013。
视图: 出版商的网站 | 谷歌学术搜索
张x, d, l . Chen等人“突袭:一个全面的资源对人类RNA-associated (RNA-RNA / rna蛋白质)相互作用,“核糖核酸,20卷,不。7,989 - 993年,2014页。
视图: 出版商的网站 | 谷歌学术搜索
李y l .壮族y王et al .,“连接这些点:一个系统级别的方法分析miRNA-mediated网络细胞死亡,”自噬,9卷,不。3、436 - 439年,2013页。
视图: 出版商的网站 | 谷歌学术搜索
问:邹j . Wang, m . z .郭“矿业snp EST序列使用过滤器和系综分类器,”遗传学和分子研究,9卷,不。2、820 - 834年,2010页。
视图: 出版商的网站 | 谷歌学术搜索
l . j . Wang,邹,j . Tan, x,, y,”协会研究mtDNA和帕金森病人口使用统计分类、歧视”目前的生物信息学,9卷,不。5,481 - 489年,2014页。
视图: 出版商的网站 | 谷歌学术搜索
问:邹,j .李问:香港et al .,“microRNA-disease协会预测基于社会网络分析方法,”生物医学研究的国际。在出版社。
视图: 谷歌学术搜索
l . b . Liu x Wang Lin b .唐董,和x王”在蛋白质结构预测的蛋白质结合位点使用隐马尔科夫支持向量机,”BMC生物信息学第381条,卷。10日,2009年。
视图: 出版商的网站 | 谷歌学术搜索
f .郭s c·李·杜和l .王”概率模型捕捉更多蛋白质界面的物理化学性质,“《化学信息和建模,54卷,不。6,1798 - 1809年,2014页。
视图: 出版商的网站 | 谷歌学术搜索
f .郭s c·李和朱d, l . Wang”蛋白质结合位点识别通过列举配置,“BMC生物信息学第158条,卷。13日,2012年。
视图: 出版商的网站 | 谷歌学术搜索
f .郭、s c·李和l .王”蛋白质结合位点预测的3 d结构的相似之处,”《化学信息和建模,51卷,不。12日,第3294 - 3287页,2011年。
视图: 出版商的网站 | 谷歌学术搜索
朱黄m . x, y, d . g . Payan k .曲和m . Li”发现模式从全文中提取蛋白质的相互作用,”生物信息学,20卷,不。18日,第3612 - 3604页,2004年。
视图: 出版商的网站 | 谷歌学术搜索
x y,朱、黄m和m·李”发现模式从文献中提取蛋白质的相互作用:第二部分,“生物信息学,21卷,不。15日,第3300 - 3294页,2005年。
视图: 出版商的网站 | 谷歌学术搜索
美国金、j . Yoon和j .杨“内核基因交互提取的方法,”生物信息学,24卷,不。1,第126 - 118页,2008。
视图: 出版商的网站 | 谷歌学术搜索
小野t h . Hishigaki a Tanigami, t .高木涉“自动提取蛋白质-蛋白质之间的关系从文学的生物信息,“生物信息学,17卷,不。2、155 - 161年,2001页。
视图: 出版商的网站 | 谷歌学术搜索
k . Fundel r . Kuffner, r·齐默“RelEx-relation提取使用依赖项解析树,”生物信息学,23卷,不。3、365 - 371年,2007页。
视图: 出版商的网站 | 谷歌学术搜索
j .Šarićl . j . Jensen r . Ouzounova罗哈斯,p·博克,“提取来自Medline的调节基因/蛋白质网络,”生物信息学,22卷,不。6,645 - 650年,2006页。
视图: 出版商的网站 | 谷歌学术搜索
c·弗里德曼,p .热泪盈眶,h . Yu m·克劳萨默和a .那个“精灵:自然语言处理系统提取的分子途径从期刊文章,“生物信息学,17卷,不。1,S74-S82, 2001页。
视图: 出版商的网站 | 谷歌学术搜索
j . m . Temkin和m . r .镀金工人”,从非结构化文本提取的蛋白质相互作用信息使用上下文无关文法,”生物信息学,19卷,不。16,2046 - 2053年,2003页。
视图: 出版商的网站 | 谷歌学术搜索
a . Skusa a Ruegg和j·科勒,“从科学文献提取生物交互网络,”简报的生物信息学》第六卷,没有。3、263 - 276年,2005页。
视图: 出版商的网站 | 谷歌学术搜索
r·马利克l .因特网和摘要,“结合文本挖掘算法提高了性能,”生物信息学,22卷,不。17日,第2157 - 2151页,2006年。
视图: 出版商的网站 | 谷歌学术搜索
r . Chowdhary j . Zhang和j·s·刘,“蛋白质-蛋白质之间的关系从生物文学的贝叶斯推理,”生物信息学,25卷,不。12日,第1542 - 1536页,2009年。
视图: 出版商的网站 | 谷歌学术搜索
李问:邹,j . c . Wang和x曾庆红,“基于网络的方法识别疾病基因”,生物医学研究的国际文章ID 416323卷,2014年,10页,2014。
视图: 出版商的网站 | 谷歌学术搜索
Q.-C。Bui, b . t . Nuallain c·a·鲍彻和p . m . a . Sloot”从文献中提取对艾滋病病毒耐药性因果关系,“BMC生物信息学第101条,卷。11日,2010年。
视图: 出版商的网站 | 谷歌学术搜索
问:江,y, y郝et al .,“miR2Disease:手动策划数据库microRNA放松管制在人类疾病中,“核酸的研究,37卷,不。1,D98-D104, 2009页。
视图: 出版商的网站 | 谷歌学术搜索
d . Cheng c·诺克斯:年轻,p .政治意愿,s . Damaraju和d s . Wishart”PolySearch:一个基于web的文本挖掘系统中提取人类疾病之间的关系,基因突变,药物和代谢物,”核酸的研究卷,36 W399-W405, 2008页。
视图: 出版商的网站 | 谷歌学术搜索
Iossifov, r . Rodriguez-Esteban Mayzus, k . j .•米伦和a . memento”观察小脑畸形通过text-mined interactomes老鼠和人类,”PLoS计算生物学,5卷,不。11日文章ID e1000559, 2009。
视图: 出版商的网站 | 谷歌学术搜索
l . j . Jensen j . Saric p·博克,“文学为生物学家矿业:从信息检索到生物发现,“自然遗传学评论,7卷,不。2、119 - 129年,2006页。
视图: 出版商的网站 | 谷歌学术搜索
小时。穆勒、e·e·肯尼·w·斯特恩伯格“Textpresso:一个基于本体的信息检索和提取系统生物文学”公共科学图书馆生物学,卷2,不。11篇文章e309 2004。
视图: 出版商的网站 | 谷歌学术搜索
n . Uramoto h . Matsuzawa t .长野,村上,竹内h . k .武田,“从生物医学文本挖掘系统知识发现的文件,“IBM系统杂志,43卷,不。3、516 - 533年,2004页。
视图: 出版商的网站 | 谷歌学术搜索
m . Banko m . j . Cafarella s Soderland m·布罗德海德和o . Etzioni,“开放从网上信息提取”人工智能国际联合会议,51卷,页68 - 74,纽约,纽约,美国,2007年。
视图: 谷歌学术搜索
m . Banko和o . Etzioni开放和传统之间的权衡关系提取”诉讼的46位计算语言学协会的年会:人类语言技术美国俄亥俄州哥伦布市,pp,几个,2008年6月。
视图: 谷歌学术搜索
m . Abulaish l·戴伊,“生物关系提取和查询回答来自MEDLINE摘要使用基于本体的文本挖掘,”数据和知识工程,卷61,不。2、228 - 262年,2007页。
视图: 出版商的网站 | 谷歌学术搜索
d . Szklarczyk a . Franceschini s零八et al .,”字符串v10:蛋白质相互作用网络,集成在生命之树,”核酸的研究,43卷,不。1,D447-D452, 2015页。
视图: 出版商的网站 | 谷歌学术搜索
a . Chatr-Aryamontri B.-J。Breitkreutz, r . Oughtred et al .,“BioGRID交互数据库:2015更新”核酸的研究,43卷,不。1,D470-D478, 2015页。
视图: 出版商的网站 | 谷歌学术搜索
学术界。魏,H.-Y。花王,z,“PubTator:一个基于web的文本挖掘工具协助biocuration,”核酸的研究第41卷。。1,W518-W522, 2013页。
视图: 出版商的网站 | 谷歌学术搜索
m·赛Dalah,亚历山大j . et al .,“GeneCards版本3:人类基因集成器。”数据库卷,2010篇文章ID baq020, 16页,2010年。
视图: 出版商的网站 | 谷歌学术搜索
c·c·黄和z,“社区挑战在生物医学文本挖掘在未来10年:成功,失败和未来,“简报的生物信息学,2015年。
视图: 出版商的网站 | 谷歌学术搜索
r·哈雷b . m .好,r·利曼,ai苏,和z,“众包在生物医学:挑战和机遇,”简报的生物信息学,2015年。
视图: 出版商的网站 | 谷歌学术搜索
d·e·奥利弗g . Bhalotia a . s . Schwartz r·b·奥特曼和m·a·赫斯特,“MEDLINE加载到本地关系数据库的工具,”BMC生物信息学5卷,第146条,2004年。
视图: 出版商的网站 | 谷歌学术搜索
j . Wang Cetindil, s . et al。”互动和模糊搜索:动态的方式探索MEDLINE,”生物信息学,26卷,不。18日,文章ID btq414, 2321 - 2327年,2010页。
视图: 出版商的网站 | 谷歌学术搜索
l . b . Liu x Wang Lin盾,和x王”区别的方法远程同源性检测和蛋白质折叠识别结合Top-n-grams和潜在语义分析,“BMC生物信息学第510条,卷。9日,2008年。
视图: 出版商的网站 | 谷歌学术搜索
j . b . Liu,邹,r·徐x Wang和问:陈,“使用Top-n-gram之间的距离和蛋白质残渣对远程同源性检测,“BMC生物信息学补充2卷。15日,S3条,2014年。
视图: 出版商的网站 | 谷歌学术搜索
l . f . b . Liu Liu方,x,和k .周”repDNA: python包为DNA序列生成各种模式的特征向量,通过融合用户定义的物理化学性质和序列号的影响,“生物信息学没有,卷。31日。8,1307 - 1309年,2015页。
视图: 出版商的网站 | 谷歌学术搜索
d . b . Liu,徐r . et al .,“进化信息提取频率资料结合蛋白质序列内核远程同源性检测,“生物信息学,30卷,不。4、472 - 479年,2014页。
视图: 出版商的网站 | 谷歌学术搜索
p . y .周和g·d·Fasman“经验预测蛋白质的构象,”年度回顾生物化学47卷,第276 - 251页,1978年。
视图: 出版商的网站 | 谷歌学术搜索
j·加尼叶、d . j . Osguthorpe和b·罗布森”分析的准确性和意义简单的球状蛋白质的二级结构预测方法,”分子生物学杂志,卷120,不。1,第120 - 97页,1978。
视图: 出版商的网站 | 谷歌学术搜索
l .林王董,x, y,“分析和预测蛋白质结构局部结构基于字母,“蛋白质:结构、功能和遗传学,卷72,不。1,第172 - 163页,2008。
视图: 出版商的网站 | 谷歌学术搜索
王董,x, l .林”预测基于积木的局部结构和折叠蛋白质片段库,”蛋白质:结构、功能和遗传学,卷72,不。1,第366 - 353页,2008。
视图: 出版商的网站 | 谷歌学术搜索
b .罗斯特和c·桑德的蛋白质二级结构预测精度优于70%,“分子生物学杂志,卷232,不。2、584 - 599年,1993页。
视图: 出版商的网站 | 谷歌学术搜索
h·丁·h·林,w . Chen等人“预测蛋白质结构类基于特征选择技术,”交叉学科:计算生命科学》第六卷,没有。3、235 - 240年,2014页。
视图: 出版商的网站 | 谷歌学术搜索
h, c .丁问:歌et al .,“使用平均预测蛋白质结构类的化学变化,“生物分子结构和动力学杂志》上卷,29号6,643 - 649年,2012页。
视图: 谷歌学术搜索
c .林y邹,j .秦et al .,“分层分类的蛋白质折叠使用新颖的系综分类器,”《公共科学图书馆•综合》,8卷,不。2篇文章ID e56499 2013。
视图: 出版商的网站 | 谷歌学术搜索
w·陈,x, y, y江,邹,林和c,“改善与系综分类器方法预测蛋白质折叠模式,”遗传学和分子研究,11卷,不。1,第181 - 174页,2012。
视图: 出版商的网站 | 谷歌学术搜索
x赵,问:邹,b·刘,刘x,“探索预测蛋白质折叠模型与随机森林和混合特性,”目前蛋白质组学,11卷,不。4、289 - 299年,2014页。
视图: 谷歌学术搜索
j . j . y . Liu Carbonell Klein-Seetharaman,诉Gopalakrishnan)”比较概率组合的蛋白质二级结构预测的方法,”生物信息学,20卷,不。17日,第3107 - 3099页,2004年。
视图: 出版商的网站 | 谷歌学术搜索
李·罗梅罗z Obradovic, x, e·c·加纳c·j·布朗和a . k . Dunker“无序蛋白质序列的复杂性。”蛋白质:结构、功能和遗传学,42卷,不。1,38 - 48,页。2001。
视图: 谷歌学术搜索
C.-T。苏,彭译葶。陈和y y。欧,“蛋白质疾病预测浓缩PSSM考虑倾向有序或无序,“BMC生物信息学第319条,卷。7日,2006年。
视图: 出版商的网站 | 谷歌学术搜索
C.-T。苏,彭译葶。陈,C.-M。许,“IPDA:集成蛋白质障碍分析,“核酸的研究,35卷,不。2,W465-W472, 2007页。
视图: 出版商的网站 | 谷歌学术搜索
j·j·沃德,j . s .位址l . j . McGuffin b·f·巴克斯顿,和d·t·琼斯,“本地障碍的预测和功能分析生活中的蛋白质从《三国演义》,“分子生物学杂志,卷337,不。3、635 - 645年,2004页。
视图: 出版商的网站 | 谷歌学术搜索
清水k . s . Hirose和t .野口勇”POODLE-S: web应用程序预测蛋白质障碍通过使用物理化学特性和降低氨基酸组position-specific得分矩阵,”生物信息学,23卷,不。17日,第2338 - 2337页,2007年。
视图: 出版商的网站 | 谷歌学术搜索
s Hirose k .清水s Kanai y黑田,和t .野口勇,“POODLE-L:两级SVM预测系统可靠地预测长期无序区域,”生物信息学,23卷,不。16,2046 - 2053年,2007页。
视图: 出版商的网站 | 谷歌学术搜索
l . Wang和美国h·萨奥尔OnD-CRF:预测蛋白质条件随机领域的有序和无序,“生物信息学,24卷,不。11日,第1402 - 1401页,2008年。
视图: 出版商的网站 | 谷歌学术搜索
p .汉张x r·s·诺顿和Z.-P。风”,大规模的长期预测蛋白质无序地区使用随机森林,”BMC生物信息学第八条,卷。10日,2009年。
视图: 出版商的网站 | 谷歌学术搜索
l . b . Liu x Wang Lin盾,x王,“利用三种界面倾向识别蛋白质结合位点,”计算生物学和化学,33卷,不。4、303 - 311年,2009页。
视图: 出版商的网站 | 谷歌学术搜索
刘b, b, f·刘,x,“蛋白质结合位点预测结合隐马尔科夫支持向量机和profile-based倾向,”科学世界日报464093卷,2014篇文章ID, 6页,2014。
视图: 出版商的网站 | 谷歌学术搜索
江z王,邹,y, y Ju,曾x,“审查的蛋白质亚细胞定位预测,”目前的生物信息学,9卷,不。3、331 - 342年,2014页。
视图: 出版商的网站 | 谷歌学术搜索
林h, h .叮,F.-B。郭,A.-Y。张,j .黄”的分枝杆菌蛋白质亚细胞定位预测使用周的伪氨基酸组成,”蛋白质和多肽的信件,15卷,不。7,739 - 744年,2008页。
视图: 出版商的网站 | 谷歌学术搜索
林h, h .叮,F.-B。郭,j .黄“分枝杆菌蛋白质的亚细胞定位预测使用特征选择技术,”分子多样性,14卷,不。4、667 - 671年,2010页。
视图: 出版商的网站 | 谷歌学术搜索
h . h, h . Wang叮,杨绍明。关铭陈,Q.-Z。李,“周细胞凋亡蛋白的亚细胞定位预测使用的伪氨基酸组成,”Acta Biotheoretica卷,57号3、321 - 330年,2009页。
视图: 出版商的网站 | 谷歌学术搜索
h·林,w . Chen L.-F。元,Z.-Q。李,h .叮”使用比例的四肽预测蛋白质submitochondria位置,”Acta Biotheoretica,卷61,不。2、259 - 268年,2013页。
视图: 出版商的网站 | 谷歌学术搜索
h .叮,工程学系。郭,E.-Z。邓et al .,“预测Golgi-resident蛋白质类型通过使用特征选择技术,”化学计量学和智能实验室系统卷。124年,第四,2013页。
视图: 出版商的网站 | 谷歌学术搜索
h, c .叮,L.-F。元et al .,”预测subchloroplast蛋白质的位置根据周一般形式的伪氨基酸组成:从最优三肽成分,”国际生物数学学报》第六卷,没有。2,文章ID 1350003, 2013。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
p。朱,观测。李,Z.-J。钟et al .,“分枝杆菌蛋白质的亚细胞定位预测将最优三肽纳入伪氨基酸组成的一般形式,“分子生物系统,11卷,不。2、558 - 563年,2015页。
视图: 出版商的网站 | 谷歌学术搜索
h .叮,F.-B l . Liu。郭、j·黄和h .林”,高尔基体蛋白类型认同修改mahalanobis判别算法和伪氨基酸组成,”蛋白质和多肽的信件,18卷,不。1,58 - 63、2011页。
视图: 出版商的网站 | 谷歌学术搜索
江问:邹,x, y, y赵,g·王,“BinMemPredict: web服务器和软件预测膜蛋白类型”目前蛋白质组学,10卷,不。1,2 - 9,2013页。
视图: 出版商的网站 | 谷歌学术搜索
h·林”,修改Mahalanobis判别预测外周膜蛋白通过伪氨基酸组成,”理论生物学杂志》上,卷252,不。2、350 - 356年,2008页。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
c .叮,L.-F。元,工程学系。郭、h·林和w·陈,“鉴定分枝杆菌膜蛋白及其类型使用比例的三肽成分,”蛋白质组学杂志》卷,77年,第328 - 321页,2012年。
视图: 出版商的网站 | 谷歌学术搜索
h·林和h .叮”预测离子通道及其类型的二肽的伪氨基酸组成模式,”理论生物学杂志》上卷,269年,第69 - 64页,2011年。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
b . Liu x王,邹,侗族,问:陈,“远程同源蛋白质检测结合周的伪氨基酸组成和profile-based蛋白质表示,“分子信息学,32卷,不。9 - 10,775 - 782年,2013页。
视图: 出版商的网站 | 谷歌学术搜索
问:陈,b . Liu x Wang盾,x局域网,“使用氨基酸理化距离变换快速远程同源蛋白质检测,”《公共科学图书馆•综合》,7卷,不。9篇文章ID e46633 2012。
视图: 出版商的网站 | 谷歌学术搜索
h . g . Yu Rangwala, c . Domeniconi g . Zhang和z Yu”与不完整的注释蛋白质功能预测,”IEEE / ACM事务计算生物学和生物信息学,11卷,不。3、579 - 591年,2014页。
视图: 出版商的网站 | 谷歌学术搜索
问:邹,z . Wang关x, y, b . Liu和z林,“一种方法基于小说系综分类器识别细胞因子,”生物医学研究的国际ID 686090条,卷。2013年,11页,2013年。
视图: 出版商的网站 | 谷歌学术搜索
h . g . Yu Rangwala, c . Domeniconi g . Zhang和z,“蛋白质功能预测使用多标记系综分类”IEEE / ACM事务计算生物学和生物信息学,10卷,不。4、1045 - 1057年,2013页。
视图: 出版商的网站 | 谷歌学术搜索
h .叮,E.-Z。邓,L.-F。元et al .,“iCTX-type:序列预测识别类型的个目标离子通道,”生物医学研究的国际文章ID 286419卷,2014年,10页,2014。
视图: 出版商的网站 | 谷歌学术搜索
W.-X。刘,E.-Z。邓、陈w·和·h·林”,确定电压门控钾通道的亚科使用特征选择技术,”国际分子科学杂志》上,15卷,不。7,12940 - 12951年,2014页。
视图: 出版商的网站 | 谷歌学术搜索
h·丁·d·李,“识别线粒体蛋白质的疟原虫使用方差分析,“氨基酸卷,47号2、329 - 333年,2015页。
视图: 出版商的网站 | 谷歌学术搜索
h .叮,下午。冯、陈w和h .林”,鉴定噬菌体病毒粒子方差分析蛋白质的特征选择和分析,“分子生物系统,10卷,不。8,2229 - 2235年,2014页。
视图: 出版商的网站 | 谷歌学术搜索
L.-F。元,c .叮,工程学系。郭,h·丁w·陈,h·林”的预测类型的离子channel-targeted个基于径向基函数网络,”毒理学体外,27卷,不。2、852 - 856年,2013页。
视图: 出版商的网站 | 谷歌学术搜索
h·林和w·陈,“嗜热蛋白使用特征选择技术,预测”《微生物方法,卷84,不。1,第70 - 67页,2011。
视图: 出版商的网站 | 谷歌学术搜索
X.-Y。程,W.-J。黄,研究所。胡et al .,“全球多功能酶特性和识别,”《公共科学图书馆•综合》,7卷,不。6篇文章ID e38979 2012。
视图: 出版商的网站 | 谷歌学术搜索
h·林,w·陈,h .叮”AcalPred:基于工具酸性和碱性酶之间的差别,”《公共科学图书馆•综合》,8卷,不。10篇文章ID e75726 2013。
视图: 出版商的网站 | 谷歌学术搜索
黄问:邹,w·陈,y, x,, y,“由分层多标记分类器识别多功能酶”计算和理论纳米科学杂志》上,10卷,不。4、1038 - 1043年,2013页。
视图: 出版商的网站 | 谷歌学术搜索
j . b . Liu,美国球迷,r·徐j .周x王,“PseDNA-Pro: dna结合蛋白质识别结合周PseAAC和物化距离变换,“分子信息学,34卷,不。1、8、2015页。
视图: 出版商的网站 | 谷歌学术搜索
j . b . Liu, x局域网et al .,“IDNA-Prot |说:识别dna结合蛋白质通过合并氨基酸distance-pairs和减少字母一般伪氨基酸组成,”《公共科学图书馆•综合》,9卷,不。9篇文章ID e106691 2014。
视图: 出版商的网站 | 谷歌学术搜索
j . r .烈性黑啤酒和d·a·高夫”从一级结构预测蛋白质相互作用。”生物信息学,17卷,不。5,455 - 460年,2001页。
视图: 出版商的网站 | 谷歌学术搜索
a .驻和w·s .高尚的“内核的方法预测蛋白质相互作用,生物信息学补充1卷。21日,pp. i38-i46, 2005。
视图: 出版商的网站 | 谷歌学术搜索
bar - joseph y, z, j . Klein-Seetharaman”评估不同的生物数据和计算分类方法用于蛋白质相互作用预测,“蛋白质:结构、功能和遗传学,卷63,不。3、490 - 500年,2006页。
视图: 出版商的网站 | 谷歌学术搜索
l .诉张o·d·王,s . l . Wong和f·p·罗斯,“预测co-complexed蛋白质对使用基因组和蛋白质组学数据集成,”BMC生物信息学第三十八条,卷。5日,2004年。
视图: 出版商的网站 | 谷歌学术搜索
s . j .达内尔,d .页面和j·c·米切尔,”一个自动化决策树方法预测蛋白质相互作用热点,”蛋白质:结构、功能和生物信息学,卷68,不。4、813 - 823年,2007页。
视图: 出版商的网站 | 谷歌学术搜索
X.-W。”陈和m . Liu预测蛋白质相互作用使用随机决定森林框架,“生物信息学,21卷,不。24日,第4400 - 4394页,2005年。
视图: 出版商的网站 | 谷歌学术搜索
d·r·詹森h . Yu Greenbaum et al .,”贝叶斯网络方法预测蛋白质相互作用的基因组数据,”科学,卷302,不。5644年,第453 - 449页,2003年。
视图: 出版商的网站 | 谷歌学术搜索
s·m·戈麦斯,w·s·高贵,a,“学习”从蛋白质序列预测蛋白质相互作用,生物信息学,19卷,不。15日,第1881 - 1875页,2003年。
视图: 出版商的网站 | 谷歌学术搜索
M.-H。李,X.-L。王、林l . t .刘”的影响权重预测蛋白质相互作用的例子,”计算生物学和化学,30卷,不。5,386 - 392年,2006页。
视图: 出版商的网站 | 谷歌学术搜索 | Zentralblatt数学
M.-H。李,l .林X.-L。王,t·刘”网站预测基于蛋白质间交互作用条件随机域,“生物信息学,23卷,不。5,597 - 604年,2007页。
视图: 出版商的网站 | 谷歌学术搜索
t·弗里德里希·b·得利),t . Dandekar j .舒尔茨和t·穆勒”造型交互网站在蛋白质域交互隐马尔可夫模型,”生物信息学,22卷,不。23日,第2857 - 2851页,2006年。
视图: 出版商的网站 | 谷歌学术搜索
m .Šikićs Tomić,k . Vlahoviček”预测蛋白质序列和三维结构的交互网站随机森林,”PLoS计算生物学,5卷,不。1,文章ID e1000278, 2009。
视图: 出版商的网站 | 谷歌学术搜索
j·r·布拉德福德和d·r·韦斯特黑德”,改善预测蛋白质结合位点使用支持向量机方法,”生物信息学,21卷,不。8,1487 - 1494年,2005页。
视图: 出版商的网站 | 谷歌学术搜索
p . Fariselli f . Pazos、答:瓦伦西亚和r . Casadio”的蛋白质相互作用预测网站heterocomplexes与神经网络”欧洲生物化学杂志,卷269,不。5,1356 - 1361年,2002页。
视图: 出版商的网站 | 谷歌学术搜索
j·r·布拉德福德c . j .李约瑟a . j . Bulpitt d·r·韦斯特黑德,“洞察蛋白质接口使用贝叶斯网络的预测方法,”分子生物学杂志,卷362,不。2、365 - 386年,2006页。
视图: 出版商的网站 | 谷歌学术搜索
Kufareva, l . Budagyan e . Raush m . Totrov和r . Abagyan”码头:蛋白质界面识别结构蛋白质组学”,蛋白质,卷67,不。2、400 - 417年,2007页。
视图: 谷歌学术搜索
j . Yu m .郭c . j .李约瑟黄y l . Cai和d·r·韦斯特黑德,“简单的基于内核不预测蛋白质相互作用”,生物信息学,26卷,不。20日,第2614 - 2610页,2010年。
视图: 出版商的网站 | 谷歌学术搜索
问:邹,t .赵、刘y和m .郭”预测RNA二级结构类信息和Hopfield网络的基础上,“计算机在生物学和医学,39卷,不。3、206 - 214年,2009页。
视图: 出版商的网站 | 谷歌学术搜索
问:邹,c .林X.-Y。刘,Y.-P。汉族,W.-B。李,安茂忠编。郭”,小说表现的RNA二级结构用于提高预测算法,”遗传学和分子研究,10卷,不。3、1986 - 1998年,2011页。
视图: 出版商的网站 | 谷歌学术搜索
l . b . Liu,刘f . et al .,“识别真正的微rna前体与伪结构状态组成的方法,”《公共科学图书馆•综合》,10卷,不。第三条ID e0121501, 2015。
视图: 出版商的网站 | 谷歌学术搜索
f . l . b . Liu,陈、刘、王x,“miRNA-dis:微rna前体识别基于距离结构状态对,”分子生物系统,11卷,不。4、1194 - 1204年,2015页。
视图: 出版商的网站 | 谷歌学术搜索
美国将k . Reiche i l . Hofacker p . f . Stadler和r . Backofen”推断非编码RNA的家庭和类通过公司的基于结构的集群,”PLoS计算生物学,3卷,不。4篇文章e65 2007。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
t·乔希,s . i . l . Hofacker p . f . Stadler和r . Backofen”LocARNA-P:准确的边界预测和改善结构rna的检测,“核糖核酸,18卷,不。5,900 - 914年,2012页。
视图: 出版商的网站 | 谷歌学术搜索
郭m . l . c . Wang Wei,邹,”计算方法在检测非编码RNA,”目前基因组学,14卷,不。6,371 - 377年,2013页。
视图: 出版商的网站 | 谷歌学术搜索
问:邹,X.-B。李,W.-R。江,Z.-Y。林,G.-L。李,k . Chen在生物信息学MapReduce框架行动的调查中,“简报的生物信息学,15卷,不。4篇文章ID bbs088 637 - 647年,2014页。
视图: 出版商的网站 | 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

6449年

下载

2995年

引用