基于文本挖掘的生物标记识别

摘要

识别分子生物标志物已成为科学家从大规模生物数据中评估与疾病基因型相关的细胞或生物体的不同表型状态的重要任务之一。在本文中，我们提出了一种基于文本挖掘的方法来从PubMed中发现生物标志物。首先，我们基于字典构建一个数据库，然后使用有限状态机来识别生物标记。我们的文本挖掘方法提供了一种高度可靠的方法来发现PubMed数据库中的生物标记。

1.介绍

识别分子生物标志物已成为生物信息学科学家从大规模生物数据中评估与疾病基因型相关的细胞或生物体的不同表型状态的基本任务[1]。文本挖掘技术已成为设计未来预测和个性化医学的关键技术。与此同时，包括超过2100万的生物医学文献的PubMed数据库为我们提供丰富的来源，用于探索人类疾病的生物标志物，并挖掘与疾病相关的生物标志物。因此，集成了自动文献搜索，文本挖掘是表观遗传学，DNA甲基化和更具体地进行生物标志物发现研究的快速新兴的研究区域。对于几乎每种癌症类型，发现发现生物标志物候选人的新出版物经常更新，特别是具有先进的高吞吐量方法。非常需要高效的文本挖掘工具和算法开发。

不同的小组提出了许多文本挖掘技术，如机器学习技术，包括支持向量机[2]，决策树[3.]，贝叶斯分类器[4]和随机森林[5，用于文本挖掘。此外，还使用自然语言处理技术确定句子的结构和语言成分，然后对一组单词中的句子进行解析，并使用统计方法从文本数据库中获得匹配的结果。人类数据库(6是生物标志物相关疾病研究的重要数据库之一。网格浏览器[7]用于将疾病关联映射到MeSH id。

在本文中，我们使用状态机来模拟生物标记从个体实体到相关疾病和通路以及网络的转换。从已有的专家经验和知识中总结出若干抽象模板。根据对疾病的重要性和PubMed文献的引用情况对生物标志物进行排序。基于这个模板，每个挖掘的生物标志物相关的途径、网络和疾病将被收集起来，并与模板匹配。

2.方法

本文中提到的所有生物标志物都是从PubMed数据库中挖掘出来的。对于每个候选生物标志物，我们使用一个有限状态机(FSM) [8]以识别生物标志物、途径和相关疾病。只有被FSM接受的候选人才被视为生物标记。生物标记物与疾病之间的关联可以输出以细化生物标记物。

如图所示1．第一步是创建一个生物标记字典，第二步是构造一个DBXML [9]数据库，第三步是使用有限状态机来符合疾病相关的生物标志物。我们首先从PubMed数据库创建DBXML数据库。朗文技术用于将文档拆分为一袋单词，提取术语，例如基因名称，交互关系，路径和网络名称。在平均的时间内，根据我们的域知识，我们构建了进一步分析的字典。基于Lucence解析的条款和字典，为生物标志物提取创建了DBXML数据库。要从DBXML数据库中检索关键字，请使用完全匹配，模糊匹配和列表匹配方法来匹配DBXML中保存的术语。如果FMS的最终状态处于接受状态，则关键词相关基因，蛋白质或小分子标记为生物标志物。

2.1。构建基因/蛋白质和疾病的数据库

我们首先构建一个数据库，其中包括类别的名称，疾病，相互作用，途径和网络信息。然后，我们收集一份疾病、基因/蛋白质等的清单，然后把它们录入字典。字典的结构如Table所示1．


基因	蛋白质	通路	疾病

P53.	P53.	拉	糖尿病
APC	APC	Wnt	乳腺癌
MDM2	Pten	死亡受体途径	肝癌
拉	HCC.	醚脂类代谢	亨廷顿
Axin-1	HPR	硫胺素新陈代谢	肝硬化
	LCE2B	卟啉和叶绿素	前列腺癌
	AXIN1	代谢	白血病
	SLC22A1

我们使用动态方法来收集全文文档，然后才能应用于拆分单词。对于众所周知，我们需要删除旧文档并创建新的欣朗文档索引。朗文文献包含三个路径，内容和文档索引，术语和修改日期。

每个单词由一系列短语分隔，我们使用字典解析全文，然后将它们分为几个主要类别:分子名称、交互关键字和动词。在提取关键字之后，我们为这些关键字构造xml文档的片段。蛋白质名称是一个实体，其相互作用表示实体之间的关系，用来提取疾病、基因、突变和蛋白质之间的关系。我们给出一个从PubMed中提取的xml段示例如下: ＝ P53. MDM2

如果单词不能匹配字典，它将被忽略。一些关键字可以从数据库中删除，因为它们不适合我们的定义。用户还可以添加其他标记。表格1显示生物标志物的字典。

我们的数据库不包含交互对和路径。我们将动态解析在线数据库中的蛋白质/基因名称，并构建交互网络。

2．2.使用FSM识别生物标记

我们使用有限状态机(FSM)来识别数据库中的生物标记。FSM是一个状态机，它有一个开始节点、接受节点、输入实体和关系。这些角色包含每个实体的信息，如基因、蛋白质和小分子。

在本文中，用于识别生物标志物的FSM被认为是用于匹配相应的生物标志物的模板，如图所示2．此外，用户还可以对模板进行修改。我们的方法包括精确匹配、模糊匹配和列表匹配。对于疾病，我们使用精确匹配方法，对于所有分子，我们使用模糊匹配，对于相互作用，我们使用列表成员匹配。

对于交互的列表成员，列表成员被定义为ILIST，在哪里与，它动态解析在线数据库。我们构建周围的蛋白质蛋白质相互作用网络FSM。我们也从KEGG数据库中获得了该通路。

FSM包括、和．实体的角色由实体的左左邻居和右邻居的上下文确定。

例如，对于实体P53，它是一个蛋白质，我们确定该实体的作用如下:

FSM的输出是之间的轨道节点<潜在的生物标志物>包括纸张名称和作者姓名。FSM如图所示2．

3.实验结果

基于我们的框架，对肝癌和候选生物标志物的查询报告为Table2．


Entrezid.	基因名字	象征

11914	α1,4-半乳糖基转移酶	A4GALT
3558	ACETOACETYL-COA合成酶	aac格式
5758	脱氢酶结构域包含1	ABHD1.
18925	酰coa THIOESTERASE 12	Acot12
18925	酰coa THIOESTERASE 12	Acot12
17809	酰coa THIOESTERASE 2	苹果电脑
17766	酰coa THIOESTERASE 4	ACOT4
15426	酰基辅酶a合成酶泡泡糖家族成员1	ACSBG1.
11191	酰基 - CoA合成酶Bubblegum家族成员2	ACSBG2.

在查询过程中，我们动态解析所识别的基因/蛋白并构建交互网络。然后我们使用cytoscape软件[10]显示显示为图形的交互网络3.．

4.结论

该方法基于来自PubMed数据库的文本挖掘技术，结合全文搜索 - 引擎技术（Lucence），一种生物和信号通路的复杂网络。首先，我们构建基于字典的数据库;其次，我们使用FSM来识别生物标志物;最后，我们输出疾病相关的生物标志物。本研究提供了一个综合的文本挖掘来探索生物标志物。

致谢

本工作得到了NSF职业（CCF-0845888）（H.LI和C. Liu）的支持，并由NSF科学和技术中心提供信息中心（CSOI），在Grant协议下，CCF-0939370。

参考文献

组蛋白修饰与癌症:预后的生物标志物?美国癌症研究杂志，第2卷，第2期5，页589-597,2012。视图:谷歌学术
齐志明，田勇，石勇，“拉普拉斯双支持向量机的半监督分类”，神经网络，第35卷，46-53页，2012。视图:出版商的网站|谷歌学术
E.Taniguchi，T.Kawaguchi，M.Sakata，M. ITou，T.Oriishi和M. SATA，“脂质型材与病毒性肝硬化患者的认知功能障碍发生率有关：数据采矿分析”肝脏病学研究．在新闻。视图:出版商的网站|谷歌学术
H. Zhang，G. Liu，T.W. S. S. Chow和W.刘刘，“基于文本和视觉内容的反网络钓鱼：贝叶斯方法”，IEEE神经网络汇刊，第22卷，否。10，页1532-1546,2012。视图:出版商的网站|谷歌学术
W. G.Touw，J.R. Bayjanov，L. Overmars等，“随机森林的生命科学中的数据挖掘：在公园散步或迷失在丛林中？”生物信息学简报．在新闻。视图:谷歌学术
A. HAMOSH，A. F. SCOTT，J. S. Amberger，C.A.Bocchini和V.A.Mckusick，“Man（OMIM）的在线孟德利亚遗产，人类基因和遗传疾病的知识库”，“核酸的研究，卷。33，PP。D514-D517，2005。视图:出版商的网站|谷歌学术
M. Crespo Azcarate, J. Mata Vazquez，和M. Mana Lopez，“通过使用网格层次结构的查询扩展提高图像检索效率”美国医学信息学协会杂志．在新闻。视图:谷歌学术
M. Garcia-Remesal，V.Maojo和J. Creaspo，“一种知识工程方法，识别和提取科学文学中的核酸序列”第32届IEEE医学与生物学工程国际会议论文集， 1081-1084页，2010。视图:谷歌学术
Oracle: Oracle Berkeley DB XML, 2012。
P. Shannon, a . Markiel, O. Ozier et al.，“细胞景观:用于生物分子相互作用网络集成模型的软件环境，”基因组研究，第13卷，否。11，页2498-2504,2003。视图:出版商的网站|谷歌学术

医学中的计算和数学方法

机器学习在基因组和系统生物学中的应用

摘要