CMMM 计算和数学方法在医学 1748 - 6718 1748 - 670 x Hindawi出版公司 135780年 10.1155 / 2012/135780 135780年 研究文章 生物标志物识别使用文本挖掘 回族 纯美少女 Xumin 1 系统和计算机科学 霍华德大学 华盛顿特区20059 美国 howard.edu 2012年 11 11 2012年 2012年 09年 09年 2012年 04 10 2012年 2012年 版权©2012回族李和刘纯美少女。 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

分子标志物已成为科学家们的一个重要任务,评估不同表型的细胞或生物体的基因型相关疾病大规模生物数据。在本文中,我们提出了一个从PubMed text-mining-based方法发现生物标志物。首先,我们构造一个基于词典数据库,然后我们使用有限状态机来识别生物标志物。我们的文本挖掘的方法提供了一个高度可靠的方法来发现生物标志物在PubMed数据库中。

1。介绍

分子标志物已成为生物信息学的一个重要任务科学家评估不同表型的细胞或生物体的基因型相关疾病大规模生物数据( 1]。文本挖掘技术已经成为一个设计未来的预测和个性化医疗的关键技术。同时,PubMed数据库包括2100万多个引用生物医学文献提供了一个丰富来源为我们探索人类疾病的生物标志物和开采与疾病相关的生物标记物。因此,整合文献搜索,自动和快速文本挖掘是一个新兴的研究领域在表观遗传学,DNA甲基化,更具体地说生物标志物发现研究。对于几乎所有的癌症类型,新的出版物,发现生物标志物候选人更新频繁,尤其是先进的高通量方法。高效的文本挖掘工具和算法开发是非常必要的。

许多不同的团体提出的文本挖掘技术,如机器学习技术,包括支持向量机( 2),决策树( 3),贝叶斯分类器( 4),和随机森林 5),用于文本挖掘。的自然语言处理技术用于确定句子的结构和语言成分,然后解析句子换一袋话说,一起统计方法得到的匹配结果的文本数据库。人类数据库( 6)是一种重要的数据库biomarker-related病研究。网浏览器( 7)用于疾病关联映射到网格id。

在本文中,我们使用一个状态机来模拟生物标志物的转换从单个实体相关的疾病和途径以及网络。总结了几个抽象模板从已知的专家经验和知识。生物标志物的排名,是根据疾病的重要性,从PubMed的引用文献。基于这个模板,每开采biomarker-related途径,网络,和疾病将收集并与模板进行匹配。

2。方法

本文提到的所有生物标志物从PubMed数据库中开采出来的。对于每个生物标志物的候选人,我们使用一个有限状态机(FSM) [ 8)来识别生物标志物、通路和相关疾病。只有接受了FSM的候选人视为生物标志物。生物标志物和疾病之间的联系可以输出提炼的生物标志物。

如图 1。第一步是创建一个生物标记字典,第二步是建立一个DBXML [ 9)数据库,第三步是使用有限状态机符合疾病生物标志物。我们首先创建DBXML数据库从PubMed数据库。Lucence技术用于将文档分成一袋提取词语,如基因名称、互动关系,通路和网络名称。同时,基于我们的领域知识,我们构建字典进行进一步分析。基于Lucence解析术语和字典,为生物标记创建DBXML数据库提取。从DBXML数据库,检索关键字精确匹配,模糊匹配和匹配方法是用于匹配术语列表保存在DBXML。如果FMS的最终状态是处于接受状态,keywords-related基因,蛋白质,或小分子标记为生物标志物。

流程图的生物标志物的发现。

2.1。构建一个数据库基因/蛋白和疾病

我们首先建立一个数据库,其中包括类别根据其名称、疾病、交互、通路和网络信息。然后,我们收集一系列疾病,基因/蛋白等等,然后把它们放在字典。字典的结构如表所示 1

生物标志物的字典。

基因 蛋白质 通路 疾病
P53 P53 糖尿病
APC APC Wnt 乳腺癌
MDM2 Pten 死亡受体途径 肝癌
肝细胞癌 醚脂类代谢 亨廷顿
Axin-1 HPR 硫胺素新陈代谢 肝硬化
LCE2B 卟啉和叶绿素 前列腺癌
AXIN1 新陈代谢 白血病
SLC22A1

我们使用一个动态方法收集全文文档,然后应用Lucence分裂。对于Lucence,我们需要删除旧的文档和创建新的Lucence文档索引。Lucence文档包含三个路径,内容和文档的索引,条款,修改后的日期。

每个单词是由一系列的短语,我们用字典来解析全文,然后把他们分成几个主要类别:分子的名字,交互关键字,和动词。提取关键词,我们构造的xml文档的关键词。蛋白质名称是一个实体,代表的交互关系的实体用于提取疾病之间的关系,基因突变,蛋白质。我们给一个示例xml片段提取PubMed如下:

< 蛋白质 id =<在line-formula> 010年 >

< 的名字 > P53 < / 的名字 >

< 交互 > MDM2<在line-formula> < / 交互 >

< / 蛋白质 >

如果单词不能匹配字典,它将被忽略。一些关键字可以从数据库中删除,因为他们不适合我们的定义。也可以由用户添加额外的标签。表 1显示了生物标志物的字典。

我们的数据库不包含交互对和途径。我们将动态解析在线数据库蛋白/基因名称和构建网络的交互。

2.2。使用FSM识别生物标志物

我们使用有限状态机(FSM)来识别生物标志物在我们的数据库中。FSM是一个状态机有一个开始节点,接收节点,输入实体和关系。每个实体的角色包含信息如基因、蛋白质、小分子。

本文识别生物标记被认为是一个模板的FSM提供匹配相应的生物标记,如图 2。此外,用户可以修改的模板。我们的方法包括精确匹配、模糊匹配和匹配列表。疾病,我们使用精确匹配方法,对所有分子,我们使用模糊匹配和互动,我们使用榜成员匹配。

生物标志物的鉴定使用有限状态机。

列表成员的交互,被定义为ILIST成员列表<在line-formula> ( P 一个 ) = ( P 1 , P 2 , P 3 , P n ) ,在那里<在line-formula> P 一个 与<在line-formula> P 1 , P 2 , P n 动态解析在线数据库。我们构建蛋白质相互作用网络<在line-formula> P 一个 FSM。我们也从KEGG数据库获取途径。

FSM包括< left-context FSM >, <实体FSM ><在line-formula> right-context-FSM 。实体是由上下文决定的角色左右邻居的实体。

例如,对于实体P53蛋白,我们确定实体的作用如下:

如果 < 合适的背景下 >

= < ( 表达 现在 ) ( 通路 ) >

然后 实体 角色 = 通路

FSM的输出之间的跟踪节点是<疾病><在line-formula> <潜在生物标志物>包括论文名称和作者姓名。FSM如图 2

3所示。实验结果

基于我们的框架中,一个查询在肝癌和候选标志物是一个报告如表 2

从PubMed biomarker-disease关联挖掘的列表。

EntrezID 基因名字 象征
11914年 α1,4-GALACTOSYLTRANSFERASE A4GALT
3558年 ACETOACETYL-COA合成酶 aac格式
5758年 ABHYDROLASE域包含1 ABHD1
18925年 酰coa THIOESTERASE 12 ACOT12
18925年 酰coa THIOESTERASE 12 ACOT12
17809年 酰coa THIOESTERASE 2 苹果电脑
17766年 酰coa THIOESTERASE 4 ACOT4
15426年 酰coa合成酶泡泡糖家庭成员1 ACSBG1
11191年 酰coa合成酶泡泡糖家庭成员2 ACSBG2

在查询过程中,我们动态解析鉴定基因/蛋白质和构建网络互动。然后,我们使用Cytoscape软件( 10]显示如图所示的交互网络 3

实行病种基因关联网络。绿色节点基因,和其他颜色的节点是疾病。

4所示。结论

该方法是基于文本挖掘技术从PubMed数据库,结合全文搜索引擎技术(Lucence),生物和信号通路的复杂网络。首先,我们构造一个数据库基于字典;其次,我们使用FSM识别生物标志物;最后,我们输出疾病有关的生物标志物。这项研究提供了一个全面的文本挖掘发现生物标志物。

确认

这项工作是由NSF职业(ccf - 0845888) (h·李和c . Liu)和科学中心的信息(CSoI),一个NSF科技中心,根据授权协议ccf - 0939370。

Chervona Y。 科斯塔 M。 组蛋白修饰和癌症:预后的生物标志物吗? 美国癌症研究杂志》上 2012年 2 5 589年 597年 Z。 Y。 Y。 拉普拉斯算子semi-supervised双子支持向量机的分类 神经网络 2012年 35 46 53 10.1016 / j.neunet.2012.07.011 伊藤 E。 川口 T。 坂田 M。 Itou M。 Oriishi T。 萨塔 M。 血脂与病毒性肝硬化患者的认知功能障碍的发生率:数据挖掘分析 肝脏病学研究。在新闻 10.1111 / j.1872 - 034 x.2012.01076.x H。 G。 周润发 t·w·S。 W。 文本和视觉基于内容的反钓鱼:贝叶斯方法 IEEE神经网络 2012年 22 10 1532年 1546年 2 - s2.0 - 79961119255 10.1109 / TNN.2011.2161999 Touw w·G。 Bayjanov j . R。 Overmars l 巴克斯 l Boekhorst J。 六须鲇 M。 范Hijum: 美国一个。 数据挖掘在生命科学与随机森林:在公园里散步或迷失在丛林中? 简报的生物信息学。在新闻 Hamosh 一个。 斯科特 答:F。 Amberger j·S。 Bocchini c。 McKusick 诉。 在线孟德尔遗传在人(人类),人类基因和遗传疾病的知识库 核酸的研究 2005年 33 D514 D517 2 - s2.0 - 13444266370 10.1093 / nar / gki033 克雷斯波Azcarate M。 玛塔·巴斯克斯 J。 法力洛佩兹 M。 提高图像检索的有效性通过查询扩展使用网格层次结构 美国医学协会杂志》上。在新闻 Garcia-Remesal M。 Maojo V。 克雷斯波 J。 知识工程的方法来认识和从科学文献中提取的核酸序列 IEEE美国第32届国际会议在医学和生物学社会工程 2010年 1081年 1084年 Oracle:甲骨文Berkeley DB XML, 2012 香农 P。 Markiel 一个。 Ozier O。 Baliga n S。 j . T。 拉梅奇 D。 阿明 N。 Schwikowski B。 Ideker T。 Cytoscape:软件环境生物分子相互作用网络的集成模型 基因组研究 2003年 13 11 2498年 2504年 2 - s2.0 - 0242490780 10.1101 / gr.1239303