raybet雷竞app|雷竞技官网下载|雷电竞下载苹果

CMMM

计算和数学方法在医学

1748 - 6718 1748 - 670 x

Hindawi出版公司

135780年

10.1155 / 2012/135780

135780年

研究文章

生物标志物识别使用文本挖掘

李

回族

刘

纯美少女

刘

Xumin

系统和计算机科学

霍华德大学

华盛顿特区20059 美国

howard.edu

2012年

11 11 2012年

2012年 09年 09年 2012年 04 10 2012年

2012年

这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

分子标志物已成为科学家们的一个重要任务,评估不同表型的细胞或生物体的基因型相关疾病大规模生物数据。在本文中,我们提出了一个从PubMed text-mining-based方法发现生物标志物。首先,我们构造一个基于词典数据库,然后我们使用有限状态机来识别生物标志物。我们的文本挖掘的方法提供了一个高度可靠的方法来发现生物标志物在PubMed数据库中。

1。介绍

分子标志物已成为生物信息学的一个重要任务科学家评估不同表型的细胞或生物体的基因型相关疾病大规模生物数据( 1]。文本挖掘技术已经成为一个设计未来的预测和个性化医疗的关键技术。同时,PubMed数据库包括2100万多个引用生物医学文献提供了一个丰富来源为我们探索人类疾病的生物标志物和开采与疾病相关的生物标记物。因此,整合文献搜索,自动和快速文本挖掘是一个新兴的研究领域在表观遗传学,DNA甲基化,更具体地说生物标志物发现研究。对于几乎所有的癌症类型,新的出版物,发现生物标志物候选人更新频繁,尤其是先进的高通量方法。高效的文本挖掘工具和算法开发是非常必要的。

许多不同的团体提出的文本挖掘技术,如机器学习技术,包括支持向量机( 2),决策树( 3),贝叶斯分类器( 4),和随机森林 5),用于文本挖掘。的自然语言处理技术用于确定句子的结构和语言成分,然后解析句子换一袋话说,一起统计方法得到的匹配结果的文本数据库。人类数据库( 6)是一种重要的数据库biomarker-related病研究。网浏览器( 7)用于疾病关联映射到网格id。

在本文中,我们使用一个状态机来模拟生物标志物的转换从单个实体相关的疾病和途径以及网络。总结了几个抽象模板从已知的专家经验和知识。生物标志物的排名,是根据疾病的重要性,从PubMed的引用文献。基于这个模板,每开采biomarker-related途径,网络,和疾病将收集并与模板进行匹配。

2。方法

本文提到的所有生物标志物从PubMed数据库中开采出来的。对于每个生物标志物的候选人,我们使用一个有限状态机(FSM) [ 8)来识别生物标志物、通路和相关疾病。只有接受了FSM的候选人视为生物标志物。生物标志物和疾病之间的联系可以输出提炼的生物标志物。

如图 1。第一步是创建一个生物标记字典,第二步是建立一个DBXML [ 9)数据库,第三步是使用有限状态机符合疾病生物标志物。我们首先创建DBXML数据库从PubMed数据库。Lucence技术用于将文档分成一袋提取词语,如基因名称、互动关系,通路和网络名称。同时,基于我们的领域知识,我们构建字典进行进一步分析。基于Lucence解析术语和字典,为生物标记创建DBXML数据库提取。从DBXML数据库,检索关键字精确匹配,模糊匹配和匹配方法是用于匹配术语列表保存在DBXML。如果FMS的最终状态是处于接受状态,keywords-related基因,蛋白质,或小分子标记为生物标志物。

图1

流程图的生物标志物的发现。

2.1。构建一个数据库基因/蛋白和疾病

我们首先建立一个数据库,其中包括类别根据其名称、疾病、交互、通路和网络信息。然后,我们收集一系列疾病,基因/蛋白等等,然后把它们放在字典。字典的结构如表所示 1。

表1

生物标志物的字典。

基因	蛋白质	通路	疾病
P53	P53	拉	糖尿病
APC	APC	Wnt	乳腺癌
MDM2	Pten	死亡受体途径	肝癌
拉	肝细胞癌	醚脂类代谢	亨廷顿
Axin-1	HPR	硫胺素新陈代谢	肝硬化
	LCE2B	卟啉和叶绿素	前列腺癌
	AXIN1	新陈代谢	白血病
	SLC22A1

我们使用一个动态方法收集全文文档,然后应用Lucence分裂。对于Lucence,我们需要删除旧的文档和创建新的Lucence文档索引。Lucence文档包含三个路径,内容和文档的索引,条款,修改后的日期。

每个单词是由一系列的短语,我们用字典来解析全文,然后把他们分成几个主要类别:分子的名字,交互关键字,和动词。提取关键词,我们构造的xml文档的关键词。蛋白质名称是一个实体,代表的交互关系的实体用于提取疾病之间的关系,基因突变,蛋白质。我们给一个示例xml片段提取PubMed如下:

< 蛋白质 id =<在line-formula> 010年 >

< 的名字 > P53 < / 的名字 >

< 交互 > MDM2<在line-formula> < / 交互 >

< / 蛋白质 >

如果单词不能匹配字典,它将被忽略。一些关键字可以从数据库中删除,因为他们不适合我们的定义。也可以由用户添加额外的标签。表 1显示了生物标志物的字典。

我们的数据库不包含交互对和途径。我们将动态解析在线数据库蛋白/基因名称和构建网络的交互。

2.2。使用FSM识别生物标志物

我们使用有限状态机(FSM)来识别生物标志物在我们的数据库中。FSM是一个状态机有一个开始节点,接收节点,输入实体和关系。每个实体的角色包含信息如基因、蛋白质、小分子。

本文识别生物标记被认为是一个模板的FSM提供匹配相应的生物标记,如图 2。此外,用户可以修改的模板。我们的方法包括精确匹配、模糊匹配和匹配列表。疾病,我们使用精确匹配方法,对所有分子,我们使用模糊匹配和互动,我们使用榜成员匹配。

图2

生物标志物的鉴定使用有限状态机。

列表成员的交互,被定义为ILIST成员列表<在line-formula> ( P 一个 ) ∶ = ( P 1 , P 2 , P 3 , … P n ) ,在那里<在line-formula> P 一个与<在line-formula> P 1 , P 2 , … P n 动态解析在线数据库。我们构建蛋白质相互作用网络<在line-formula> P 一个 FSM。我们也从KEGG数据库获取途径。

FSM包括< left-context FSM >, <实体FSM ><在line-formula> 〈 right-context-FSM 〉 。实体是由上下文决定的角色左右邻居的实体。

例如,对于实体P53蛋白,我们确定实体的作用如下:

如果 < 合适的背景下 >

= < ( ” 表达 ” ” 现在 ” ) ( ” 在 ” ” 在通路 ” ) >

然后实体角色 = 在的通路

FSM的输出之间的跟踪节点是<疾病><在line-formula> ⟺ <潜在生物标志物>包括论文名称和作者姓名。FSM如图 2。

3所示。实验结果

基于我们的框架中,一个查询在肝癌和候选标志物是一个报告如表 2。

表2

从PubMed biomarker-disease关联挖掘的列表。

EntrezID	基因名字	象征
11914年	α1,4-GALACTOSYLTRANSFERASE	A4GALT
3558年	ACETOACETYL-COA合成酶	aac格式
5758年	ABHYDROLASE域包含1	ABHD1
18925年	酰coa THIOESTERASE 12	ACOT12
18925年	酰coa THIOESTERASE 12	ACOT12
17809年	酰coa THIOESTERASE 2	苹果电脑
17766年	酰coa THIOESTERASE 4	ACOT4
15426年	酰coa合成酶泡泡糖家庭成员1	ACSBG1
11191年	酰coa合成酶泡泡糖家庭成员2	ACSBG2

在查询过程中,我们动态解析鉴定基因/蛋白质和构建网络互动。然后,我们使用Cytoscape软件( 10]显示如图所示的交互网络 3。

图3

实行病种基因关联网络。绿色节点基因,和其他颜色的节点是疾病。

4所示。结论

该方法是基于文本挖掘技术从PubMed数据库,结合全文搜索引擎技术(Lucence),生物和信号通路的复杂网络。首先,我们构造一个数据库基于字典;其次,我们使用FSM识别生物标志物;最后,我们输出疾病有关的生物标志物。这项研究提供了一个全面的文本挖掘发现生物标志物。

确认

这项工作是由NSF职业(ccf - 0845888) (h·李和c . Liu)和科学中心的信息(CSoI),一个NSF科技中心,根据授权协议ccf - 0939370。

Chervona

Y。

科斯塔

M。

组蛋白修饰和癌症:预后的生物标志物吗? 美国癌症研究杂志》上 2012年 2 5 589年 597年

气

Z。

田

Y。

史

Y。

拉普拉斯算子semi-supervised双子支持向量机的分类神经网络 2012年 35 46 53

10.1016 / j.neunet.2012.07.011

伊藤

E。

川口

T。

坂田

M。

Itou

M。

Oriishi

T。

萨塔

M。

血脂与病毒性肝硬化患者的认知功能障碍的发生率:数据挖掘分析肝脏病学研究。在新闻

10.1111 / j.1872 - 034 x.2012.01076.x

张

H。

刘

G。

周润发

t·w·S。

刘

W。

文本和视觉基于内容的反钓鱼:贝叶斯方法 IEEE神经网络 2012年 22 10 1532年 1546年

2 - s2.0 - 79961119255

10.1109 / TNN.2011.2161999

Touw

w·G。

Bayjanov

j . R。

Overmars

巴克斯

Boekhorst

J。

六须鲇

M。

范Hijum:

美国一个。

数据挖掘在生命科学与随机森林:在公园里散步或迷失在丛林中? 简报的生物信息学。在新闻

Hamosh

一个。

斯科特

答:F。

Amberger

j·S。

Bocchini

c。

McKusick

诉。

在线孟德尔遗传在人(人类),人类基因和遗传疾病的知识库核酸的研究 2005年 33 D514 D517

2 - s2.0 - 13444266370

10.1093 / nar / gki033

克雷斯波Azcarate

M。

玛塔·巴斯克斯

J。

法力洛佩兹

M。

提高图像检索的有效性通过查询扩展使用网格层次结构美国医学协会杂志》上。在新闻

Garcia-Remesal

M。

Maojo

V。

克雷斯波

J。

知识工程的方法来认识和从科学文献中提取的核酸序列

IEEE美国第32届国际会议在医学和生物学社会工程

2010年

1081年 1084年

Oracle:甲骨文Berkeley DB XML, 2012

香农

P。

Markiel

一个。

Ozier

O。

Baliga

n S。

王

j . T。

拉梅奇

D。

阿明

N。

Schwikowski

B。

Ideker

T。

Cytoscape:软件环境生物分子相互作用网络的集成模型基因组研究 2003年 13 11 2498年 2504年

2 - s2.0 - 0242490780

10.1101 / gr.1239303