分子标志物已成为科学家们的一个重要任务,评估不同表型的细胞或生物体的基因型相关疾病大规模生物数据。在本文中,我们提出了一个从PubMed text-mining-based方法发现生物标志物。首先,我们构造一个基于词典数据库,然后我们使用有限状态机来识别生物标志物。我们的文本挖掘的方法提供了一个高度可靠的方法来发现生物标志物在PubMed数据库中。
分子标志物已成为生物信息学的一个重要任务科学家评估不同表型的细胞或生物体的基因型相关疾病大规模生物数据(
许多不同的团体提出的文本挖掘技术,如机器学习技术,包括支持向量机(
在本文中,我们使用一个状态机来模拟生物标志物的转换从单个实体相关的疾病和途径以及网络。总结了几个抽象模板从已知的专家经验和知识。生物标志物的排名,是根据疾病的重要性,从PubMed的引用文献。基于这个模板,每开采biomarker-related途径,网络,和疾病将收集并与模板进行匹配。
本文提到的所有生物标志物从PubMed数据库中开采出来的。对于每个生物标志物的候选人,我们使用一个有限状态机(FSM) [
如图
流程图的生物标志物的发现。
我们首先建立一个数据库,其中包括类别根据其名称、疾病、交互、通路和网络信息。然后,我们收集一系列疾病,基因/蛋白等等,然后把它们放在字典。字典的结构如表所示
生物标志物的字典。
| 基因 | 蛋白质 | 通路 | 疾病 |
|---|---|---|---|
| P53 | P53 | 拉 | 糖尿病 |
| APC | APC | Wnt | 乳腺癌 |
| MDM2 | Pten | 死亡受体途径 | 肝癌 |
| 拉 | 肝细胞癌 | 醚脂类代谢 | 亨廷顿 |
| Axin-1 | HPR | 硫胺素新陈代谢 | 肝硬化 |
| LCE2B |
卟啉和叶绿素 | 前列腺癌 | |
| AXIN1 | 新陈代谢 | 白血病 | |
| SLC22A1 |
我们使用一个动态方法收集全文文档,然后应用Lucence分裂。对于Lucence,我们需要删除旧的文档和创建新的Lucence文档索引。Lucence文档包含三个路径,内容和文档的索引,条款,修改后的日期。
每个单词是由一系列的短语,我们用字典来解析全文,然后把他们分成几个主要类别:分子的名字,交互关键字,和动词。提取关键词,我们构造的xml文档的关键词。蛋白质名称是一个实体,代表的交互关系的实体用于提取疾病之间的关系,基因突变,蛋白质。我们给一个示例xml片段提取PubMed如下:
如果单词不能匹配字典,它将被忽略。一些关键字可以从数据库中删除,因为他们不适合我们的定义。也可以由用户添加额外的标签。表
我们的数据库不包含交互对和途径。我们将动态解析在线数据库蛋白/基因名称和构建网络的交互。
我们使用有限状态机(FSM)来识别生物标志物在我们的数据库中。FSM是一个状态机有一个开始节点,接收节点,输入实体和关系。每个实体的角色包含信息如基因、蛋白质、小分子。
本文识别生物标记被认为是一个模板的FSM提供匹配相应的生物标记,如图
生物标志物的鉴定使用有限状态机。
列表成员的交互,被定义为ILIST成员列表<在line-formula>
FSM包括< left-context FSM >, <实体FSM ><在line-formula>
例如,对于实体P53蛋白,我们确定实体的作用如下:
FSM的输出之间的跟踪节点是<疾病><在line-formula>
基于我们的框架中,一个查询在肝癌和候选标志物是一个报告如表
从PubMed biomarker-disease关联挖掘的列表。
| EntrezID | 基因名字 | 象征 |
|---|---|---|
| 11914年 | α1,4-GALACTOSYLTRANSFERASE | A4GALT |
| 3558年 | ACETOACETYL-COA合成酶 | aac格式 |
| 5758年 | ABHYDROLASE域包含1 | ABHD1 |
| 18925年 | 酰coa THIOESTERASE 12 | ACOT12 |
| 18925年 | 酰coa THIOESTERASE 12 | ACOT12 |
| 17809年 | 酰coa THIOESTERASE 2 | 苹果电脑 |
| 17766年 | 酰coa THIOESTERASE 4 | ACOT4 |
| 15426年 | 酰coa合成酶泡泡糖家庭成员1 | ACSBG1 |
| 11191年 | 酰coa合成酶泡泡糖家庭成员2 | ACSBG2 |
在查询过程中,我们动态解析鉴定基因/蛋白质和构建网络互动。然后,我们使用Cytoscape软件(
实行病种基因关联网络。绿色节点基因,和其他颜色的节点是疾病。
该方法是基于文本挖掘技术从PubMed数据库,结合全文搜索引擎技术(Lucence),生物和信号通路的复杂网络。首先,我们构造一个数据库基于字典;其次,我们使用FSM识别生物标志物;最后,我们输出疾病有关的生物标志物。这项研究提供了一个全面的文本挖掘发现生物标志物。
这项工作是由NSF职业(ccf - 0845888) (h·李和c . Liu)和科学中心的信息(CSoI),一个NSF科技中心,根据授权协议ccf - 0939370。