文摘

在过去的20年里,已经取得了许多进步在骨质疏松症的遗传分析。许多基因和单核苷酸多态性与骨质疏松症通过GWAS方法被发现。在这篇文章中,我们打算识别可疑的骨质疏松症的风险单核苷酸多态性与计算方法基于已知的骨质疏松症GWAS-associated snp。这个过程包括两个步骤。首先,我们决定是否与疑似风险相关的基因单核苷酸多态性与骨质疏松相关的骨质疏松的PPI网络上使用随机游走算法GWAS-associated与疑似风险相关的基因和基因snp。为了解决过度拟合问题的ID3决策树算法,然后根据它们的特征分类单核苷酸多态性与积极的结果通过一个简化的分类地位和作用的构造的决策树ID3决策树算法和PEP (Pessimistic-Error修剪)。我们识别的准确性验证框架的数据集GWAS-associated snp,结果表明,该方法是可行的。它提供了一个更加方便的方式来识别可疑风险单核苷酸多态性与骨质疏松症有关。

1。介绍

骨质疏松症是一种全身性骨骼疾病,特点是减少骨量和骨骼组织的微体系结构恶化,从而导致损失的强度和增加骨折的风险1]。它是与年龄相关的疾病的动脉硬化、高血压、糖尿病和癌症。目前,所有的医疗方法是安全有效的治疗骨质疏松症。因此,有必要开发一个医疗战略提供理论依据治愈这种疾病发病机理的骨质疏松症。

国际人类基因组单体型图计划的完成和1000人基因工程,大约十数百万snp的人类是注释,其中300万多是常见的snp。遗传分析达到了全基因组关联研究(GWAS)阶段。GWAS研究应用于40种相关的疾病超过500单核苷酸多态性(2]。

骨质疏松症骨系统是一个复杂的多基因疾病的遗传骨量大约60 - 80% (3]。已经取得了很大进展的遗传分析骨质疏松症在过去20年里,人们已经发现,很多基因和单核苷酸多态性与骨质疏松症通过GWAS [4,5]。

计算生物学是指开发和应用数据分析、数据理论的方法、数学建模和计算机仿真技术,用于研究生物学、行为和社会群体系统的一门学科6]。生物数据的快速质量积累在人类科学的历史中是前所未有的。现在,各种各样的方法和工具通过互联网计算生物学已经成功地应用于生物研究领域的方方面面。他们是强大的post-GWAS研究[7),可以确定潜力和前途的因果snp要求为后续实验测试功能的研究。做了大量工作近年来在这一领域。表演也验证通过识别许多疾病有关的snp进行进一步的研究和揭示未知的机制复杂疾病(8]。

计算生物学的方法也可以用来学习和理解这些osteoporosis-susceptible基因和SNP的功能。所有相关的骨质疏松症基因和单核苷酸多态性(包括连锁不平衡(LD)单核苷酸多态性)序列信息的收集和汇总国家生物信息中心(NCBI)的数据库,以及骨质疏松症的影响GWAS-associated铅单核苷酸多态性及其单核苷酸多态性有关转录因子(TF)绑定关联通过JASPAR数据库进行了研究。同时,骨质疏松症GWAS-associated基因与蛋白质的相互作用也被分析(PPI)网络分析工具相关的骨质疏松症GWAS-associated snp的研究在线PPI工具命名字符串。结合途径的分析,我们发现中心相关的蛋白质和Wnt信号通路间充质干细胞分化相关的代谢和激素信号传导相关的骨质疏松症(9]。最后,发现骨质疏松症GWAS-associated snp基因在特殊地区的远程交互信号与其他通过分析骨质疏松的远程交互关联的单核苷酸多态性位点在GWAS3D [10]。

在BIBM车间纸(11),我们利用已知的骨质疏松症GWAS-associated单核苷酸多态性和基因数据集来确定骨质疏松疑似危险的snp。识别的过程是通过计算的方法。在这个扩展,我们在纸上做了一些改进。首先,我们实现了图形化描述snp识别过程。我们添加了一个流程图本文描述的过程识别方法,使该方法更直观。其次,我们使用ID3决策树算法与PEP方法代替ID3决策树算法的第二部分的方法。我们解决的过度拟合问题的改进ID3决策树算法;我们使用C4.5算法进行比较与我们ID3-PEP算法。最后,我们添加了2型糖尿病(T2D) GWAS-associated单核苷酸多态性和基因的负面数据集根据骨质疏松GWAS-associated单核苷酸多态性和基因全面验证方法的准确性。

2。材料和方法

我们发现了疑似风险单核苷酸多态性与骨质疏松相关算法的基础上,分析骨质疏松症GWAS-associated snp与上面提到的方法(9]。假定的单核苷酸多态性与骨质疏松症GWAS-associated snp是可能的风险单核苷酸多态性与骨质疏松症有关。疑似危险snp的识别过程包括两个步骤。首先,我们构建了一个蛋白质交互(PPI)基于蛋白质相互作用网络分析的基因和基因与骨质疏松症GWAS-associated疑似危险SNPs和确定与疑似风险相关的基因单核苷酸多态性与骨质疏松症通过基于马尔可夫链的随机漫步算法。的算法,我们也选择了疑似危险snp的相关基因识别与骨质疏松症。然后我们根据他们的特点,功能和分类这些snp位点特征分类决策树,并构造了决策树ID3决策树算法Pessimistic-Error修剪。图1描述了骨质疏松过程识别高风险的snp。

2.1。基因的鉴定与疑似危险的snp

根据模块化的遗传疾病,许多学者提出了优先级算法预测基于PPI的致病基因,人类疾病网络,最近DISEASOME [12- - - - - -16]。同样的,我们获得的分数与疑似风险相关基因单核苷酸多态性通过随机漫步算法基于PPI的基因和基因与骨质疏松症GWAS-associated疑似危险的snp。然后,结果是通过设置一个阈值 ,与疑似风险相关的基因单核苷酸多态性可能是骨质疏松症相关的基因是否大于他们的分数

2.2。基于马尔可夫链的随机漫步算法

科勒候选基因排序的问题,提出了一个方法通过随机漫步算法基于PPI的全球网络的距离。结果表明,该算法比本地网络距离算法更有效(17]。随机漫步算法应用于蛋白质相互作用网络的所有相关的基因。

一个无向图 被定义为所有相关的基因的蛋白质相互作用网络。在无向图 , 是扶少团团员的顶点集的网络。和 被定义为 ; 边的集合;和 被定义为 。组中的每一条边边对应的顶点集的两个节点之间的交互扶少团团员。此外,它假定一个随机过程满足马尔可夫链的状况。随机过程应该如下:(一)时间的概率分布 只有相关的时间吗 ,这是与之前的状态 (b)状态转换是不相关的价值 时间 。因此,定义为马尔可夫链模型 是一个非空的集合,包括所有可能的系统的状态。这是一个可以有限状态空间和可数集或一组非空的。 是国家transfer-probability矩阵, 的概率是系统的状态 在时间 国家 在时间 是系统状态的数量。 是系统的初始概率分布, 系统状态的概率是 在最初的时间,

基于上述理论模型,图上的随机游走定义为一个迭代走的过渡从当前节点随机选择的邻居从给定的源节点(17]。定义为随机游走 是一个向量的吗 th元素保存在节点的概率 在时间步 是一个常数在0和1之间,在每一步走的重启节点 的概率 , (17]。 是一个行向量的 系统的初始状态, 元素的数量吗 。已知的元素的值 是平等的,它们的总和是1。和其他元素的值是0。 是转移概率矩阵的定义是 是一个无向图的邻接矩阵 。每一个元素 定义如下:如果有互动吗 在网络中,元素 ;否则, 公式被定义为 是一个对角矩阵。每个元素 定义如下:如果 那么它应该 ;否则 的程度 在网络。公式被定义为

转移概率矩阵 也是一个row-normalized图的邻接矩阵。公式(2)满足马尔可夫火车模型的平稳分布的状态显然,随机游走算法评估的中心点平稳分布的无向网络中的节点的概率 它由PPI的。首先,转移概率矩阵 应该获得的初始值设置吗 。然后,过程 次迭代基于公式(2),直到 , 是一个融合向量。设置一个阈值的概率值,如果节点的概率值(或基因)大于阈值,它们是骨质疏松症相关的基因。

2.3。分类的疑似危险snp ID3决策树算法

ID3决策树算法是分类树结构算法(18,19]。该算法的目标是预测基于多个输入变量和目标变量演绎与决策树分类规则形成的不规则样品。我们假设所有输入离散有限域和特征元素需要一个单独的特征元素作为一个范畴。nonleaf节点的分类决策树分类的样本特征样本,并且每个树的叶子节点是一个类或类的概率分布。因此,我们选择决策树分类苏格兰民族党基于训练集的条件和算法特点。

单核苷酸多态性位于基因的启动子或遥远的增强器区域可能改变TFs的绑定与DNA和随后调节基因的表达20.]。疑似危险snp分类决策树ID3算法是基于四个功能基因的重要地位,映射在假定的增强器区域,映射在远端交互,snp所在的区域(21]。

决策树算法选择信息增益最大的属性分裂之后,和算法搜索决策空间通过自上而下的贪婪算法。 被定义为训练集的snp位点的特性,和训练集分为 类。也就是说, 。的训练实例的数量 类是定义为 。的训练实例的数量 。属于训练实例的概率 th类 。和一个公式的定义是

对训练集 , 信息熵的定义是 ,我们有这个公式

信息熵的值就越大 是,分工的程度的不确定性越小 是多少。属性 选择测试属性的训练集的snp位点功能,设置属性和价值 。属性属于的概率 th类时 可以制定 是训练实例的数量属于哪一个 类。

当属性 ,一个公式是用于定义属性的条件熵 作为 训练实例的训练集吗

属性的信息熵 被定义为

我们建立了一个自上而下的决策树和分类的训练实例通过选择最大信息熵的属性根据上面的公式。

然而,才能避免过度拟合的问题如果有很多噪声样本训练集,因为所构成的一个复杂的分类决策树ID3决策树算法与大量的噪声样本训练集。为了解决这个问题,一次动员(Pessimistic-Error修剪)算法对ID3决策树分类算法。PEP是最准确的自上而下的修剪修剪策略处理问题没有分开训练集。

我们定义了一个决策树 ,它只生长在大规模训练集的基础上snp位点的功能。 是一个nonleaf节点集, 是一个叶子节点集, 所有节点的吗 。这个公式是

修剪之前,我们定义 作为节点的错误率 在决策树。这个公式是 节点是样品的数量 , 样品的数量是不属于节点 实际上。

我们定义 作为一个决策树的子树 , 的根节点吗 。所以子树的错误率 叶子节点的子树集吗 ,我们定义

显然,子树的出错率的公式 是二项分布。我们定义了一个连续性校正因子 为了使二项分布接近正态分布。公式是

因此,我们推断子树的连续性校正因子 。这个公式是

为了简化公式,我们定义 错误的样本数量而不是错误率。所以错误样本数量的节点 在决策树

因此,错误样本数量的子树

同样,样本数量的子树的公式错误 是二项分布。和标准差 被定义为

最后,我们从上面公式推导出的子树 如果该节点将被削减 满足条件:

PEP算法的流程如下:算法:PEP开始输入:决策树 之前修剪输出:决策树 修剪后(1)nonleaf节点集 决策树的 (2) 长度 (3)做的子树 是谁的根节点 (4)如果 (5)然后删除 (6)其他 (7)结束结束

我们分类疑似风险单核苷酸多态性有效地根据他们的位点特点和研究其功能根据ID3决策树算法和PEP。

3所示。结果

到2014年底,九GWAS和九个荟萃分析报告107个基因和129个单核苷酸多态性(SNP)铅与BMD,骨质疏松症,或骨折的一个重要门槛 。222个snp与骨质疏松症GWAS-associated铅单核苷酸多态性也被确定通过使用LD白人人口中的信息通过人类基因组单体型图网站(9]。此外,我们得到107种已知骨质疏松GWAS-associated基因显示重要的蛋白质之间的连通性。有骨质疏松症GWAS-associated基因之间的相互作用和扶少团团员。我们使用了常见的蛋白质相互作用数据库,如人类蛋白质相互作用数据库(HPID)和通用存储库交互数据(网格),找到的扶少团团员与骨质疏松症的交互GWAS-associated基因及其相互作用。然后,我们得到了相互作用网络图由Cytoscape v3.4.0。图2是骨质疏松症的PPI GWAS-associated基因。

结果是10倍交叉验证数据集的基础上验证了骨质疏松症GWAS-associated基因和单核苷酸多态性。我们把数据集129年骨质疏松GWAS-associated铅SNPs和222个snp与10个样本。一个样本是随机选择和保存为验证设置从10个样本来验证模型,和其他9个样本保存为训练集,验证过程是重复10次,以便每个样本验证设置一次,每次都和准确性进行了计算。一个10倍交叉验证由上述过程完成。

我们设置一个阈值 ( )的结果验证。召回计算,这是真正的阳性结果阳性结果比率。10倍交叉验证重复十次,平均召回率的验证计算。结果是图所示3

分类结果也验证了10倍交叉验证。骨质疏松GWAS-associated snp是用作训练集的数据集。snp的分类根据其基因座的特性。部分训练集的分类表所示1。我们分类验证集的snp ID3决策树算法和记录分类的准确性,这是分类的比例准确样本的样本。

然后,验证的过程重复十次,计算平均正确率和平均分类的可靠性。结果是图所示4

我们还利用全基因组关联研究(GWAS) 2型糖尿病(T2D)数据-数据来验证我们的方法(22]。50的snp T2D得到与他们的位置特性和相关的基因。我们搜查了扶少团团员从PPI数据库的关联基因与已知的骨质疏松症和构造PPI网络GWAS-associated基因。上的随机游走算法使用PPI网络。

然后我们PEP用于ID3决策树构造一个简化分类决策树。我们结合风险的两个步骤snp识别方法和验证10倍交叉验证的方法。最后,我们发现不仅是计算效率提高,而且结果的准确率与PEP利用ID3决策树算法识别方法更高。改善是由于这一事实,我们已将子树是由噪声样本和解决过度拟合的问题。当我们定义与PEP ID3决策树算法识别方法ID3-PEP和ID3决策树ID3算法,这两种分类算法的结果比较图描述的识别方法5。根据结果,我们得出的结论是,识别方法中的ID3-PEP比ID3算法更稳定,而且最好效果的分类问题。

C4.5是ID3的优化。它们有相同的学习方法训练集,建立一个分类决策树,但区别是选择分裂属性的方式。C4.5算法选择与信息增益最大的属性比分裂。为了解决过度拟合问题的ID3决策树算法C4.5算法需要扫描数据集和等级在每一步。这个计算方法和处理算法的运行效率较低。ID3-PEP比C4.5算法解决了这个问题,更准确。我们比较了这两种算法通过ROC曲线,如图所示6。结果表明,ID3-PEP比C4.5分类。

4所示。讨论和结论

自从SNP病理过程中起着关键作用和骨质疏松症的易感性23),有必要寻找未知的危险的snp。利用已知的数据集骨质疏松GWAS-associated单核苷酸多态性和基因‎(8),我们发现了疑似危险基因单核苷酸多态性与骨质疏松相关的随机漫步算法在PPI网络由骨质疏松GWAS-associated基因和基因与疑似风险单核苷酸多态性有关。怀疑是高风险的snp分类基于功能位点的位置和功能。我们用10倍交叉验证来验证我们的方法。

以上实验结果表明,该识别方法对骨质疏松症的风险单核苷酸多态性是正确的和有效的。我们的方法有效地实现了识别过程中骨质疏松疑似危险的snp。

然而,仍有需要完善识别方法。首先,我们需要搜索疑似危险的snp位点的特性与骨质疏松症和手动关联基因的扶少团团员。的训练集的方法是已知的骨质疏松症GWAS-associated snp,不够大,准确识别风险的snp。因此,进一步的研究是必要的。首先,可以构造一个工作流来提高识别过程中,目标自动识别可疑危险snp的特性。为了提高我们的方法的准确性,应该检查更多的单核苷酸多态性的特点,如保护SNPs和microrna的结合位点单核苷酸多态性的影响。最后,我们用我们的方法来预测风险单核苷酸多态性与骨质疏松症通过构造PPI网络的所有人类基因。

的利益冲突

作者宣称没有利益冲突有关本文的发表和接收到的资金没有导致任何利益冲突有关出版的手稿。

确认

这项研究由中国国家自然科学基金支持(授予号。61532008和61532008),中国国家社会科学基金(没有。14 byy093),中央大学(没有基础研究基金。CCNU17TS0003)。