文摘
的过氧物酶体proliferator-activated受体配体依赖性转录因子(PPARs)是核受体超家族。配体结合后,PPARs激活靶基因转录调节多种重要的生理过程如脂质代谢、炎症、伤口愈合。在这里,我们描述的第一个数据库PPAR目标基因,PPARgene。在225年证实PPAR目标基因,PPAR的83人α83是PPARβ/δ,104是PPARγ。详细信息包括组织类型、物种和PubMed id也提供了参考。此外,我们开发了一种机器学习的方法来预测小说PPAR目标基因通过集成在网上PPAR-responsive元素(PPRE)与高通量基因表达数据分析。5倍交叉验证表明,该预测方法的性能相比显著提高在网上PPRE分析方法。预测工具也在PPARgene数据库实现。
1。介绍
过氧物酶体proliferator-activated受体配体依赖性转录因子(PPARs)属于核受体超家族。PPARs形式与类维生素a X受体(RXR)形成和控制基因表达被绑定到特定的PPAR-responsive元素(ppr)目标基因启动子(1]。PPARs扮演关键角色的脂质和糖代谢,炎症、伤口愈合和其他许多病理生理过程(2- - - - - -5]。合成PPAR配体,如一类thiazolidinediones,用于临床治疗血脂异常和2型糖尿病,分别为(6]。
广泛的研究已经证明了各种目标基因受个人PPAR亚型。因此,构建一个数据库的全面收集之前验证PPAR目标为每个亚型基因将有利于PPAR的研究。在这项研究中,我们首先建立了一个数据库PPAR的目标基因,PPARgene。实验验证了PPAR目标基因手动策划和详细信息包括PPAR亚型,组织类型,物种,PubMed IDs提供参考。
最近,高吞吐量的应用技术,如微阵列产生了许多PPAR-induced基因表达数据集,免费的公共数据库。通过集成在网上PPRE用高通量基因表达数据分析,我们开发了一种机器学习的方法来预测小说PPAR目标基因。实现的预测工具也是PPARgene数据库(http://www.ppargene.org/)。
2。方法
2.1。数据收集
2.1.1。实验验证了PPAR目标基因的集合
PPAR-related出版物获得来自PubMed数据库使用关键字“PPAR”,“PPARα”,“PPARβ”、“PPAR三角洲”,“PPARγ”或“过氧物酶体扩散国”(评论文章被排除在外)。然后我们策划PPAR手动和检索的数据目标基因如果基因调控实验证据(mRNA和/或蛋白质含量)和功能性PPRE(记者试验和/或dna结合蛋白化验)都是报道。
2.1.2。PPAR-Relevant微阵列数据集的集合
PPAR-relevant微阵列数据集被搜索了GEO数据库(7使用关键字”PPAR”、“PPAR阿尔法”,“PPARβ”、“PPAR三角洲”,“PPARγ”或“过氧物酶体扩散国”。我们手动策划22 PPARs被激活或过表达的数据集。
2.2。特征提取
2.2.1。高吞吐量的证据(包括)
获得高通量实验证据支持PPAR目标基因的相互作用,我们收集PPARs被激活或过表达的微阵列。原始数据收集的微阵列处理使用r程序Bioconductor [8]。基因的奉送价值被定义为数据集的总数除以数量数据集的这个基因调节(日志2褶皱变化> 0.5)。
2.2.2。PPRE得分(PS)
参考基因组的鼠标(GRCm38)和老鼠(Rnor_6.0)从NCBI下载。根据先前的研究9- - - - - -12],ppr位于5 kb上游或下游的转录起始站点(TSS)在大多数情况下。因此,我们提取−5 kb ~ + 5 kb TSS侧翼序列参考基因组的所有老鼠和老鼠基因识别,可以根据基因组基因ID坐标。
潜在的ppr进行扫描在网上使用位置权重矩阵(PWM)模型,它被广泛用于描述基因元素(13,14]。自三个亚型PPARs绑定到一个共同的核心共识序列,我们没有区分不同亚型之间的结合位点和使用PPAR的位置频率矩阵(PFM)γrxrα异质二聚体从JASPAR检索数据库(ID: MA0065.2) (15PPRE]计算PWM。PWM和前面描述的计算(16]。简单地说,我们计算PWM值 在哪里PWM基础的价值吗在适当的位置,背景的概率基础吗在基因组是概率的基础在适当的位置。Pseudocount值(√网站的数量)被添加到每个基地抚平小样本的影响。假定的序列的PWM得分的总和计算PWM值中的每个核苷酸序列。为每一个基因可通过Entrez ID在小鼠基因组中,我们假定的扫描ppr TSS侧翼序列的两条链的PWM分数截止4.56最初(相对于前PWM分数70%)。基因的PS值被定义为PWM得分最高的ppr确定这种基因。
2.2.3。守恒PPRE得分(CPS)
进化的保护已被用作有效的改善管理主题的特异性识别过滤器(17- - - - - -19]。我们进行比较基因组分析来识别守恒的ppr。成对的直系同源基因在老鼠和老鼠从NCBI HomoloGene检索数据库。TSS侧翼序列(−5 kb ~ + 5 kb)的同源基因对一致用megaBLAST缺省参数(奖励= 1,字大小= 28日不匹配点球=−2,缺口打开点球= 0,和缺口扩展点球= 2.5)(20.,21]。比对少于50个基点或一个值> 0.001被丢弃。对于每个同源基因,我们扫描的假定的ppr TSS侧翼序列的PWM分数截止4.56。一对公认的ppr被确认为守恒PPRE如果他们匹配的成对排列。基因的CPS价值被定义为PWM得分最高的守恒的ppr确定这种基因。
2.3。模型训练和评估
2.3.1。预测模型的训练集
实验验证靶基因PPARgene数据库中收集被定义为积极的训练样本。然而,很难证明PPARs基因并不是一个目标基因的任何条件。因此,我们通过随机获得负面的训练样本选择相同数量的基因背景的数据集,它包含所有蛋白质编码基因不包括积极的样本。为了避免抽样偏差,我们采样的负面数据集100倍,然后结合每个消极与积极的数据集的数据集训练分类器。
2.3.2。逻辑回归分类器
我们使用二项逻辑回归模型预测PPAR目标基因。所有小鼠蛋白质编码基因与HomoloGene数据库ID分类根据上述特性的组合。让的概率基因是PPAR的目标基因,让的概率是事实并非如此。逻辑回归模型 在哪里回归系数的特性。实现使用的逻辑回归模型的广义线性模型(GLM)函数R (22]。
2.3.3。绩效评估
我们用5倍交叉验证逻辑回归模型的性能进行评估。在每一轮中,20%的样本,测试数据和剩下的训练数据。精度、召回和分数被用来评估分类器的性能。精度、召回和被计算成 在哪里是真阳性的数量,假阳性的数量,是假阴性的数量。我们也计算了AUC,接受者操作特征(ROC)曲线下的面积,使用ROCR包(23]。因为消极的数据集获得的100个随机取样、精度等级的中位数,回忆说,100年代,auc的训练结果。
2.4。Web服务器
所有数据被组织使用MySQL,一个开源关系数据库管理系统。该网站提出了使用PHP。PPARgene数据库是免费的http://www.ppargene.org/。
3所示。结果与讨论
3.1。实验验证了PPAR目标基因
在这项研究中,我们开发了一个数据库PPAR目标基因。我们策划PPAR目标基因手动从9046年PPAR-related出版物。PPARgene数据库现在包含225实验验证PPAR目标基因,其中包括83 PPAR目标基因αPPAR 83目标基因β/δ,104 PPAR的基因γ。四十基因至少两个PPAR亚型的共同目标。详细信息包括组织、物种、参考PubMed id,和超链接到原始文章在PubMed数据库还提供。
3.2。代的逻辑回归模型预测PPAR目标基因
我们生成的逻辑回归模型来预测小说PPAR目标基因。训练逻辑回归模型,实验验证目标基因作为正面例子。相同数量的负面例子从背景中随机抽样得到的基因集。自三PPAR亚型绑定到一个守恒的核心序列和分享一些共同的目标基因(24),我们目前没有区分亚型在我们的预测模型。
首先,我们只生成的预测模型的基础上在网上PPRE识别使用标准位置权重矩阵(PWM)模型(16]。因为功能ppr也发现在下游地区的TSS9- - - - - -12,25),我们扫描ppr在上游和下游地区。基因预测目标基因或不根据PWM分数(PS)。5倍交叉验证被用来评估该模型的性能。如表所示1中位数精度,记得,,AUC是0.57,0.49,0.52,和0.59,分别。性能很差,这可能是由于大量的虚假的ppr预测。据报道,保护监管区域可以用来提高预测特异性(17- - - - - -19]。我们下一个执行的比较基因组分析识别假定的ppr守恒的老鼠和老鼠。直系同源基因然后根据保守机密PPRE得分(CPS)。如表所示1中位数精度,记得,,AUC是0.61,0.68,0.64,和0.68,分别表示一个更好的性能。
而不是在网上结合位点的预测,实验数据集提供基因调控的直接证据。最近,高通量技术产生了大量的公共可用PPAR-relevant基因表达谱。因此,我们收集PPAR-gain-of-function微阵列数据集从GEO数据库并提取基因调控的证据。逻辑回归模型是基于守恒的组合生成PPRE得分和高吞吐量的证据。如表所示1中位数精度,记得,,AUC是0.61,0.68,0.64和0.68。性能大大提高。ROC曲线预测模型还显示改善的性能(图1)。
3.3。PPAR目标基因的全基因组预测
我们预测PPAR目标基因的18716个同源基因在小鼠基因组使用预测模型的基础上,结合守恒PPRE分数和高吞吐量的证据。我们分类预测目标基因导入3根据信心水平值(PPAR目标基因的概率)(图2)。总的来说,2683个基因预测潜在PPAR目标基因,448个基因在高信任度类别(),803个基因在median-confidence类别(),1432个基因在低(高灵敏度)类别()。基因与值≤0.45被预测为负。预测PPAR目标基因的完整列表中可用PPARgene网站。
4所示。查询数据库
PPARgene数据库由两个模块组成:一个是查询实验验证靶基因,另一个是查询计算预测目标基因。
4.1。实验验证靶基因
我们为用户提供两种方式查询实验验证靶基因。首先,用户可以浏览结果通过选择PPAR亚型。PPARgene将返回一个表匹配的条目。用户还可以提交一个特定基因的象征。提供的结果包含以下项目:PPAR亚型,基因符号,物种,组织/细胞类型、监管方向,参考PubMed id。
4.2。计算预测目标基因
用户可以通过查询基因符号检索预测结果。如果基因预测PPAR目标基因,查询将返回一个价值的信心水平。一个更大的值意味着更高的信心。高通量基因表达数据和假定的ppr列出支持的预测。例如,Klf15预测是PPAR目标基因(图在一个较高的信心3)。策划的预测是基于微阵列数据和ppr识别。PPAR激动剂WY14643和GW501516调节Klf15表达小鼠心脏和骨骼肌组织。此外,9所假定的ppr在鼠标Klf15 TSS侧翼地区被发现。六9 ppr的还发现老鼠Klf15,用星号标记。+ 1102的PPRE PWM最高得分(13.45)。因此,逻辑回归模型集成的基因表达信息和PWM得分最高的PPRE计算概率值()为0.84298,放置Klf15作为预测目标基因在高信任度的类别。
4.3。可下载的文件
用户可以下载数据集的实验验证PPAR目标基因以及计算预测目标基因。我们还提供超链接下载高通量实验数据集策划我们的预测模型。
5。未来的扩展
PPARgene在这个版本中,我们专注于管理和预测蛋白质编码的目标基因。最近的研究表明,PPARs调节非蛋白编码基因(26,27]。因此,未来的目标是预测PPARs非编码目标基因。我们还将开发方法来预测每个PPAR目标基因亚型。实验支持PPAR PPARgene数据库中的目标基因将每3个月更新一次。
6。结论
在这项研究中,我们描述了PPARgene,小说的数据库实验验证以及计算预测PPAR目标基因。通过集成在网上PPRE分析高通量基因表达数据,我们开发了一个有效的机器学习方法来预测小说PPAR目标基因在小鼠基因组中。我们认为PPARgene PPAR研究将是一个有用的工具。
相互竞争的利益
作者宣称没有利益冲突有关的出版。
确认
这项工作是由美国国家科学基金会的资助中国(31430045,31430045,81220108005)。