PPAR研究

在这一页上

文摘介绍方法结果与讨论结论确认引用版权相关文章

研究文章|开放获取

体积2016年| 文章的ID6042162| https://doi.org/10.1155/2016/6042162

PPARgene:数据库的实验验证和计算预测PPAR目标基因

李方,¹ 张的人,¹ Yanhui李,¹ 刘燕,¹ 清华崔,² 和南平王 ^1、3

学术编辑器: 托德列夫

收到了 2016年1月21日

接受 2016年3月24日

发表 2016年4月11日

文摘

的过氧物酶体proliferator-activated受体配体依赖性转录因子(PPARs)是核受体超家族。配体结合后,PPARs激活靶基因转录调节多种重要的生理过程如脂质代谢、炎症、伤口愈合。在这里,我们描述的第一个数据库PPAR目标基因,PPARgene。在225年证实PPAR目标基因,PPAR的83人α83是PPARβ/δ,104是PPARγ。详细信息包括组织类型、物种和PubMed id也提供了参考。此外,我们开发了一种机器学习的方法来预测小说PPAR目标基因通过集成在网上PPAR-responsive元素(PPRE)与高通量基因表达数据分析。5倍交叉验证表明,该预测方法的性能相比显著提高在网上PPRE分析方法。预测工具也在PPARgene数据库实现。

1。介绍

过氧物酶体proliferator-activated受体配体依赖性转录因子(PPARs)属于核受体超家族。PPARs形式与类维生素a X受体(RXR)形成和控制基因表达被绑定到特定的PPAR-responsive元素(ppr)目标基因启动子(1]。PPARs扮演关键角色的脂质和糖代谢,炎症、伤口愈合和其他许多病理生理过程(2- - - - - -5]。合成PPAR配体,如一类thiazolidinediones,用于临床治疗血脂异常和2型糖尿病,分别为(6]。

广泛的研究已经证明了各种目标基因受个人PPAR亚型。因此,构建一个数据库的全面收集之前验证PPAR目标为每个亚型基因将有利于PPAR的研究。在这项研究中,我们首先建立了一个数据库PPAR的目标基因,PPARgene。实验验证了PPAR目标基因手动策划和详细信息包括PPAR亚型,组织类型,物种,PubMed IDs提供参考。

最近,高吞吐量的应用技术,如微阵列产生了许多PPAR-induced基因表达数据集,免费的公共数据库。通过集成在网上PPRE用高通量基因表达数据分析,我们开发了一种机器学习的方法来预测小说PPAR目标基因。实现的预测工具也是PPARgene数据库(http://www.ppargene.org/)。

2。方法

2.1。数据收集

2.1.1。实验验证了PPAR目标基因的集合

PPAR-related出版物获得来自PubMed数据库使用关键字“PPAR”,“PPARα”,“PPARβ”、“PPAR三角洲”,“PPARγ”或“过氧物酶体扩散国”(评论文章被排除在外)。然后我们策划PPAR手动和检索的数据目标基因如果基因调控实验证据(mRNA和/或蛋白质含量)和功能性PPRE(记者试验和/或dna结合蛋白化验)都是报道。

2.1.2。PPAR-Relevant微阵列数据集的集合

PPAR-relevant微阵列数据集被搜索了GEO数据库(7使用关键字”PPAR”、“PPAR阿尔法”,“PPARβ”、“PPAR三角洲”,“PPARγ”或“过氧物酶体扩散国”。我们手动策划22 PPARs被激活或过表达的数据集。

2.2。特征提取

2.2.1。高吞吐量的证据(包括)

获得高通量实验证据支持PPAR目标基因的相互作用,我们收集PPARs被激活或过表达的微阵列。原始数据收集的微阵列处理使用r程序Bioconductor [8]。基因的奉送价值被定义为数据集的总数除以数量数据集的这个基因调节(日志₂褶皱变化> 0.5)。

2.2.2。PPRE得分(PS)

参考基因组的鼠标(GRCm38)和老鼠(Rnor_6.0)从NCBI下载。根据先前的研究9- - - - - -12],ppr位于5 kb上游或下游的转录起始站点(TSS)在大多数情况下。因此,我们提取−5 kb ~ + 5 kb TSS侧翼序列参考基因组的所有老鼠和老鼠基因识别,可以根据基因组基因ID坐标。

潜在的ppr进行扫描在网上使用位置权重矩阵(PWM)模型,它被广泛用于描述基因元素(13,14]。自三个亚型PPARs绑定到一个共同的核心共识序列,我们没有区分不同亚型之间的结合位点和使用PPAR的位置频率矩阵(PFM)γrxrα异质二聚体从JASPAR检索数据库(ID: MA0065.2) (15PPRE]计算PWM。PWM和前面描述的计算(16]。简单地说,我们计算PWM值在哪里PWM基础的价值吗在适当的位置,背景的概率基础吗在基因组是概率的基础在适当的位置。Pseudocount值(√网站的数量)被添加到每个基地抚平小样本的影响。假定的序列的PWM得分的总和计算PWM值中的每个核苷酸序列。为每一个基因可通过Entrez ID在小鼠基因组中,我们假定的扫描ppr TSS侧翼序列的两条链的PWM分数截止4.56最初(相对于前PWM分数70%)。基因的PS值被定义为PWM得分最高的ppr确定这种基因。

2.2.3。守恒PPRE得分(CPS)

进化的保护已被用作有效的改善管理主题的特异性识别过滤器(17- - - - - -19]。我们进行比较基因组分析来识别守恒的ppr。成对的直系同源基因在老鼠和老鼠从NCBI HomoloGene检索数据库。TSS侧翼序列(−5 kb ~ + 5 kb)的同源基因对一致用megaBLAST缺省参数(奖励= 1,字大小= 28日不匹配点球=−2,缺口打开点球= 0,和缺口扩展点球= 2.5)(20.,21]。比对少于50个基点或一个值> 0.001被丢弃。对于每个同源基因,我们扫描的假定的ppr TSS侧翼序列的PWM分数截止4.56。一对公认的ppr被确认为守恒PPRE如果他们匹配的成对排列。基因的CPS价值被定义为PWM得分最高的守恒的ppr确定这种基因。

2.3。模型训练和评估

2.3.1。预测模型的训练集

实验验证靶基因PPARgene数据库中收集被定义为积极的训练样本。然而,很难证明PPARs基因并不是一个目标基因的任何条件。因此,我们通过随机获得负面的训练样本选择相同数量的基因背景的数据集,它包含所有蛋白质编码基因不包括积极的样本。为了避免抽样偏差,我们采样的负面数据集100倍,然后结合每个消极与积极的数据集的数据集训练分类器。

2.3.2。逻辑回归分类器

我们使用二项逻辑回归模型预测PPAR目标基因。所有小鼠蛋白质编码基因与HomoloGene数据库ID分类根据上述特性的组合。让的概率基因是PPAR的目标基因,让的概率是事实并非如此。逻辑回归模型在哪里回归系数的特性。实现使用的逻辑回归模型的广义线性模型(GLM)函数R (22]。

2.3.3。绩效评估

我们用5倍交叉验证逻辑回归模型的性能进行评估。在每一轮中,20%的样本,测试数据和剩下的训练数据。精度、召回和分数被用来评估分类器的性能。精度、召回和被计算成在哪里是真阳性的数量,假阳性的数量,是假阴性的数量。我们也计算了AUC,接受者操作特征(ROC)曲线下的面积,使用ROCR包(23]。因为消极的数据集获得的100个随机取样、精度等级的中位数,回忆说,100年代,auc的训练结果。

2.4。Web服务器

所有数据被组织使用MySQL,一个开源关系数据库管理系统。该网站提出了使用PHP。PPARgene数据库是免费的http://www.ppargene.org/。

3所示。结果与讨论

3.1。实验验证了PPAR目标基因

在这项研究中,我们开发了一个数据库PPAR目标基因。我们策划PPAR目标基因手动从9046年PPAR-related出版物。PPARgene数据库现在包含225实验验证PPAR目标基因,其中包括83 PPAR目标基因αPPAR 83目标基因β/δ,104 PPAR的基因γ。四十基因至少两个PPAR亚型的共同目标。详细信息包括组织、物种、参考PubMed id,和超链接到原始文章在PubMed数据库还提供。

3.2。代的逻辑回归模型预测PPAR目标基因

我们生成的逻辑回归模型来预测小说PPAR目标基因。训练逻辑回归模型,实验验证目标基因作为正面例子。相同数量的负面例子从背景中随机抽样得到的基因集。自三PPAR亚型绑定到一个守恒的核心序列和分享一些共同的目标基因(24),我们目前没有区分亚型在我们的预测模型。

首先,我们只生成的预测模型的基础上在网上PPRE识别使用标准位置权重矩阵(PWM)模型(16]。因为功能ppr也发现在下游地区的TSS9- - - - - -12,25),我们扫描ppr在上游和下游地区。基因预测目标基因或不根据PWM分数(PS)。5倍交叉验证被用来评估该模型的性能。如表所示1中位数精度,记得,,AUC是0.57,0.49,0.52,和0.59,分别。性能很差,这可能是由于大量的虚假的ppr预测。据报道,保护监管区域可以用来提高预测特异性(17- - - - - -19]。我们下一个执行的比较基因组分析识别假定的ppr守恒的老鼠和老鼠。直系同源基因然后根据保守机密PPRE得分(CPS)。如表所示1中位数精度,记得,,AUC是0.61,0.68,0.64,和0.68,分别表示一个更好的性能。

而不是在网上结合位点的预测,实验数据集提供基因调控的直接证据。最近,高通量技术产生了大量的公共可用PPAR-relevant基因表达谱。因此,我们收集PPAR-gain-of-function微阵列数据集从GEO数据库并提取基因调控的证据。逻辑回归模型是基于守恒的组合生成PPRE得分和高吞吐量的证据。如表所示1中位数精度,记得,,AUC是0.61,0.68,0.64和0.68。性能大大提高。ROC曲线预测模型还显示改善的性能(图1)。

3.3。PPAR目标基因的全基因组预测

我们预测PPAR目标基因的18716个同源基因在小鼠基因组使用预测模型的基础上,结合守恒PPRE分数和高吞吐量的证据。我们分类预测目标基因导入3根据信心水平值(PPAR目标基因的概率)(图2)。总的来说,2683个基因预测潜在PPAR目标基因,448个基因在高信任度类别(),803个基因在median-confidence类别(),1432个基因在低(高灵敏度)类别()。基因与值≤0.45被预测为负。预测PPAR目标基因的完整列表中可用PPARgene网站。

4所示。查询数据库

PPARgene数据库由两个模块组成:一个是查询实验验证靶基因,另一个是查询计算预测目标基因。

4.1。实验验证靶基因

我们为用户提供两种方式查询实验验证靶基因。首先,用户可以浏览结果通过选择PPAR亚型。PPARgene将返回一个表匹配的条目。用户还可以提交一个特定基因的象征。提供的结果包含以下项目:PPAR亚型,基因符号,物种,组织/细胞类型、监管方向,参考PubMed id。

4.2。计算预测目标基因

用户可以通过查询基因符号检索预测结果。如果基因预测PPAR目标基因,查询将返回一个价值的信心水平。一个更大的值意味着更高的信心。高通量基因表达数据和假定的ppr列出支持的预测。例如,Klf15预测是PPAR目标基因(图在一个较高的信心3)。策划的预测是基于微阵列数据和ppr识别。PPAR激动剂WY14643和GW501516调节Klf15表达小鼠心脏和骨骼肌组织。此外,9所假定的ppr在鼠标Klf15 TSS侧翼地区被发现。六9 ppr的还发现老鼠Klf15,用星号标记。+ 1102的PPRE PWM最高得分(13.45)。因此,逻辑回归模型集成的基因表达信息和PWM得分最高的PPRE计算概率值()为0.84298,放置Klf15作为预测目标基因在高信任度的类别。

4.3。可下载的文件

用户可以下载数据集的实验验证PPAR目标基因以及计算预测目标基因。我们还提供超链接下载高通量实验数据集策划我们的预测模型。

5。未来的扩展

PPARgene在这个版本中,我们专注于管理和预测蛋白质编码的目标基因。最近的研究表明,PPARs调节非蛋白编码基因(26,27]。因此,未来的目标是预测PPARs非编码目标基因。我们还将开发方法来预测每个PPAR目标基因亚型。实验支持PPAR PPARgene数据库中的目标基因将每3个月更新一次。

6。结论

在这项研究中,我们描述了PPARgene,小说的数据库实验验证以及计算预测PPAR目标基因。通过集成在网上PPRE分析高通量基因表达数据,我们开发了一个有效的机器学习方法来预测小说PPAR目标基因在小鼠基因组中。我们认为PPARgene PPAR研究将是一个有用的工具。

相互竞争的利益

作者宣称没有利益冲突有关的出版。

确认

这项工作是由美国国家科学基金会的资助中国(31430045,31430045,81220108005)。

引用

j·伯杰和d·e·穆勒”PPARs行动的机制”,年度回顾医学53卷,第435 - 409页,2002年。
视图: 出版商的网站 | 谷歌学术搜索
y, y, z唐et al .,“抑制炎性粘连分子PPAR -δ在人类血管内皮细胞动脉硬化、血栓和血管生物学,28卷,不。2、315 - 321年,2008页。
视图: 出版商的网站 | 谷歌学术搜索
f·s·哈曼,c·j·尼科尔·h·e·马林j·m·沃德·j·冈萨雷斯和j·m·彼得斯“过氧物酶体proliferator-activated receptor-delta变弱结肠致癌作用,”自然医学,10卷,不。5,481 - 483年,2004页。
视图: 出版商的网站 | 谷歌学术搜索
n, l·弗娜N.-G。Chen等人“过氧物酶体本构激活proliferator-activated受体-γ抑制促炎在人类血管内皮细胞粘附分子,”生物化学杂志,卷277,不。37岁,34176 - 34181年,2002页。
视图: 出版商的网站 | 谷歌学术搜索
y。王,“PPARs:不同的监管机构能量代谢与代谢疾病,”细胞研究,20卷,不。2、124 - 137年,2010页。
视图: 出版商的网站 | 谷歌学术搜索
b . Staels J.-C。Fruchart”治疗的角色过氧物酶体proliferator-activated受体受体激动剂,”糖尿病,54卷,不。8,2460 - 2470年,2005页。
视图: 出版商的网站 | 谷歌学术搜索
p·t·巴雷特,s e -威尔特勒杜et al .,“sets-update NCBI GEO:存档功能基因组学数据,”核酸的研究第41卷。。1,D991-D995, 2013页。
视图: 出版商的网站 | 谷歌学术搜索
r . c .绅士,v . j .凯莉·d·m·贝茨et al .,“Bioconductor:计算生物学和生物信息软件开发开放,”基因组生物学,5卷,不。10篇文章R80 2004。
视图: 出版商的网站 | 谷歌学术搜索
张Lefterova, y, PPAR d . j . Steger et al。。γ和C / EBP因素编排脂肪细胞生物学通过相邻绑定在全基因组范围内,“基因和发展,22卷,不。21日,第2952 - 2941页,2008年。
视图: 出版商的网站 | 谷歌学术搜索
r·尼尔森,t。彼得d Hagenbeek et al .,”PPAR的全基因组分析γ:RXR和RNA聚合酶II入住率揭示颞激活不同的代谢途径和RXR在脂肪生成二聚体成分的变化,“基因和发展,22卷,不。21日,第2967 - 2953页,2008年。
视图: 出版商的网站 | 谷歌学术搜索
d·l·m·范德梅尔t . Degenhardt s Vaisanen et al .,“分析启动子被PPAR入住率α在人类肝癌细胞通过ChIP-chip分析”,核酸的研究,38卷,不。9日,第2850 - 2839页,2010年。
视图: 出版商的网站 | 谷歌学术搜索
t . Adhikary a . Wortmann t·舒曼et al .,“转录PPARβ/δ网络在人类巨噬细胞激活状态,定义了一个独特的agonist-induced”核酸的研究,43卷,不。10日,5033 - 5051年,2015页。
视图: 出版商的网站 | 谷歌学术搜索
g . d . Stormo”和发现DNA结合位点:表示,“生物信息学,16卷,不。1,16-23,2000页。
视图: 出版商的网站 | 谷歌学术搜索
m . l . Bulyk“计算预测转录因子结合位点的位置,”基因组生物学,5卷,不。1,第201条,2003。
视图: 出版商的网站 | 谷歌学术搜索
a . Mathelier x赵,a . w . Zhang et al .,“JASPAR 2014:一个广泛扩展和更新开放获取的转录因子数据库绑定资料,”核酸的研究,42卷,不。1,D142-D147, 2014页。
视图: 出版商的网站 | 谷歌学术搜索
w·w·沃瑟曼和a . Sandelin”监管元素的识别应用生物信息学,”自然遗传学评论,5卷,不。4、276 - 287年,2004页。
视图: 出版商的网站 | 谷歌学术搜索
a . Sandelin w·w·沃瑟曼,b . Lenhard”ConSite:基于网络的预测使用跨物种的监管元素比较,”核酸的研究32卷,W249-W252, 2004页。
视图: 出版商的网站 | 谷歌学术搜索
x谢,j . Lu e . j . Kulbokas et al .,“系统监管主题发现在人类启动子和3′utr几种哺乳动物相比,“自然,卷434,不。7031年,第345 - 338页,2005年。
视图: 出版商的网站 | 谷歌学术搜索
a·斯塔克,m·f·林,p . Kheradpour et al .,“发现12的功能元素果蝇使用进化基因组签名。”自然,卷450,不。7167年,第232 - 219页,2007年。
视图: 出版商的网站 | 谷歌学术搜索
z, s . Schwartz, l·瓦格纳和w·米勒,“调整DNA序列的贪婪算法,”计算生物学杂志》上,7卷,不。1 - 2、203 - 214年,2000页。
视图: 出版商的网站 | 谷歌学术搜索
c·卡马乔g . Coulouris诉Avagyan et al .,“爆炸+:体系结构和应用程序,”BMC生物信息学第421条,卷。10日,2009年。
视图: 出版商的网站 | 谷歌学术搜索
r . c .团队,接待员:统计计算的语言和环境,R统计计算的基础,维也纳,奥地利,2015年。
t .唱歌,o·桑德:Beerenwinkel, t . Lengauer”R, ROCR:可视化分类器性能”生物信息学,21卷,不。20日,第3941 - 3940页,2005年。
视图: 出版商的网站 | 谷歌学术搜索
m . Rakhshandehroo b . Knoch m·穆勒和美国Kersten说道,“过氧物酶体proliferator-activated受体α目标基因,”PPAR研究文章ID 612089卷,2010年,20页,2010年。
视图: 出版商的网站 | 谷歌学术搜索
A . Bugge m . Siersbæk m . s .马德森,刚铎,c·鲁吉尔和美国Mandrup小说intronic过氧物酶体proliferator-activated受体γ解偶联蛋白强化剂(跟单信用证3两UCP2基因作为管理者,在脂肪细胞表达,“《生物化学》杂志上,卷285,不。23日,第17317 - 17310页,2010年。
视图: 出版商的网站 | 谷歌学术搜索
K.-J。林阴,z邓,m . et al .,“过氧物酶体proliferator-activated受体δ监管的miR-15a ischemia-induced大脑血管内皮损伤,”神经科学杂志》上,30卷,不。18日,第6408 - 6398页,2010年。
视图: 出版商的网站 | 谷歌学术搜索
x x方,方l ., a . Liu, b .赵和n .王”激活PPAR-delta诱发微rna - 100和极低密度脂蛋白的摄取减少内皮细胞,”英国药理学杂志》上的报告,卷172,不。15日,第3736 - 3728页,2015年。
视图: 出版商的网站 | 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

9147年

下载

2249年

引用