集成学习:筛选最佳生物标志物识别子痫前期胎盘信使rna样本

文摘

子痫前期(PE)是一种母性的疾病导致孕产妇和儿童死亡。治疗和预防措施不够健全。PE筛查吸引了大量关注的问题。本研究的目的是筛选胎盘mRNA获得最好的体育生物标志物识别PE患者。我们用R语言Limma筛选出48个差异表达基因correlation-based使用的最大差异和特征选择算法来降低维数,避免属性冗余带来太多的信使rna参与分类的样本。减少mRNA的属性后,信使rna样品从大到小排序根据信息增益。在这项研究中,一个分类器模型的目的是确定样品是否通过信使rna PE胎盘。提高分类的准确性,避免过度拟合,三个分类器,包括C4.5演算法,和多层感知器使用。我们使用多数投票策略结合的差异表达基因和基因筛选最佳子集方法比较方法来训练分类器。结果表明,分类准确率从79%上升到82.2%,和mRNA的数量特征从48公斤下降到13。 This study provides clues for the main PE biomarkers of mRNA in the placenta and provides ideas for the treatment and screening of PE.

1。介绍

子痫前期(PE)是一个怀孕特有综合症影响3 - 5%的孕妇和水肿,高血压和蛋白尿(1]。体育是一个多因素和多基因疾病,家族遗传倾向:假设母亲体育,体育的发病率在她女儿是20 - 40%。如果患者双PE、PE的发病率在其他双胞胎是22 - 47%。体育让女性更容易患上心血管疾病在以后的生活中,可能影响大脑的功能。然而,到目前为止,遗传模式尚不清楚。它仍然是一个主要因素在孕产妇和新生儿发病率和死亡率2]。唯一的治疗是终止妊娠和分娩的新生儿和胎盘(3]。虽然体育仍在讨论的原因,临床和病理的研究表明,这种综合症的发病机制的核心是胎盘(4]。胎盘是一个重要的器官共享的母亲和胎儿。它有重要的生物功能,如物质交换,新陈代谢,和屏障功能。胎盘功能异常会导致怀孕PE等疾病。许多生理生化过程与胎盘功能协调由蛋白质形成复杂网络在胎盘,RNA和蛋白质的生产要求参与。

PE的生物标志物的研究中,遗传因素是疾病的原因(5]。在朴素贝叶斯预测建模和路径分析,定量实时聚合酶链反应(存在)的结论是,胎盘与体育相关的基因通过基因检测6]。正常的胎盘绒毛的遗传标记可以表达病理学和PE (7]。临床相关的子分类识别的基因表达谱,胎盘(8]。

然而,信使rna研究胎盘,可作为生物标志物用于体育仍是不够的。信使RNA是一种直接指导蛋白质合成的模板,也就是说,从DNA, RNA传递遗传信息。信使rna为模板用于蛋白质合成的氨基酸序列基因表达的蛋白质,产生的肽链和蛋白质如VEGF、sFlt1, PlGF,, PAPP-A, PP13, HSP70和住宅显示某些预测或PE的诊断价值9)(审查)。这有助于体育的发病机制的理解。在这些研究中,我们可以推断,在胎盘异常mRNA的表达与PE的发生有关,而且有信使rna样本,可以用来识别PE。

传统的医疗方法一般只能找到一些生物标记,和疾病识别的准确性难以保证。机器学习表现良好特性过滤和处理大量的数据(10)(审查)和执行在RNA研究[11,12]。在这项研究中,分类算法可以用来检测PE的信使rna生物标记胎盘和屏幕的信使rna样本可以用作生物标记物在生物标记的数据集,以避免遗漏。通过融合多个分类器,提高算法的精度,减少了过度拟合。

2。材料和方法

2.1。数据源

GSE75010数据集实验中使用胎盘微阵列数据集5月16日公布的2016年为胎盘基因表达谱的分析。它是一个大型数据集包含的数据从7发表的研究( )(13]。这个数据集从地理数据库和下载包含基因表达数据从157年胎盘PE和173年胎盘没有体育。为了方便起见,我们选择157高度注释样本实验数据集模型和测试分类的效果。

2.2。差异表达基因的识别

标准化的微阵列数据14),GSE75010数据集从GEO数据库转换为下载log2 R3.4.1 Limma包。数据集是根据疾病状态分为两类:胎盘与体育和健康控制胎盘。基因表达矩阵进行比较的两组Limma包(15),被设置的阈值和。

2.3。特征选择

Correlation-based特征选择(CFS) (16基于过滤模式)是一种启发式算法。它可以提高分类效果评价特征之间的相关性以及特征和类别之间的关系。找到最优的特征子集,以避免冗余的功能。差异表达不一定属于信使rna信使rna样本样本与体育相关。CFS的目的是排除不相关的差异基因,同时避免太多的信使rna样本参与分类,从而提高分类的准确性。

代表的数量特征子集,代表平均相关性特征和类别,代表平均水平之间的相关特性。皮尔森相关系数(17是用来计算和,可以用来衡量两个变量之间的相关性,筛选出信使rna样本与体育相关。

提高分类效率最佳的子集,信息增益率算法在最优排序信使rna样本子集从大到小18]。它使分类器分类根据mRNA的数量信息,从而提高分类的准确性。这是一个由信息熵算法。公式如下:

表示的类别数 ,每个类别的比例特性在集。这个公式的结果代表了熵的信息由信使rna (19]。信息熵越小,数据集的纯净。

信息增益的值(20.决定是否可以使用这个信使rna属性将数据集。如果信息增益相对大,这个属性是一个更好的属性划分数据集。

信息增益是偏向选择特征值在同一个类别,但根据熵公式,功能越多,熵就越大。改变这种可怜的偏好的不利影响,本研究使用信息增益率(21)作为判断属性的划分方法。

最后,根据信使rna信息增益的结果,我们在最优排序的信使rna样本子集从最大到最小的训练分类器。一方面,信息增益率是一个衡量mRNA的重要性,另一方面,它可以作为一个节点C4.5分类器的选择准则。

2.4。分类算法设计

后过滤mRNA特性通过以上算法,为了方便样本分类,我们设计了一个合适的模型。训练模型可以使用信使rna样本作为属性来识别孕妇是否有体育。小样本数据集的缺点是,他们很容易overfit在分类、和整体学习的基本方法在一定程度上缓解这种情况。我们选择了三种不同的分类器作为subclassifiers。

Subclassifier我是C4.5 (22根据决策树,选择属性信息增益率和对小样本数据集有良好的分类效果。提高操作效率,这C4.5决策树生成的二叉树的形式。

Subclassifier II是一个多层感知器(23]。多层感知器不断更新权重通过反向传播(BP)算法。的学习速率过低可以大大提高模型的训练时间,和学习速率过大可能导致underfitting,所以学习速率设置为0.3。标准BP算法修正权重时,动量因子添加到每个重量变化,防止陷入局部最小值的多层感知器,和动量因子设置为0.2。动量因子值相反的价值最后体重变化,从而影响了新的重量变化基于BP方法。信使rna的数量属性设置为隐层节点的数目,初始化训练的迭代的数量到500年,网络是重置学习速率较低。如果网络偏离了答案,它会自动重启和重新培训学习速率较低。

网络将每个数据点映射到一个区间(0,1)或(1,0)来实现分类的影响。

Subclassifier III是决定树桩24)集成通过演算法(25]。学习演算法修改分类器和样本权重通过不断迭代训练数据集和集成许多弱分类器变成一个强分类器,如以下公式所示:

代表弱分类器的数量,代表的重量 - - - - - -th弱分类器代表的预测结果 - - - - - -弱分类器。最终的分类决策规则如下:

最后,我们使用多数表决subclassifiers集成。这是一个整体的方法,使用大多数subclassifiers的输出结果作为最终的分类结果。模型和算法都是建在Weka 3.8.4 [26]。

2.5。评估标准

交叉验证(简历)27,28),有时被称为旋转估计,是一种统计方法提出了西摩盖斯数据样本切成更小的子集。对于小样本数据,简历在一定程度上可以避免过度拟合,使训练模型更通用的,健壮的,准确的。本实验使用10倍CV方法训练模型,也就是说,数据集分为十个部分,其中每个9不同部分的培训和使用一个验证模型来确保所有的数据集进行测试。十倍的简历如图的想法1。

为了便于讨论,我们设置了胎盘与PE正样本和健康胎盘负样本。我们使用以下指标作为评估的标准分类器(29日- - - - - -35]:

特异性和敏感性都是成功的模式分类的指标。特异性诊断的概率是一个指示器,措施,和敏感是一个指示器,措施分类模型的识别能力。我们也介绍了曲线下的面积(AUC)作为指标来衡量模型的有效性。AUC是接收者之间的区域操作曲线(ROC)和坐标轴。它的值是在区间(0.5,1)。AUC值越接近于1,分类器是越好。

3所示。结果与讨论

微分基因分析的结果是由火山情节图表示2(绿色表示mRNA表达相对较低,红色代表相对较高的mRNA表达,和灰色表示未分化的信使rna样本)。

图3下面显示了48的相对表达水平差异基因筛选Limma preeclamptic胎盘,在图中表示为PE,和控制健康胎盘,表示在图中控制(绿色表示mRNA表达相对较低和红色表示相对较高的mRNA表达)。

48个差异基因筛选后,CFS是用于过滤mRNA,去除无关紧要的mRNA和冗余的信使rna。获得了最佳子集组成的13 mRNA属性(HTRA4、PROCR MYCN, ERO1A, EAF1, PPP1R16B, CRH, FLNB, PIK3CB, PLAAT3, FBN2, RFLNB,和TKT)。结果,从大到小的排序信息增益率,PIK3CB, HTRA4, ERO1A, PPP1R16B, PROCR, CRH, FLNB, PLAAT3, FBN2, EAF1, TKT RFLNB, MYCN。在表中,体育代表一个样本的PE患者,控制代表一个样本的健康孕妇作为对照组,和平均表示两组数据的平均值。分类结果来自信使rna样本训练最好的子集模型(见表1)。


	TP / TN	FP / FN	精度	回忆	AUC

体育	0.788	0.143	0.851	0.788	0.822
控制	0.857	0.213	0.795	0.857	0.822
平均	0.822	0.177	0.824	0.822	0.822

接下来,我们使用48差异表达信使rna样本没有处理慢性疲劳综合症(原来的差异表达信使rna样本)来训练模型和测试分类的效果。结果如下(见表2):


	TP / TN	FP / FN	精度	回忆	AUC

体育	0.763	0.182	0.813	0.763	0.790
控制	0.818	0.238	0.768	0.818	0.790
平均	0.790	0.209	0.791	0.790	0.790

表2表明样本被正确分类为PE的可能性是0.763,和整体模型的分类结果的准确性是0.790。

通过比较两组的实验结果,可以看出最优的准确性mRNA的子集是0.822,正确分类的PE样品增加了从61年到63年,和正确分类控制样品已经从63增加到66。

然而,是不全面的基于分类精度选择最好的生物标志物。我们也使用召回、精度和AUC分类标准获得更全面的结果。

值得注意的是,回忆、精度和AUC达到了最大值表1;特异性增加从0.818到0.857,灵敏度增加从0.763到0.788(见下表3),它可以被视为高特异性和敏感性。


	特异性	灵敏度

原始	0.818	0.763
最优	0.857	0.788

在体育的研究,积极的生物标记的准确性发现Zeisler等人是不超过50%36,积极的mRNA我们体育生物标志物筛选的准确性达到了0.788。

实验表明,使用CFS过滤属性也适用于信使rna。减少mRNA维度后,所有指标,对提高分类效果有积极的意义。

研究的Mehmood et al .,投票积分法和CFS算法也用来实现理想的结果。虽然类似的算法在不同的数据集可能有非常不同的结果,在这个实验中,CFS算法可以排除不相关的差异基因,可以避免相关的信使rna样本的冗余,并能保持最大的独立性之间的属性,这对我们的研究是必要的(37]。

在这项研究中,使用信息增益率分析微分基因可以使测量的信息量,信使rna携带疾病的结果。各种分类算法用于测试mRNA和体育之间的关系,我们使用胎盘信使rna识别PE。也进行了分析和比较。

我们分析了信息增益率最高的mRNA在最好的子集通过基因和基因组的京都百科全书(KEGG)途径,结果表明mRNA的表达(PIK3CB和OCRL)与磷酸肌醇代谢和磷脂酰肌醇信号系统。这可能是有关体育的生化过程。

4所示。结论

近年来,在基因的分类和筛选,它常常只可能获得一个通过差异基因表达分析结果。虽然这个结果可能与体育有关,诊断效果可能不够。然而,随着机器学习的发展,使用功能工程可以更好的提高分类效率,并使用一个适当的分类模型可以直观地反映出分类效果和间接反映属性选择的优点和缺点。因此,在分析差异表达基因,提高分类效果,我们使用了一个基于相关性的特征选择算法降维的标准。为了获得更好的结果,我们设计了一个分类模型基于投票机制来解决小样本数据集的特点,容易过度拟合。最后,我们使用13信使rna样本属性获得令人满意的结果。当训练模型,我们使用10倍的简历增强模型的鲁棒性。

结果表明,82.2%的精度是通过13个信使rna样本筛选,特异性和灵敏度达到0.857和0.788,分别。模型的召回是0.822,精度0.824,AUC值达到0.822。这些指标反映,该模型具有良好的鲁棒性和泛化能力。

通过KEGG分析基因的表1,PIK3CB OCRL被发现参与磷酸肌醇代谢和硅醇磷脂酰肌醇信号系统。这可以解释的原因从一个角度和PE为体育未来的治疗提供线索。

CFS的最佳子集选择算法评估的皮尔森系数,但皮尔森系数无法筛选出重要的信使rna样本非线性相关的体育。如何选择最优的信使rna样本子集包含非线性相关性仍在讨论中。

数据可用性

体育数据集在这个研究可以从下载https://www.ncbi.nlm.nih.gov/geo/。

的利益冲突

作者宣称没有利益冲突有关的出版。

作者的贡献

丹·刘和Zhixia腾的构思和设计这个项目。荣郭和调整的数据模型,分析菏泽徐收集信息,和王一丁鑫周写的论文。荣郭和丹刘贡献同样这项工作。

确认

这项工作是支持部分由中国国家自然科学基金(批准号61901103)。

引用

a . Filipek和大肠Jurewicz子痫前期——一种疾病的孕妇。”Postepy Biochemii,卷64,不。4、229 - 232年,2018页。视图:出版商的网站|谷歌学术搜索
r·朗道和o .铁”,近期数据的生理病理学治疗子痫前期和建议,“瑞士Revue医学研究院,1卷,不。4、290 - 292年,2005页。视图:谷歌学术搜索
a . Bokslag m . van Weissenbruch b·w·摩尔和c . j . m . de Groot“子痫前期:对母亲和新生儿的短期和长期后果,”早期人类发展卷。102年,47-50,2016页。视图:出版商的网站|谷歌学术搜索
s . Rana e·莱莫恩j . p .格兰杰和s . a . Karumanchi“子痫前期:病理生理学,挑战,和观点。”循环研究,卷124,不。7,1094 - 1112年,2019页。视图:出版商的网站|谷歌学术搜索
p . j . b . PridjianG”子痫前期。第二部分:实验和遗传因素,”产科和妇科的调查卷,57号9日,第640 - 619页,2002年。视图:出版商的网站|谷歌学术搜索
s . a .创建y·康利j·f·里昂维勒,a . Jeyabalan w·a . Hogge和k·p·康拉德,“改变全球基因表达在妊娠前三个月胎盘的女性注定要发展子痫前期,“胎盘,30卷,不。1、15 - 24,2009页。视图:出版商的网站|谷歌学术搜索
k·列维,s·j·本顿,d . Grynspan s a·班布里奇e·k·摩根和b·j·考克斯”Genemarkers正常绒毛成熟及其表达式在胎盘成熟病理学,”胎盘卷,58 52-59,2017页。视图:出版商的网站|谷歌学术搜索
k·列维,s·j·本顿,d . Grynspan j . c .王国,s . a·班布里奇和b·j·考克斯,“无人监督的胎盘基因表达分析识别人类子痫前期的临床相关的子类,”高血压,卷68,不。1,第147 - 137页,2016。视图:出版商的网站|谷歌学术搜索
他,y, y, r·李,“潜在的蛋白质生物标记对子痫前期,”Cureus,12卷,不。6篇文章e8925 2020。视图:出版商的网站|谷歌学术搜索
王殿下,w . j . Wang崔h . n . c .钟和p . Ping,“机器学习生物医学大数据和综合分析,“基因,10卷,不。2,p。87年,2019年。视图:出版商的网站|谷歌学术搜索
Sagar和雪,“最近的进步基于机器学习的rna蛋白质相互作用的预测,”蛋白质和多肽的信件,26卷,不。8,601 - 619年,2019页。视图:出版商的网站|谷歌学术搜索
d . Goksuluk g . Zararsiz s Korkmaz et al .,“LSeq:机器学习界面RNA-sequencing数据。”计算机在生物医学方法和项目卷,175年,第231 - 223页,2019年。视图:出版商的网站|谷歌学术搜索
k·列维,s l·威尔逊,美国a·班布里奇w·p·罗宾逊和b·j·考克斯,“表观遗传调控子痫前期胎盘基因表达的转录子类型,“临床实验胚胎学,10卷,不。1,p。28日2018。视图:出版商的网站|谷歌学术搜索
g·k·史密斯,”Limma:微阵列数据的线性模型”生物信息学和计算生物学的解决方案使用R和Bioconductor,生物学和卫生统计数据施普林格,页397 - 420年,纽约,纽约,美国,2005年。视图:出版商的网站|谷歌学术搜索
吴m·e·里奇Phipson, d . et al .,“Limma权力RNA-sequencing和微阵列研究微分表达式分析”核酸的研究,43卷,不。7篇文章e47 2015。视图:出版商的网站|谷歌学术搜索
b .野生动物,w .太阳,j .公园等。DUBStepR: correlation-based集群RNA单细胞测序数据的特征选择,2020年bioRxiv。视图:出版商的网站
苏j·j·歌,y . d . Liu, d .元,f .太阳,和j .朱”系统分析可变剪接的签名揭示肾肾透明细胞癌预后预测,“细胞生理学杂志,卷234,不。12日,第22764 - 22753页,2019年。视图:出版商的网站|谷歌学术搜索
j·戴,徐问:"属性选择基于信息增益率的模糊粗糙集理论应用于肿瘤分类、”应用软计算,13卷,不。1,第221 - 211页,2013。视图:出版商的网站|谷歌学术搜索
答:摩纳哥,大肠佛罗伦萨:Amoroso et al .,“潜在的基因标志物的通过一个信息entropy-based帕金森病的方法,”物理生物学第016003条,卷。18日,2021年。视图:出版商的网站|谷歌学术搜索
巴都尔c和b . Diri序列使用系综分类基于信息增益特征组基因选择框架,”第八届国际先进技术研讨会(iat 17)2017年10月,Elazığ,土耳其,。视图:谷歌学术搜索
f . Ghasemi b s Neysiani, n . Nematbakhsh”特征选择在确诊之前心脏冠状动脉疾病检测:启发式方法基于信息增益的特征选择比和基尼指数”2020年第六届国际会议上网络研究(ICWR)2020年4月,德黑兰,伊朗。视图:出版商的网站|谷歌学术搜索
Z.-H。周和y江”,医学诊断与C4。5规则之前人工神经网络集成的。”IEEE在生物医学信息技术,7卷,不。1,37-42,2003页。视图:出版商的网站|谷歌学术搜索
j . Yun j . e .公园,h·李,美国火腿、金、金和h . s .,“Radiomic特性和多层感知器网络分类器:一个健壮的MRI分类策略区分胶质母细胞瘤和原发性中枢神经系统淋巴瘤,”科学报告,9卷,不。1、第5746条1 - 10,2019页。视图:出版商的网站|谷歌学术搜索
r . Lalmawipuii m . s . Dawngliani:•钱德拉塞卡兰和h . Thangkhanhau”比较决策树学习算法使用乳腺癌数据,”国际会议进行计算机网络、大数据和物联网(ICCBI - 2019)。ICCBI 2019。数据工程与通信技术上的课堂讲稿,49卷a . Pandian r Palanisamy, k . Ntalianis Eds。施普林格,可汗,2019年。视图:出版商的网站|谷歌学术搜索
问:黄、陈y l . Liu d·道和李x”在结合biclustering采矿和乳腺肿瘤分类演算法,”IEEE工程知识和数据,32卷,不。4、728 - 738年,2019页。视图:出版商的网站|谷歌学术搜索
a . Maheshwari和p . Chakrabarti机器学习分类器和神经建模的角度为地中海贫血患者超声心动图在上下文中儿童年龄组,”批判性的评论》杂志上,7卷,不。9日,第1149 - 1144页,2020年。视图:出版商的网站|谷歌学术搜索
x,“过度拟合的概述及其解决方案,”物理学杂志》:会议系列,卷1168,不。2、第022022条,2019年。视图:出版商的网站|谷歌学术搜索
r·a·彼得森和j·e·瓦诺,”命令分位数正常化:半参数转换为交叉验证的时代,“应用统计学杂志》卷,47号13 - 15,2312 - 2327年,2020页。视图:出版商的网站|谷歌学术搜索
董x分钟,m, d . et al .,“不确定型mri radiomics签名区分临床上重要的和无关紧要的前列腺癌:交叉验证的机器学习方法,“欧洲放射学杂志,卷115,不。2019年,16,2019页。视图:出版商的网站|谷歌学术搜索
'Abramo c d, l d 'Adamio, l . Giliberto”意义的血液和脑脊液生物标志物对阿尔茨海默氏症:敏感性,特异性和临床使用潜力,”个性化医学杂志》,10卷,不。3,p。116年,2020年。视图:出版商的网站|谷歌学术搜索
邓y、x, y秋j .夏w·张,和刘,“多通道深度学习框架,用于预测药物之间相互作用事件,“生物信息学,36卷,不。15日,第4322 - 4316页,2020年。视图:出版商的网站|谷歌学术搜索
w·张,z, w•郭w·杨和f .黄,“快速线性邻域相似性网络链接推理方法来预测microRNA-disease协会”IEEE / ACM事务计算生物学和生物信息学,p . 2019。视图:谷歌学术搜索
w·张,k,黄f . et al .,“SFLLN:稀疏特性学习整体方法和线性正则化街区,预测药物之间的相互作用,”信息科学卷,497年,第201 - 189页,2019年。视图:出版商的网站|谷歌学术搜索
y赵,f·王,陈,j . Wan和g·王,“微rna的方法启动子预测和转录因子介导的监管网络,”生物医学研究的国际卷,2017篇文章ID 7049406、8页,2017。视图:出版商的网站|谷歌学术搜索
r . l . Cheng p . Wang田et al .,“LncRNA2Target v2.0:一个全面的数据库lncRNAs目标基因的人类和老鼠,”核酸的研究卷,47号D1, D140-D144, 2019页。视图:出版商的网站|谷歌学术搜索
h . Zeisler e . Llurba f . Chantraine et al .,“sFlt-1的预测价值:PlGF比女性怀疑子痫前期,“《新英格兰医学杂志》上,卷374,不。1,13-22,2016页。视图:出版商的网站|谷歌学术搜索
y Mehmood, m .人士m·塔里克和m . a . Jaffar”分类器集合使用遗传算法优化性别分类,”2010年国际会议信息和新兴技术,页1 - 5,卡拉奇,巴基斯坦,2010年6月。视图:出版商的网站|谷歌学术搜索

计算和数学方法在医学

计算智能的医疗保健

文摘