文摘

近年来,蓬勃发展的大数据的发展,云计算、物联网等技术为智能城市的推广和应用提供了条件。大数据和医疗信息产生的新兴领域WITMED(地中海的智慧信息技术)。WITMED智能城市的繁荣发展是至关重要的,假设一个高质量的医疗服务是城市政府最具挑战性的目标。在这篇文章中,主要关注靶向基因治疗的方法,它提供了一种新方法治疗口腔癌的抑制生长,分化,入侵和口腔癌细胞的转移;因此,手术和化疗的生理和心理的不良影响减少病人和患者的生存及预后改善。靶向基因治疗方法需要选择适当的基因;数据挖掘方法,用于分析大量的复杂的基因数据智能城市获得适当的遗传标记,这使得靶向基因治疗的效果更好,同时也提供了一些参考口腔癌症基因的研究方向,为临床治疗提供一些依据。

1。介绍

智能城市是使用先进的信息技术,实现城市智能管理和操作,然后为人民创造一个更好的生活在城市,促进城市的和谐和可持续增长。WITMED智能城市的一个重要组成部分。通过信息技术,医疗基础设施集成与IT基础设施。WITMED需要医疗云数据中心为核心,穿过原始医疗系统的空间和时间限制,并在此基础上做出智能决策实现医疗系统,优化医疗服务。例如,通过机器学习等技术,实现精确治疗,以帮助改善医生的诊断和治疗的效率和提高医疗服务质量1]。

口腔癌是世界上最常见的癌症之一,世界各地的一个主要卫生问题,较高的发病率和死亡率。口腔鳞状细胞癌是一种常见的头颈部恶性肿瘤,占超过90%的口腔癌病例。世界上有超过300000新病例。近年来,口腔鳞状细胞癌的统计数据表明,口腔鳞状细胞癌的发病率正在增加(2]。

2012年,有超过440000新病例的口腔口咽癌,和240000多名口腔癌和口咽癌死亡,分别占3.1%和3.0%的新癌症病例和死亡世界各地(3]。据GLOBOCAN估计,口腔癌和口咽癌的发病率是最高的在美拉尼西亚,其次是亚洲和西欧中部和南部。每年发病率超过10/100,000在这两个地区。年度发病率最低的东亚和西非,2/100,000。亚洲是最严重的地区之一的口腔癌和口咽癌。在南亚,口腔癌的发病率和死亡率,口咽癌在孟加拉是最高的。可以看出,近三分之二的口腔癌和口咽癌病例生活在欠发达国家。据统计,从2005年到2013年,有超过280000个新病例,130000多人死亡在中国,这是与口腔癌和口咽癌(2]。在接下来的20年里,口腔癌的发生率会增加从世界上2.26/100000到3.21/100000的人4,5]。

随着数字技术的发展和智能城市,大量的数据产生在我们的现实世界中,包括日常生活数据,产生学术数据在学校、生产和科学实验数据实验(6]。对于很多数据,如何通过数据找到有用的信息,有利于建设和智能城市,是一个热门话题在今天的技术研究;它也促进机器学习的快速发展。对于传统的机器学习,数据降维主要是用来学习低维特征表示从高维数据7]。深入学习,图像主要应用,包括目标检测和异常检测8,9]。

大数据存储和处理平台是用于广泛收集和深入利用WITMED中的数据,与病人数据为核心,和医疗历史数据建模和分析利用数据挖掘,实现早期诊断疾病和健康风险预测的目的,同时,为医务人员为诊断和治疗提供参考。

预测分析依赖于历史数据和利用先进的统计和机器学习技术来模拟行为或模式,这样它可以预测未来可能的趋势或模式数据的可能性。总之,它预测将来会发生什么通过学习历史模式和可用数据的相关性。预测分析已经广泛用于不同的应用程序包括预测性维护,预测价格,供需趋势,或预测的任何结果的可能性。最先进的预测建模技术包括基于统计回归模型、决策树和神经网络或深层神经网络模型(10]。

随着分子生物学的发展,人们有一个更深入的理解基因测序和基因标记;如果科学家可以分析和研究口腔癌从分子生物学的角度通过大规模基因数据,相应的研究成果将有助于早期诊断和预后的治疗口腔癌的促进病人的医疗决策过程(11- - - - - -13]。自人类基因是高维数据,第一个要解决的问题,为数据挖掘的基因是降维。本文考克斯单变量回归分析,至少绝对收缩和选择算子(套索)回归分析被用来进行数据挖掘分析口腔癌患者的基因表达,和风险的基因影响口腔癌筛查出的预后。第二,获得风险基因用于构建预测模型和验证的风险基因筛选两种方法是否有参考价值的口腔癌预后生存分析和ROC曲线(AUC值)。第三,23日口腔癌症的预后密切相关的基因被套索获得方法,并验证用于验证的参考价值获得基因的预后口腔癌和结合独立外部数据集做双盲的验证基因的筛选。最后,字符串基因功能分析和文献综述被用来进一步验证基因筛选由美国口腔癌症的预后密切相关,可提供一定的参考和理论依据未来的临床研究,治疗、诊断和预后的口腔癌基于分子生物学。

本文的其余部分组织如下。节2,我们描述的系统模型和系统架构基于套索的口腔癌预后分析算法。节3我们评估我们的模型通过验证组。执行选择的基因的功能分析模型部分4节和结论5

2。数据分析过程

在本节中,我们描述了预测模型的建立和数据分析过程,包括数据收集和处理,基因的差异表达、拉索Cox回归分析,回归分析。模型的框架如图1

2.1。数据收集和处理

在这篇文章中,头部和颈部癌症的样本分别下载齐娜功能基因组学的三个开源网站浏览器(xenabrowser xenabrowser.net/datapages/) cBioportal (http://www.cbioportal.org/)和国家生物技术信息中心(NCBI,https://www.ncbi.nlm.nih.gov/),共有566个标准化TCGA头部和颈部癌症样本从xenabrowser,和485年口腔癌症样本排序根据需求。514头部和颈部癌症样本从cBioportal下载和385年口腔癌症样本排序。口腔癌样本从NCBI下载103和74样品含有肿瘤组织解决。xenabrowser上获得的数据是用于数据挖掘模型的建立和数据获得cBioportal与NCBI作为独立的数据集的结果验证。

原始数据从xenabrowser开源数据库,获得cBioportal, NCBI网站主要是结构化数据。

原始数据处理如下。(1)数据清理:为了保护数据的真实性,我们选择要删除的数据没有许多特性和其他数据填充一些缺失的特性通过修改后的平均法。通过数据清洗,141 - 80 -维维临床数据被组织成数据。(2)数据转换:与原来相比141 -维临床特征数据,32-dimensional临床特征得到的数据转换和离散化改进的程度分析。

2.2。模型建立

首先,我们需要将这些样本的临床信息数据和基因数据为数据挖掘分析数据帧。其次,进行数据预处理;,缺少生存的患者样本属性值被保留和453患者的样本,然后tumor-containing组织和正常的固体组织分离;与此同时,412病人和肿瘤组织样本和41正常固体组织样本。最后,412年的患者样本与肿瘤组织被随机分为训练样本和检验样本的比例1:1。数据预处理后,数据被分为3组:正常样本,训练样本和检验样本。

2.3。基因表达差异

屏幕数据分析基因差异表达的基因,基因表达的差异,并筛选出“表达显著差异”。为了分析基因表达差异41 200个训练样本和正常样本,“Limma”包版本3.42.2 (39)R是使用。根据调整后的 值(adj。 val小于0.001),2146个基因被认为是差异表达基因。一些选定的基因如表所示1

2.4。Cox回归分析

差异基因表达分析后,得到2146个差异表达基因。然后,这些2146个基因结合生存200年的临床特征训练样本的数据,和Cox回归分析之间的相关程度,每一个差异表达基因和口腔癌患者的生存14]。的Wald-Test 价值和风险比(人力资源)的计算是通过每个基因筛选基因明显与口腔癌患者的生存。根据统计学原理,阈值设置为 < 0.05和314个基因高度相关过滤口腔癌患者的生存。一些选定的基因和相关参数如表所示2

2.5。套索回归算法

为了达到更精确的基因筛查,套索回归方法被用来减少维度和训练样本的基因数据的回归分析15]。

基因筛查基于套索回归:套索回归是一个线性模型与惩罚项L1范数的绝对值,而且K-fold使用交叉验证选择惩罚参数λ,K的值是10。通过10倍交叉验证,适当的惩罚参数λ确定(14,16]。参数的过程λ选择如图2。10倍交叉验证后,λ= 0.04098355;然后λ被替换成套索回归方程,和23个基因存活率最高的口腔癌患者最终获得。结果如表所示3

建立基于套索的预后指数回归:作为一个集成的风险基因的重要指标,一个π值可以确定每个口腔癌患者。π是通过线性拟合表达式和修正系数的乘积的套索每个基因(14]。预后指数的公式如下所示:

的公式,的表达吗th基因,βi的回归系数th基因。通过表达和回归系数的乘积的线性拟合的23个基因在每个样本,计算每个病人的π,患者根据其π值从低到高排序。基于π值,中位数的病人被分为高风险和低风险组。

基于套索回归分析,最终选择23个基因。这23个基因和相应的套索回归系数来构造一个多元线性模型。因为每个基因的表达在不同样本不同,预后指数可以生成每个样本。π值的分布如图3

接下来,预后模型由训练样本上的套索回归方法测试观察高危病人的样品是否可以区别于低风险患者的样本。卡普兰Meier方法,结合部门的高和低风险病人的样本,生存状态、临床特点和生存时间的样本,用于绘制生存曲线的训练样本14]。使用ROC曲线进一步验证预测模型的科学性和可行性由套索回归。4年的存活时间是选择ROC曲线分析。如果AUC值超过0.5,这表明,获得的预后模型下的套索回归方法表现良好的挖掘和分析口腔癌预后风险基因,并分析结果如图4。可以看出,高危组明显区别于低风险组,日志等级 小于0.001,套索回归的AUC值为0.963,这表明该模型由套索构造方法执行。

所有样本的预后价值排序从最低到最高,和中位数的预后价值被作为参考。病人的样本比选中的值被认为是高风险的病人,和那些小于中位数被认为是低风险的患者(14]。患者样本的基因表达谱图所示5

3所示。结果验证

3.1。验证验证组

卡普兰Meier方法用于验证是否23基因筛选的套索回归模型可以区分高危患者和低风险的患者在212年验证样本。它也需要使用ROC曲线进一步验证拉索模型的科学性和可行性。分析结果如图所示6。这表明这些基因生物标记仍然可以分类口腔癌患者的验证样本为高风险和低风险类别。

3.2。验证基于临床信息

通过临床数据的筛选和分析,病人的饮酒历史、性别、肿瘤状态、年龄、吸烟史、和癌症都与此密切相关的研究现状(17]。然后,上述6临床因素485年临床信息采集标本单变量,和考克斯顺序单变量回归分析用于所选6临床特征。的Log-rank 价值和人力资源价值的临床特征计算顺序,最后的结果如表所示4

考克斯单变量回归分析的结果表明,生存率较 六个临床因素,如饮酒历史,性,肿瘤状态、年龄、吸烟史、和癌症的阶段,是小于0.05。因此,我们可以看到,这六个临床因素显著相关口腔癌症患者的生存。饮酒史的6临床因素、性别、肿瘤状态,和年龄作为变量,和病人样本分为两组;然后,23个遗传标记筛选的套索方法训练样本用于分析每个临床因素的存活曲线根据卡普兰Meier方法。分析结果如图所示7。从上面的数据可以看出,我们选择六个临床信息功能与口腔癌患者的生存显著相关的研究。

3.3。根据其他数据集比较验证

使用单个数据集分析测试结果往往是不够有说服力,所以其他数据集需要被用来验证结果。从cBioportal第一验证集,385口腔癌样本排序的数据。存活曲线,ROC曲线,AUC值被用来验证套索回归算法的结果,结果如图所示8。从NCBI第二验证集,74口腔癌样本排序的数据。存活曲线、ROC曲线和AUC值也用于验证套索回归算法的结果,结果如图所示9。因此,我们可以看到,这些基因筛选套索回归分析仍然有好的结果在其他独立数据集,也可以更好的区分高风险和低风险的口腔癌患者。

4所示。基因功能分析

4.1。基于字符串的基因功能分析

为了进一步分析和研究之间的关系23基因获得的套索回归和口腔癌,我们探索这些基因生物活性之间的关系以及它们如何影响口腔癌患者的生存预后。我们使用字符串分析获得的基因功能和基因功能网络通路图所示图10。它可以看到从上面的基因功能网络路径图,大部分的23个基因参与细胞代谢,生物合成的酶,有些生命活动与细胞凋亡有关。这些细胞的生命活动密切相关的一代,对癌细胞的扩散和转移。一些结果如表所示5

进一步的电池组件的分析结果表明,一些基因参与细胞代谢,细胞凋亡,以及其他流程,一些基因参与的合成、生物代谢酶和核苷酸的合成和代谢影响某些细胞的生命活动,和另一个线粒体基因是参与一些活动的一部分,这些线粒体活动是细胞生命活动的能量来源。细节如表所示6

根据一些数据获得的字符串基因功能分析,我们可以看到,有两个途径在这些基因的基因功能网络通路图。第一个途径是由7基因,即PDHA2, DLAT, PDHB, HS3ST1, PDHA1 PDHX, PDHAX。第二个途径是由3基因,即TNFRSF25, CASP8,出价。PDHA1第一途径有着极其重要的影响肿瘤细胞的扩散。此外,HS3ST1炎症的发病有关。投标相关的第二个途径是细胞凋亡和DNA损伤反应。

这些基因在细胞突变,扮演着至关重要的角色扩散,和DNA反应。因此,很有可能他们有重要影响的形成和转移癌细胞。特别是,PDHA1直接和独立影响口腔癌患者的预后和生存。

4.2。基于文献分析基因的功能
4.2.1。准备风险与口腔癌相关的基因

中可用的文学,我们发现prolyl 4-hydroxylase亚基α(P4HA1)这些23基因有很大的相关性与口腔癌预后不良,和P4HA1蛋白质编码的基因,这是参与脯氨酸残基的羟基化转译后的胶原蛋白合成和需要一些责任多基因缺氧的预后信息信号。P4HA1-mRNA的高水平,作为一个单一的基因替代低氧指数,是一个独立的预后指标总体存活率和口腔癌患者局部复发18]。

LRG1(富亮氨酸alpha-2-glycoprotein1)是一种多效性的蛋白质,扮演着各种人类疾病的致病作用。结果表明,TGF -β口腔鳞状细胞癌中表达。具有重要意义,Lrg1可以控制TGF -β通路在口腔鳞状细胞癌(19]。

4.2.2。基因与其他癌症的风险

FMNL3属于vertebrate-specific肌动蛋白聚合因子总科和具有广泛的生物功能在细胞和组织的发展。在人类癌症的研究,FMNL3被确定为在淋巴恶性肿瘤和黑色素瘤与致癌信号通路调节肿瘤细胞入侵和迁移。有文献表明FMNL3表达增加与开发、转移、预后不良的结直肠癌(CRC)患者(20.]。

B14-N-acetyl-galactosaminyltransferase1 (B4GALNT1)是一种糖基转移酶的家庭成员,这是一种合成的关键酶神经节苷脂GM2,阻止GD2,醣脂类GA2。研究表明,B4GALNT1是透明细胞肾细胞癌的一个关键基因(ccRCC)转移,并可能成为一种新的诊断标志物和治疗目标ccRCC [21]。

LRG1 HIF-1被激活α调节血管生成和epithelial-mesenchymal过渡(EMT)在结肠癌。据报道,LRG1是一个潜在的非侵入性诊断和预后的生物标志物在结肠癌22]。

一些学者在文献中写道,MIAT部分参与AML的发展(急性髓系白血病)的负调控mir - 495;因此,它提供了一个有前途的治疗AML的目标(23]。

4.2.3。风险与其他疾病相关的基因

SLC25A4 (A1,溶质载体家庭成员4)是一个重要的类型的跨膜糖蛋白,它扮演着一个重要的角色在维持红血球膜结构的稳定性和调节能量代谢24]。

柔术是增强low-abundance信号蛋白在糖尿病肾小管的样品,预计新组件的TGF -β信号通路的生物信息分析(25]。

根据文献,HS3ST1抗凝血酶的基因调节炎症和动脉粥样硬化有关。HS3ST1是硫酸乙酰肝素与特定的五糖图案,可以绑定到抗凝蛋白抗凝血酶(在)26]。

TNFRSF25(肿瘤坏死因子受体超家族成员25)的受体TNFSF12, APO3L和调整。指出在文献中TNFRSF25启动子的甲基化水平可以作为后生生物标志物对类风湿性关节炎(RA)患者(27]。

CELSR3是一个典型的受体7-pass钙粘蛋白和也是一个表达下调的上皮标记noncystic纤维化主要人类支气管上皮细胞。结果表明celsr3函数的损失可能会导致纤维化noncystic纤维化主要人类支气管上皮细胞的表型(28- - - - - -30.]。

NAA38 NatCN终端乙酰化作用的成分复杂。在文献中报道,NAA38的破坏会影响稳定性的NRF2谷胱甘肽的生物合成基因的表达,从而改变肥大的灵敏度(31日]。

常染色体显性ANT1基因的突变(SLC25A4)导致常染色体显性遗传进步外部眼肌麻痹。认为在文学中描述这个隐性突变患者罕见的肥厚性心肌病,乳酸酸中毒,和运动不耐受24]。

载脂蛋白L1 (APOL1)是一种细胞的子结构。文献中指出,APOL1可能影响人类肾脏疾病通过参与线粒体的融合或裂变。文献还指出,线粒体的融合/裂变通路可能是一个治疗目标APOL1-nephropathy [32- - - - - -34]。

4.2.4。基因与其他生命活动相关的风险

OSR2控制生产牙器官通过分泌Wnt对手的对抗。没有Osr2可以防止摩尔器官的生长和发育,包括正常连续bud-shaped cap-shaped然后钟形的牙齿(35]。

可以看出,获得的基因挖掘分析基本上是参与蛋白质的合成和细胞代谢相关酶和基因与线粒体有关的活动。其中,P4HA1已经决定与口腔鳞状细胞癌的预后不良。虽然OSR2牙科的合成器官相关,和MIAT在急性髓系白血病患者的细胞系。在文献中提到的其他基因有一定的与其他癌症的预后不良,剩下的一部分基因可能与人类生命活动或其他疾病。

5。结论

在整个生产过程中数据挖掘,数据分析是关键。通过数据分析的手段和方法,可以提高数据挖掘的效率,还可以保证结论的准确性。WITMED基于大数据方面发挥了巨大的优势在医学测试、医学图像分析、临床诊断等领域。大数据分析医疗检测和临床诊断提供了新的方法,促进医疗行业的发展。在未来,数据分析将继续被集成到智能城市的整体环境,和各种技术的发展将会通过各种途径改善。

总之,本文中的23个基因通过数据挖掘与口腔癌的预后密切相关,可为临床研究提供一定的参考和理论依据,口腔癌的治疗、诊断和预后基于分子生物学。

数据可用性

在这篇文章中,头部和颈部癌症的样本被下载,分别在三个开源的网站齐娜功能基因组学Explorer (xenabrowser xenabrowser.net/datapages/) cBioportal (http://www.cbioportal.org/)和国家生物技术信息中心(NCBI,https://www.ncbi.nlm.nih.gov/)。

的利益冲突

作者宣称他们没有利益冲突或人际关系可能出现影响工作报告。

确认

这项工作是支持的部分国家重点研发项目批准号下的中国2020个yfc0832500,中国国家自然科学基金批准号61402210,在大学新世纪优秀人才计划资助。ncet - 12 - 0250,关键项目的中国教育部哲学社会科学:大数据驱动的研究城市的公共安全风险,在批准号16 jzd023。作者也欣然承认战略重点研究项目的支持的中国科学院批准号XDA03030100用于这项研究。