文摘
背景。肥胖的一个关键机制包括调节异常代谢和炎症标记物。本研究旨在确定唾液生物标记和其他因素与肥胖有关使用一个数据挖掘的方法。方法。对700名被试随机群从8137年科威特儿童(10.00±0.67年),四种数据挖掘方法应用于识别重要的变量与肥胖有关,包括逻辑回归套索正规化(套索),多元自适应回归样条(火星),随机森林(RF),提高分类树(BT)。每个算法生成一个变量重要性排名列表,根据内部交叉验证过程。一个聚合的重要性排名是由平均变量从单个列表的排序,加权各自模型的分类性能。随后,一流的变量的子集被识别和至少三个算法被使用接收机操作特征分类性能评价与引导百分位重采样(ROC)分析。结果。肥胖的定义通过的腰围(OBW)或身体质量指数(BMI) (OBWHO)。我们确定了c反应蛋白(CRP)、胰岛素、瘦素、脂联素,如唾液与OBW相关的生物标志物,加上临床特征的健康水平。一组类似的生物标志物OBWHO被确认,但不包括瘦素。基于树的聚类分析显示模式OBW和OBWHO科目之间的明显不同。结论。基于多个算法的数据挖掘方法用于识别与表型相关的因素,特别是在关系不显著的情况下,和一个从多个方法有助于产生一个更普遍的共识的特征子集。在这种情况下,我们已经证明,评估使用腰围包括瘦素与高水平的唾液,BMI与评价未见。
1。介绍
科威特孩子的学习是一个大规模的研究旨在评估代谢综合征的肥胖的病因和发展在8000年在科威特的孩子(1,2]。它有一个巨大的数据收集,包括人体测量和临床特征,膳食调查,唾液蛋白生物标志物和分子分析,代谢物,以及微生物。像其他的复杂数据集和数以百计的变量在大规模队列研究中,它变成了一个挑战找到协变量之间的关联和表型(3]。参数化建模方法基于preformulated假设限制,因为它是无法同时处理大量的共因意外协会和搜索效率。
另一种传统的假说驱动的数据挖掘分析方法,这是一个数据驱动的过程发现小说在大量数据没有任何关系先天的假设[4]。数据挖掘算法非参数,使其适用于各种类型的数据,其不同的特征可以适应各种不同的算法。他们能够处理大量的变量,而且有时协变量检测不仅与强大的主要作用,但也有显著的交互作用但最小的主要影响,不可能在一个传统的模型。通常情况下,他们可以处理复杂的协变量和结果之间的关系,占非线性协会以不同的方式。此外,在这种类型的方法一个突出特征是交叉验证过程,这地址的问题模型在样本的泛化,并避免过度拟合,参数化建模中的一个常见问题。
目前的研究集中在唾液蛋白质生物标记的数据集,这是一个随机选择的群体来自整个数据集(1]。儿童肥胖的发展增加了患心血管疾病(CVD)的风险,2型糖尿病和其他慢性疾病在以后的生活中,这在很大程度上,是由发病和细胞因子释放的脂肪组织5,6]。因此,生物标志物的研究使我们能够获得洞察与肥胖相关的疾病的病因,尤其是途径导致各种疾病。一些先前的研究检查了这些因素之间的关系和与肥胖相关疾病在青少年,主要是建立在假说基础上通过关联研究建模使用指定变量(7]。我们的研究采用数据驱动的方法来识别关键唾生物标志物与肥胖有关。我们四个算法应用于数据集:逻辑回归的套索正规化(套索)[8),多元自适应回归样条(火星)9),随机森林(RF) (10,提高分类树(BT) (11]。
2。材料和方法
2.1。数据源
数据集是一个随机的选择744例全部人口(n= 8137)科威特的孩子的学习,把所有的人体测量和临床措施以及唾液样本收集在10月2日,2011年和2012年5月15日(1,2]。生物标志物检测的唾液样本进行随机队列使用多路复用珠平台(Luminex®200,奥斯汀,TX)。测量唾生物标志物包括胰岛素、c反应蛋白(CRP),脂联素,瘦素,il - 1βil - 10、il - 4、il - 6,引发,IL-12P70, IL-13, IL-17A,抵抗素,MMP_9, MPO MCP-1, TNF -αVEGF-A,干扰素-γ胃促生长素,IL-17A,干扰素-γ,饥饿激素并不包括在分析由于很大一部分缺失值。此外,18样本极值在测量被排除在随后的分析中,基于他们的不正当影响在最初的回归模型。生物标志物是标准化的分析之前的值。健康是衡量标准运动后心率升高(1),然后使用中值从原来的整个研究的关键。
结果肥胖的措施都转换为二进制的措施。肥胖被定义为体重指数(OBWHO)或腰围(OBW)在95年th百分位或更高版本在一个人的年龄和性别组(12]。
2.2。变量选择的数据挖掘算法
分析变量重要性的套索逻辑回归(套索),多元自适应回归样条(火星),随机森林(RF),提高分类树(BT)进行了使用索尔福德预测Modeler v7.0 (13]。获得最终的模型变量选择、内部10倍交叉验证过程采用在所有算法,除了随机森林,估计其out-of-bag样本的预测误差。每个变量的重要性在各自的方法根据不同的测量方案,定义如下。在套索,测量是代表的重要性β生成的逻辑回归模型的系数。在火星,每个变量添加到模型中,减少的交叉验证(GCV)统计数据被用来测量的重要性。在射频,分类错误率out-of-bag样本记录个人树给定变量的前后排列,和重要性度量是基于两者的区别所有树的平均错误率。在BT,变量的重要性给定变量被计算为改善节点的累积和纯度分裂,所有树木大小到一个特定的模型。此外,基于每个算法的重要性指标,相对重要性评分是派生的,是表达的尺度改变了这最重要的变量重要性上面表示100年,扩展了他们的价值观和其他变量相对于上面的。在我们的研究中,我们使用一个截断值为0.2,以确定一个变量被确定为一个重要因素。
2.3。聚合的变量列表
从这四种算法获得共识,聚合排序是由每个变量的加权平均的个人排名与分类的性能模型,生成其重量的排名因素。因此,对于变量j,它的聚合等级表示为 ,在哪里我表示模型,ω模型的重量我所定义的AUC,其等级模型我。同时,如果一个变量被至少三个选择算法,它被认为是多数投票的赢家。
2.4。评估分类性能和聚类分析
评估的分类性能一流的变量的子集排序进行聚合,ROC分析是使用生物标志物分析函数进行在线综合工具套件MetaboAnalyst [14]。95%置信区间从引导百分位获得中华民国曲线重采样(15]。
进行了聚类分析的基础上,随机森林内部距离措施,可以从索尔福德预测Modeler v7.0 (13]。距离的测量可用树的一部分,一个副主题落在同一终端节点,树木的总数。多维标度(MDS)处理完整的距离矩阵生成MDS显示所有数据点之间的距离,提供集群的证据。
3所示。结果
3.1。识别与肥胖相关因素所定义的腰围和体重指数
0.20的截断值被用于从重要性变量列表中选择的重要因素。OBW, 5个因素被识别和套索(胰岛素、c反应蛋白、健身、脂联素和瘦素),与火星6 (c反应蛋白、胰岛素、脂联素、健身、VEGF和瘦素),3与射频(c反应蛋白、胰岛素和瘦素)和5 BT (c反应蛋白、胰岛素、脂联素、瘦素,和健身),其中,胰岛素,c反应蛋白,和瘦素是由四个选择算法,而脂联素和健身三个算法(表1)。至于OBWHO 4因素与套索(胰岛素、c反应蛋白、脂联素和健身),与火星6 (c反应蛋白、胰岛素、脂联素、性别、VEGF和健身),3与射频(c反应蛋白、胰岛素、脂联素),和3与BT (c反应蛋白、胰岛素、脂联素)、c反应蛋白,胰岛素、脂联素都是选择算法(表1)。值得注意的是,瘦素,OBW标记被所有方法,OBWHO没有选择的任何方法。的分类模型,生成单个变量的性能排名,火星(AUC = 0.837和0.853,分别)是顶尖高手,虽然套索最健壮(AUC = 0.787和0.816,分别)。
图1说明了所有变量的聚合等级分布,计算平均排序从所有的排名列表,加权的个体变量的分类模型的性能排名是派生的。如图所示,OBW的一流的因素c反应蛋白,胰岛素、脂联素、瘦素和健身,紧随其后的是多数选择的算法,用红色显示。OBWHO,另一方面,最高的是c反应蛋白,胰岛素,和脂联素,选中所有算法。瘦素,为OBW高级功能,为OBWHO排名第十。
(一)
(b)
3.2。顶级变量的子集所评估的分类性能
的聚合等级列表,一流的变量,获得多数选票的一个子集(即。,我dentified by at least three algorithms) was used to evaluate their classification performance, with support vector machine (SVM) [8)作为分类器,利用ROC分析的AUC测试指标。OBW,五大因素有多数投票测试(c反应蛋白、胰岛素、脂联素、瘦素,和健身),实现了AUC为0.808(95%置信区间:0.751—-0.856)(图2(a))。OBWHO,顶部3因素有多数投票测试(c反应蛋白、胰岛素、脂联素),实现了AUC为0.82(95%置信区间:0.782—-0.862)(图2(b))。
3.3。集群的肥胖受试者根据唾液生物标志物与临床措施
MDS图基于树的距离产生的措施,基于生物标记和其他协变量,显示肥胖受试者的集群,OBW以及OBWHO(图3)。在图3(一个),肥胖受试者所定义的腰围(蓝点)大多是集中在右上角,nonobese对象大多是分散各地,除了一小部分集群在左边。然而,OBWHO模式(图有很大不同3 (b))。肥胖的人都聚集在strip-like区域向右,而nonobese向左的类似的模式,与两个重叠的某些部分在中间。
4所示。讨论
四种数据挖掘方法,逻辑回归套索正规化(套索),多元自适应回归样条(火星),随机森林(RF),和提高分类树(BT),确定不同组唾液标记和其他特性与肥胖有关,每生成一个选定的变量根据其相对重要性的排序。我们乐团的想法用于特征选择16,17)构建一个汇总排名,旨在获得一种更健壮的子集,由个人平均排名算法、加权分类性能的各自的模型产生了排名。因此,c反应蛋白、胰岛素、脂联素,瘦素,和健身成为一流的因素确定为OBW至少三个算法,而c反应蛋白、胰岛素、脂联素是那些OBWHO。最后,上述变量的子集被评估表型分类性能。
代替假说驱动的方法寻找关联参数的建模和测试,我们使用数据驱动的方法更加灵活。他们可以处理大量的反是;这可能是一个限制因素,传统的回归模型和应对其他挑战从高维数据集等广泛的协变量之间的相关性,协变量之间复杂的互动,或者协变量和响应变量之间的非线性关系。例如,射频是适合捕捉变量强相互作用效应,但最低主要作用,由于增加了交互检测的概率不同的树木,这将导致这些交互变量重要性排名较高的变量。火星,另一方面,特别适用于处理非线性关联,通过使用线性样条近似非线性关系。我们探讨一个多元方法的四个独立变量选择,是安心的发现他们达成共识将某些重要变量排名列表的顶部,如c反应蛋白,胰岛素,OBW瘦素,和c反应蛋白,胰岛素、脂联素OBWHO。这些唾液生物标记对应的循环建立等离子体生物标志物与肥胖相关(6),反映出代谢方面(如胰岛素和瘦素)以及炎症方面(例如,c反应蛋白和脂联素)肥胖的机制。然而,之间没有关联检测肥胖和唾液抵抗素,等离子体的同行已经知道与肥胖(6]。
变量的选择是一个过程寻找最佳特性的一个子集。根据策略用于保留相关特性,不同的学习算法可能会与当地特性不同子集最适条件的完整的搜索空间。因此,通过结合来自多个子集的方法,我们可以扩大搜索空间,产生一种更健壮的特征子集,实现更好的普遍性(16]。我们采用了这个乐团的想法对特征选择,创建一个组合排序的线性聚合的性能模型生成个人排名被允许影响最后的排名。已经有了最新发展的另一个特点选择工具受到整体理念,整合八个特征选择方法(18]。值得注意的是,这种方法包含三个单变量方法和五个多元方法,其中四个是随机森林的变化从两种不同的实现算法。我们相信一定能获得优势,如果一个方法包括特殊不同的多元方法,应用在我们的研究中。
有趣的是,我们发现瘦素作为一个一流的因素肥胖定义为腰围,但不是肥胖定义为体重指数。我们知道腰围是更紧密地与内脏脂肪(19),它是新陈代谢活跃的失调adipokine和细胞因子作为关键机制与肥胖相关的结果,如心血管疾病(20.- - - - - -22]。值得注意的是,唾瘦素被发现与等离子体水平表现出相关系数为0.78 (23]。瘦素是一个主要的adipokine,它遵循OBW对象定义的腹部脂肪的平均水平较高循环瘦素,从而导致更高的唾液瘦素。OBWHO,另一方面,反映了总脂肪不考虑其分布,从而导致更低的平均水平循环瘦素导致降低唾液瘦素,抑制与体重指数定义的表型的相关性。此外,还有其他的问题,进一步使肥胖的诊断以体重指数来衡量,如高肌肉发达的情况下,使儿童肥胖的诊断使用BMI由于身体快速发展6]。因此,重要的一点是,唾瘦素被确定为唾生物标志物主要与儿童OBW有关。边注,健身,衡量标准运动后心率升高(1),影响长期的心血管功能,也认定为OBW一流的因素。
肥胖受试者的集群模式定义为这两个措施也很不同所显示的基于树的聚类分析。OBW,肥胖的接近对方,形成一个相对紧集群(图3(一个))。OBWHO,相反,肥胖的分散在更大的空间(图3 (b))。这表明OBW科目相对类似的这些唾液的标记,而OBWHO科目也多种多样。从OBWHO集团集群模式显示更大的人口的异质性,对肥胖的潜在机制,脂肪组织的分布,甚至肥胖状态的准确性(如肌肉的高度并被错误地归类为肥胖)。
(一)
(b)
这种分析使用唾液样本有助于生物标志物研究儿童肥胖,不像那些丰富的成年人口的困难采取血液样本。我们的研究结果表明瘦素的重要性评估肥胖儿童的腰围不出现在考虑BMI百分位。因为瘦素是一个普遍公认的adipokine代表脂肪组织质量而BMI无法区分脂肪和肌肉(6,19),测量腰围是肥胖最相关。尤其如此,10岁的青少年,因为他们的测量作为青春期被启动。这些观察结果显然与假设一致的建议由国际糖尿病基金会使用腰围来确定肥胖的儿童(12]。
5。结论
有许多措施被用来评估肥胖儿童。使用唾液生物标志物在这项研究中,我们使用了一个数据挖掘方法来区分两种最常见的肥胖的措施通过腰围和体重指数。虽然都与唾液c反应蛋白、胰岛素、脂联素,瘦素对肥胖评估腰围是独一无二的。这些结果表明,增加腰围更接近于脂肪细胞的信号,人会认出描述肥胖,因此更敏感比BMI儿童肥胖的测量。
缩写
| 体重指数: | 身体质量指数 |
| IL: | 白介素 |
| 套索: | 至少绝对收缩和选择算子 |
| 火星: | 多元自适应回归样条 |
| 射频: | 随机森林。 |
数据可用性
可用的数据将被要求。
信息披露
资助者没有作用的设计研究,在收集、分析、和解释数据,撰写的手稿,或决定发布结果。
的利益冲突
作者宣称没有利益冲突。
作者的贡献
晋城无烟煤矿业集团构想KHLS研究中,获得了资金,监督项目,策划数据。PS设计方法,实现了分析,起草。晋城无烟煤矿业集团,编辑,和增强的数据可视化。
确认
这项研究由Dasman糖尿病研究所的科威特,格兰特数字拉/ 065/2011和RA / 005/2011。分析援助承认从Alpdogan Kantarci, Mor-Li哈特曼,丹尼尔·斯蒂芬斯,蒂娜Yaskell, Jorel巴尔加斯。临床提供的援助是玛丽安Cugini RoulaBarake,奥萨马Alsmadi, Sabiha Al-Mutawa, Jitendra Ariga, Pramod Soparkar, Jawad Behbehani, Kazem Behbehani。个人参与数据收集包括莎拉•艾哈迈德博士Sumaiah博士Yasmeen博士Rabab Al Khajah Massouma Saket,莱拉Khaja,莱拉迪亚布,Mariyam说话,纳迪亚,马哈茂德•贝德埃曼Adnan和Shymaa Amna Ahmed Al褪色。唾液处理完成组织银行核心设施,Dasman糖尿病研究所、科威特、TBCF AzadaliMoorji的监督下,主管。我们感激地承认沙杰汗①牙医Rithna的参与,Safura穆罕默德,Hemalatha Vasudevaraj, Enas马哈茂德·伊斯梅尔,和名字Syed Musthafa;护士Wisam哈桑,萨利赫Neda哈马德,阿玛尔•卡迈勒Ebrahim安倍Abdul Hameed,阿玛尼Ata保佑,弗d . Ferrao 7月k . Kunjumon Reji托马斯,Wedad Al Shamary Hanady Salem, Asma艾尔说,AbdulHameed说,岜沙开斋节Al Enezin詹妮摩尔库里,莱拉Hamed Habib Kholoud Kazem贾比尔,Rawan Salem, Halima马列侯赛因,MarwaIbraheem, Priya, Deslin,萨阿德Ahmed Al Deyab扎吉雅Abdul Mohsen,冲入穆罕默德,KawtharSa和谐贾比尔,Afaf开斋节Tharesh,纳瓦尔阿卜杜拉和Shaima赛义德·默罕默德;现场协调员埃曼赛义德Khadmi Fatma Al Fadhli;秘书RaseenaValamvayal;司机a . k . Jamaluddeen v . m . Kunhammed k . k . Basheer ot Shaishad; and setup helpers P. Soopy and ShameerPorayil.