文摘
本研究概述和发展一个多层感知器(MLP)神经网络模型对青少年高血压分类专注于简单的人体测量和社会人口的使用收集的数据从一个横断面研究在沙捞越,马来西亚。在2461年收集的数据,741年高血压(30.1%)和1720是正常的(69.9%)。在数据收集过程中,11个人体测量和社会人口的数据收集。方法中的变量选择过程提出选择五个参数:体重,体重身高比(WHtR),年龄,性别,种族,作为网络的输入模式。发达网络模型以50隐藏的一个隐层神经元设法实现灵敏度为0.41,特异性为0.91,精度0.65, - - - - - -得分为0.50分,精度0.76,接受者操作特征(ROC)曲线下面积(AUC) 0.75使用不平衡数据集。训练得到的性能指标分析,验证和测试数据集显示发达网络模型很好地实现。使用贝叶斯定理,一个青少年使用这模型分为高血压的可能性有66.2%人口在沙捞越青少年高血压,高血压患病率为30.1%。高血压的患病率在沙捞越人口增加到50%,开发模型可以预测一个青少年高血压有82.0%的机会,而高血压的患病率降低到10%时,开发模型只能预测真阳性高血压33.6%的机会。随着模型的灵敏度增加到65%和90%,同时保留91%的特异性,真正的积极性的一个青少年高血压是75.7%和81.2%,分别根据贝叶斯定理。研究结果显示,简单的人体测量与社会人口数据是可行的用于分类高血压在青少年利用发达的网络模型和适度的高血压患病率在沙捞越青少年人口。然而,敏感性和特异性较高的模型需要更好的积极的高血压患病率较低时预测价值。我们得出这样的结论:发达分类模型可以作为快速和简单的初步发展为高血压的筛查高危青少年预警工具。
1。介绍
心脏和血管疾病的死亡率是全球增长。在不同的危险因素,高血压是最贡献的元素为这个特定的非传染性疾病,特别是心血管疾病过早(1]。冠心病、中风、心脏衰竭、痴呆、动脉瘤和肾功能衰竭是一些后果与高血压密切相关(2,3]。此外,发现高血压的严重程度和死亡率COVID-19约2.5倍,尤其是老年患者超过60岁(4]。
高血压的特点是, 毫米汞柱的收缩压和/或≥90 mm Hg舒张期对于成年人来说,和它的流行已经成为一个世界性的健康负担。在青少年中,高血压是解释为血压≥130毫米汞柱的收缩压和/或≥80毫米汞柱舒张压(5]。由于全球广泛的肥胖和缺乏身体活动在儿童和青少年,这组高血压已成为越来越多的健康问题,但经常被忽略(6]。他们发现心血管疾病的危险因素水平儿童和青少年持续到成年,这反过来又会增加心脏和血管疾病的可能性事件在以后的生活中(7]。因此,青少年高血压的风险预测成年期之前实现更好的预防和控制是至关重要的项目(8]。此外,童年和青春期前关键阶段高血压预防和控制任何进一步的临床症状与hypertension-associated心血管疾病(9]。据报道,高血压的患病率是24.5%青少年在马来西亚在最近的一项研究[10]。
人体测量指标逐渐被科学家们信任的强制性因素确定心脏病的风险(11]。人体测量指标的使用一个简单的承诺,廉价、高效、可靠的初始高血压的筛查技术(12]。许多人体测量指标用于定义肥胖症相关高血压。其中包括最常用的身体质量指数(BMI)、腰围(WC)、weight-to-hip比(WHR),和体重身高比(WHtR) [13]。尽管如此,研究表明,高血压的预测人体测量的权力是国家和民族依赖(14]。
机器学习(ML)的出现在医学领域显示高血压预测新技术的见解。毫升技术可以作为高血压病的早期预测和可以作为支持工具或第二意见协助医生及时决策(15]。人工神经网络(ANN)模型已经证明是一个强大的ML技术和表现出巨大的成功在疾病预测和分类16]。尽管安已经广泛用于调查高血压的危险因素,利用人体测量、人口、和生活方式指数作为高血压预测估计没有比使用生物医学估计量的预测模型。此外,当前的研究工作用毫升不报告临床有意义的或有用的分类器如何当看着人群高血压的患病率。因此,有必要通过理解本研究桥梁的使用是否简单的人体临床高血压的预测是可行和有益的开发模型。
在两个早期作品(17,18),沙捞越青少年高血压的患病率及其与人体测量指标的关系进行了分析使用多元逻辑回归和逐步回归统计方法。这项研究工作是一个进化之前的两项研究通过专注于一个人工神经网络模型的使用。本研究的目的是四倍:(一)调查人体测量指标对青少年高血压的预测很重要,(b)开发一种人工神经网络模型对高血压预测关注人体测量指标的使用基于一项横断面研究工作在沙捞越,马来西亚,(c)分析青少年高血压是否可以使用人体测量指标,可靠地预测和(d)评估临床有益的开发模型。
2。相关工作
许多研究人员安高血压预测模型实现的,和一些最近的研究19- - - - - -30.]。在这其中,Bani-Salameh et al。26)开发了一个多层感知器(MLP)神经网络模型有六个输入:年龄、体重、脂肪率、血压、酒精、吸烟;一个隐藏层和一个输出层的高血压和nonhypertension类实现了训练和测试样本大小的760名患者。他们设法实现正确分类率为68.7%,测量接受者操作特征(ROC)曲线下面积(AUC)为0.618。此外,作者比较了网络模型的分类结果 - - - - - -最近的邻居(资讯)和支持向量机(SVM)和得出结论,延时超过这两个模型。独立变量的分析显示,血压是最重要的变量,而吸烟是最重要的变量。
在另一项研究通过Lopez-Martinez et al。27),三层人工神经网络模型与修正线性激活函数(ReLU)隐藏层分类高血压和nonhypertension病人使用性别、种族、身体质量指数(BMI)、肾病和糖尿病作为输入功能实现。大不平衡样本容量24434 nonhypertensive 60.71%和30.29%的高血压患者使用。ANN模型实现了7个输入,与64年3隐藏层神经元,32岁和16个节点,分别和2输出管理产生分类结果的敏感性为40%,特异性为87%,精度57.8%,AUC为0.77。在他们的早期工作28),逻辑回归模型用于数据集来自同一个地方,但规模较小(19709),他们实现了分类结果的敏感性为77%,特异性为68%,精度32%,AUC为73% (95% CI [0.70 - -0.76])。虽然使用的样本总数略小(28]相对于他们的工作27),这表明,ANN模型的使用可以产生更好的分类结果。
梯度下降反向传播神经网络模型有四个隐藏单位和0动能产生最好的AUC值(0.67),特异性(88%)、敏感性(30.6%),和精度(57.43%)在研究工作结果Sakr et al。29日]。包括年龄、使用的功能代谢当量(大都会),收缩压,舒张压,休息舒张压、冠状动脉疾病,测试的原因,糖尿病史,心率百分比,种族、高脂血症的历史,阿司匹林的使用,和高血压反应。病人的总数是23095年年龄在17至96不等。
一项研究关注预测弓箭手的收缩压和舒张压13岁至20使用ANN模型进行30.使用小样本大小为50个目标)。ANN模型只使用小腿周长作为输入变量。他们报道的收缩压和舒张压的结果预测方面(0.95,0.95),平均绝对百分误差(日军)(0.05,0.06)的平均绝对误差(MAE)(6.55, 4.44),和均方根误差(RMSE) (78.05, 35.51)。
还有其他的早期研究[31日- - - - - -35利用ANN对高血压分类),这些研究作品展出他们的成本和价值。从上面提到的最近的相关研究,可以得出的结论是,使用人体测量指标与社会人口和生活方式的参数作为初始高血压筛查是有利的。自我报告的糖尿病和高血压不可靠36和生活方式参数报告是主观的37),在我们的工作,只有简单的人体测量和社会人口数据作为预测高血压病例的特性。我们要考虑如何结合社会人口基本的人体测量数据可用于预测青少年的高血压和哪些变量有助于预测高血压。分类结果来自本研究将揭示青少年高血压是否可以使用人体测量指数预测准确。几个性能评估措施,如中华民国,AUC,敏感性、特异性、准确性、RMSE,美,和日军提供作为一种基准所构造的模型在上述审查。然而,开发模型是否重要的问题,尤其是在临床方面效用在人群中与给定的高血压患病率,这仍是个谜。
3所示。方法
3.1。数据源和人口研究
血压的横断面研究评估中学13至17岁的儿童在沙捞越进行了7个月从2016年3月9日到2016年9月27日。伦理批准获得从马来西亚沙捞越大学的医学和伦理委员会(UNIMAS / TNC (AA) -03.02 / 06-11 Jld.3(1))和马来西亚教育部。
在马来西亚沙捞越是最大的州位于婆罗洲岛。据美国统计马来西亚(38),在2019年,沙捞越的人口估计为281万与40多个与团体。这些与团体都有自己的语言,生活方式,文化(17]。伊班语、汉语、马来语、Bidayuh Melanau,和猩猩Ulu六沙捞越的主要与研究。
共有19个学校参与这项研究的14这些学校列为农村,另5学校被列为城市。对于每一个学校,一个类是随机选择从每个中等教育水平的一个次要的6。只有参与者没有身体和精神残疾,没有prediagnosed高血压、和疾病,可能导致继发性高血压是参加了这项研究。数据收集是由一个团队训练有素的实验室人员。根据教育部,13岁至17岁的学生的总数在2014年2月沙捞越200130年。方程(1)用于计算所需的样本量( )对于一个有限群(39]: 在哪里是 - - - - - -分数为99%置信区间(2.58),是人口规模(200130),人口比例(假设是0.5,因为这将产生最大样本大小),然后呢精确度或误差(0.028)。
根据计算,需要样本大小为2124。
社会人口信息包括年龄、性别和种族的每个参与者都记录下来。接下来,受过训练的人员将收集参与者的人体测量数据。人体测量数据的收集是通过使用SECA身体仪表和便携式磅秤。在称重过程中,参与者被要求脱下鞋子。此外,它是确保参与者只穿校服在这个过程。身高测量,参与者被要求直立,没有鞋子放在一个平面上与他们的高跟鞋和枕骨部对设备。记录体重和身高是0.1公斤,0.1厘米的精度,分别。腰围,使用塑料非弹性测量磁带放在最后肋骨的中点和髋骨的顶部(髂骨)。
身体质量指数(BMI)是计算使用的身高和体重数据提供了参与者的体重(公斤)除以(m²高度2)。waist-to-height的指数比(WHtR)计算基于比率的腰围(WC) (cm)身高(厘米)。圆锥度指数(CI),一个人体测量用来评估中央肥胖,计算使用
数字血压计用于血压测量。参与者被要求休息5分钟,以确保没有锻炼前的测量。此外,参与者也被检查以确保他们没有消费任何咖啡因或药物治疗前的测量。对于每一个参与者,两个测量。这两个之间有一分钟的时间间隔测量。如果这两个数据之间的差异超过5毫米汞柱,第三个会被阅读。第三次阅读时也将采取一个参与者被发现高血压前期或高血压。这些读数将计算的平均值作为最终血压读数为每个参与者。参与者被分为高血压前期、高血压和正常后,4th诊断报告、评估和治疗高血压的儿童和青少年(40]的分界点是基于年龄、性别和高度。
共有2461个样本数据的女性人数略高( ,58%)相比,男性的数量( ,42%)收集。这个样本容量大于所需的最小样本量确定使用方程(1),因此代表了沙捞越青少年人口。参与者的平均年龄 年。在种族方面,参与者大多是伊班人,其次是马来语,中文,Bidayuh和其他种族。社会人口数据包括年龄、性别、位置、种族,以及是否父(s) /高血压的参与者,在表所示1。大多数的参与者从农村(74.2%)。指表2,男性有更高的平均体重、身高、腰围(WC),而女性显示更高的平均身体质量指数(BMI)和waist-to-height比率(WHtR)。两性都表现出相同的意思索引。超敏反应(表3),发现有更多的男性高血压前期和高血压分类比较的女性。
3.2。方法设计与实现
在这项研究中,设计了多层感知器神经网络前馈和发达的SAS可视化数据挖掘和机器学习(VDMML)环境。这种分类过程的总体流程如图1。下面是每个步骤的细节。
3.3。数据分区
培训的统计特性、验证和测试数据在安预测和分类起到至关重要的作用。数据集划分为三个子集:60%的训练,30%的验证,和10%的测试。原始数据集,高血压前期、高血压分类分组,导致二进制输出变量(正常和高血压)32]。这个分组、高血压和正常类别的总数是741年(30.1%)和1720年(69.9%),分别为。分层随机抽样根据高血压和正常组比训练完成,验证和测试数据集。获得的数据的分布如表所示4。
3.4。变量的选择
在SAS VDDML环境中,使用快速指导选择方法,一组输入变量相互解释方差的最大数量包含在选择目标变量。快速选择监督的方法,利用贝叶斯信息准则,对较大的模型更强烈和倾向于较小的模型来完成选择过程。设置了累积方差截止至1.0,快速监督选拔过程结束时所选择的变量可以解释这个比例的总体变化。表5显示比例的方差解释这五个选择参数。从总11输入变量(性别、种族、位置、父母的高血压史、年龄、体重、身高、BMI、WC, WHtR,和C指数),5参数选择:年龄,性别,民族,体重和WHtR。
3.5。特征提取
在这个过程的一部分,新特性(s)将生产使用的五个变量从前面的变量选择阶段。新创建的特性将捕获的中心特征选择的数据集和表示这个数据集在一个低维空间。主成分分析(PCA)是一个简单的和最受欢迎的非参数方法获得最相关的信息冗余或嘈杂的数据(41),新功能叫做主成分(pc)。使用PCA过程,重量的特性和WHtR变量相结合作为一个新的变量,叫做主成分1 (PC1)。使用主成分分析进行特征提取,以降低特征维度是有据可查的临床研究利用电子医疗记录(42]。腰围的体重显著相关(43]。WHtR持有高度上的额外信息。使用主成分分析的过程,一个新特性(PC1)捕获创建这两个变量的基本特征。因此,最后输入特性从五个减少到4个。
3.6。人工神经网络模型
多层感知器神经网络模型有四个输入功能,一个隐藏层50隐藏神经元,和一个输出层为高血压的分类和正常开发的目标。试错的方法,这是一个常见的使用方法(44),是应用于本研究确定隐藏神经元的神经网络模型。单层前馈神经网络具有万能逼近特性(45]。图2显示了发达的网络体系结构模型。
输入变量是规范化使用 - - - - - -分数归一化法。总结了模型属性表6。早期停止五停滞进行,以避免过度训练和减少训练时间。模型使用内存有限Broyden弗莱彻戈德法布Shanno (LBFGS),拟牛顿方法之一,需要较少的计算机内存。
4所示。绩效评估
在这项研究中,一些绩效评估指标计算评估开发的多层感知器模型的性能对高血压和正常的患者分类。
一般来说,二元分类器的性能是基于以下四个参数的计算:(我)真阳性(TP)被定义为高血压的青少年的数量被归类为高血压(2)假阴性(FN)被定义为高血压的青少年的数量被归类为正常(3)假阳性(FP)被定义为正常的青少年的数量被归类为高血压(iv)真阴性(TN)被定义为正常的青少年的数量被归类为正常
使用这四个参数的敏感性,特异性,精度, - - - - - -得分,准确性,误分类率,接受者操作特征(ROC)曲线,ROC曲线下面积(AUC)计算。
4.1。贝叶斯定理
敏感性和特异性的分类器可以用来评估其有效性。然而,这两个性能指标不能准确反映模型如何执行一个特定的人口发病率的一个特定的条件。为了评估或治疗相关有益的一个测试可以为人口,我们需要基本的信息预测疾病的发病率和患病率。贝叶斯定理是有用的解释(46]。贝叶斯定理的公式 在哪里是无条件的人群中疾病的概率,即。患病率;的无条件概率分类器/测试返回积极; 表示事件的可能性鉴于事件发生;和 是表示的后验概率的机会吗鉴于发生 。
5。结果
5.1。多层感知器模型的性能
培训实际的分类结果的分布,提出了验证和测试数据集使用的混淆矩阵表7- - - - - -9。使用混淆矩阵,提出了开发多层感知器模型的性能指标表10。从这个表中,可以看出发达模型成功地实现了76%的分类精度精度为65%。模型的敏感性和特异性都是0.41和0.91,分别,AUC是0.75。应该注意的是,用于所有这些矩阵的分界点是0.5。中华民国的训练、验证和测试数据集数据所示3,4,5。中华民国的类似的形状在这些数字表明,多层感知器模型没有overfit数据在训练;即。,the model demonstrated comparable predictive capability in the training, validation, and testing data sets. In other words, the developed model is well-generalized. This aligns with the similar sensitivity and specificity values achieved for these three sets of data, as shown in Table10。
5.2。变量的重要性
一个分类树模型是用来确定变量在预测输出变量的重要性。这是在两个步骤完成。在第一步,每个变量的变量重要性计算基于残差和的变化广场(RSS)分裂时发现一个节点。发现的最大变量重要性值从这些值。在第二步中,每个变量的相关变量重要性值计算变量重要性除以最大变量重要性值。RSS的详细计算可以发现在47]。表11显示了变量重要性和相对变量重要性的四个提取特征值在这个研究。没有特征提取过程的分类结果本研究中所开发的多层感知器神经网络模型都包含在补充1。
5.3。可靠性测试使用贝叶斯定理
2018年的一项研究表明,高血压二级的学生在沙捞越为30.1% (18]。青少年在沙捞越的人口是200130。在方程(使用贝叶斯定理公式3):
事件表示青少年高血压的患病率在沙捞越: 。
使用模型的敏感性和特异性在本研究开发: 和 。
事件表示我们的测试来积极的无条件概率,这将包括真阳性和假阳性使用我们的测试。计算总真阳性(TTP)的测试( ),
为了计算总假阳性(TFP) ( ),
用这个, 。
从方程(3):
表示一个青少年会有高血压的可能性,如果我们的模型表明他或她是高血压。 定义了接收阳性结果的可能性,不管它是否真阳性或假阳性。作为一个结果, 代表我们的敏感性。
这表明一个青少年使用我们的方法诊断出患有高血压是高血压的可能性有66.2%。
6。讨论
在本文中,一个隐层多层感知器神经网络模型开发青少年的高血压分类问题在沙捞越,马来西亚。这项研究证明了声称带有一个单隐层的多层神经网络模型可以在临床领域广泛的挑战。
比较发达的性能模型与上述研究提出了表12。从获得的性能指标,它可以看到,发达的分类能力模型( )兼容使用深度学习高血压分类Lopez-Martinez et al。27)( )。我们的模型对其他性能指标表现略好。除了模型由Bani-Salameh et al。26],没有报告模型的特异性,其他模型,包括模型在本研究工作中,更好的模型的特异性灵敏度。换句话说,这些模型都是在分类正常患者比正确分类高血压患者。这可能是使用的不平衡数据集的结果,这是更高比例的出现比正常的高血压患者。
比较该模型架构由Lopez-Martinez et al。27),我们的网络体系结构是小(3层64个节点,32个节点和16个节点,分别与单层50个节点)。此外,正常的比例(69.71%)和高血压患者(30.29%)中使用(27是类似于我们的研究中使用的比例(30.1%的正常和69.9%的高血压)。
这个研究的另一个重要贡献是,只有简单的人体测量和社会人口数据收集在横断面研究,即。、年龄、性别、种族、位置、父母(s)高血压史、体重、身高、腰围、血压。变量选择过程在本研究的方法论选择年龄、性别、种族、重量和WHtR参数作为输入的多层感知器模型。所有的其他研究工作包括个人病史和生活方式的参数数据。例如,吸烟和肾脏所需的条件(27];家族史、高脂血症的历史和冠状动脉旁路移植(29日];和糖尿病数据(26,27,29日]。然而,自报糖尿病和其他医疗历史条件是不可靠的36),和生活方式参数报告是主观的(37]。
变量的分析表明,PC1重要性,这是一个新功能从重量和WHtR变量,是最重要的特性对于高血压的分类和正常患者,紧随其后的是性别、年龄和种族。安的使用这些简单的人体测量和社会人口数据展示了潜在的使用简单的测量高血压检测。然而,随着高血压的预测人体测量的力量是国家和民族依赖(14),进一步的研究这些参数的使用在其他地理位置将更好地验证这些输入的有效性。
从性能指标提出了训练、验证和测试数据集表10,可以得出的结论是,开发模型很好地实现。也就是说,模型可以处理看不见的数据。这证明是几乎相等的值的性能指标获得培训,验证和测试数据集。这个属性很重要,在确保模型在真实情况下的有效性。
在可靠性方面,重点开发分类器是否足够值得信赖的用于临床背景下,高血压的患病率在一个特定的人口应该考虑。虽然高度准确分类器可能是有益的人群中高血压患病率较高,那么它就会少些有益的人群中高血压较低的利率。在我们的工作中,如果一个青少年被确诊为高血压使用我们的模型,他或她有高血压的可能性有66.2%。使用贝叶斯定理,我们进一步考察我们的模型与不同的青少年高血压肥胖盛行程度沙捞越的10%和50%。结果总结在表13。患病率较低(10%),只有33.6%的几率会设法达成一个青少年的高血压。以更高的患病率为50%,该模型能够更好地总结(82.0%)一个青少年的高血压。当模型改进的敏感性90%,特异性仍为91%,高血压在沙捞越青少年人群的30.1%,该模型可能产生一个青少年有高血压的可能性为81.2%。
7所示。结论
在这个研究中,多层感知器神经网络以50隐藏的一个隐层神经元。该模型包含的变量选择和特征提取过程管理来改善高血压的分类精度分类问题关注青少年在沙捞越,马来西亚。本研究的主要贡献是较小的网络体系结构设计,包括三层有5个输入的输入层、隐层之一五十隐藏神经元,和一个输出层,以提高分类精度利用简单的人体测量和社会人口数据。此外,我们表明,如果一个青少年测试阳性高血压、建立模型可以预测,他或她有66.2%患高血压的可能性。这个模型中,基本和简单的人体测量相结合,社会人口数据,如年龄,性别,民族,体重,和WHtR临床上有用的沙捞越青少年的高血压患病率为30.1%。
虽然开发模型的性能是令人鼓舞的,该模型不能作为临床诊断高血压患者的决策工具。然而,分类结果可以作为早期预警机制提醒患者高血压的可能性。
过程开发多层感知器神经网络对青少年高血压分类概述了显然在这工作。获得的知识在设计、开发、实施、测试和分析网络模型在未来的工作是有价值的建立一个早期预警工具,高血压的预测。这样一个预警工具可以作为一种廉价、简单、快速筛选机制在帮助公众识别高血压的风险,尤其是在设置时血压监测设备不可用。发达模型只能预测66.2%的青少年有高血压的可能性,这是不够的模型被用作临床决策工具。结果,进一步研究高血压预测人体测量数据的利用使用机器学习算法是必要的。此外,它将需要评估额外的训练数据是否会提高构造模型的准确性。这可能是通过增加数据生成额外的数据或通过数据收集。
数据可用性
数据基础的研究结果是博士论文的合著者可以得到很Whye丽安要求通过电子邮件((电子邮件保护))。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
项目资助下大学的马来西亚,沙捞越(UNIMAS),交叉学科资助(F08 / CDRG / 1832/2019)。作者想表达自己的感激之情很Whye连博士和她的同事在这项研究中收集数据。