自适应诊断肺癌的深度学习分类使用Wilcoxon增益和发电机

文摘

癌症是一个复杂的全球健康问题近年来越来越死亡率。斯威夫特盛开的高通量技术和几种机器学习方法近年来展开,取得了进展癌症疾病诊断基于特征子集,提供高效和精确的疾病诊断的认识。因此,先进的机器学习技术,幸运的是,区分肺癌患者和健康的人十分关注的。本文提出了一种新型Wilcoxon符号秩获得预处理结合生成深度学习称为魏克森讯号生成深度学习(WS-GDL)方法对肺癌疾病的诊断。首先,测试意义分析和信息增益消除冗余和不相关的属性和提取许多信息和重要属性。使用生成器函数,生成深度学习方法学习特性。最后,一个极大极小的游戏(即。,minimizing error with maximum accuracy) is proposed to diagnose the disease. Numerical experiments on the Thoracic Surgery Data Set are used to test the WS-GDL method's disease diagnosis performance. The WS-GDL approach may create relevant and significant attributes and adaptively diagnose the disease by selecting optimal learning model parameters. Quantitative experimental results show that the WS-GDL method achieves better diagnosis performance and higher computing efficiency in computational time, computational complexity, and false-positive rate compared to state-of-the-art approaches.

1。介绍

在过去的几年里,持续进步与癌症研究已经实现。研究人员应用几种机制,如早期筛查,确定癌症引起某种程度的症状。此外,一些早期预测方法和机制设计和癌症治疗。肺癌已成为死亡的主要原因之一,近年来在发展中国家。这是由于显著增加迅速增加吸烟。谁能更受肺癌诊断在不久的将来和对治疗的反应是一个要求很高的研究领域。

在[1重量),作者分析了一个优化的神经网络与最大似然增加(WONN-MLB)肺癌疾病(LCD)使用大数据。LCD WONN-MLB是分为两个部分:整体分类和特征选择。基本特征识别的初始步骤使用一个集成的牛顿迭代的极大似然和最小冗余(MLMR)预处理模型加快分类过程。一次分类方法是利用基本属性选择使用预处理模型。

提高加权优化神经网络集成的分类算法应用到选定的属性进行分类,与病人组织属性。因此,提高癌症的疾病诊断的准确性,假阳性率低。然而,与最大似然最小冗余模型,它可能无法选择最有用的特性。它只考虑最大可能与最小冗余特性,因此不保证准确性。为了解决这个问题,在这项工作中,执行预处理使用Wilcoxon符号秩和信息增益模型,不仅选择最丰富的特性,也减少了复杂性参与识别最丰富的特性。

提出了一个完整的癌症诊断方法(2使用属性选择和基于学习)。有两个步骤完成。首先,基因预滤器使用支持向量机的递归特性消除(SVM-RFE)模型在第一阶段。第二,二龙飞行模型被用来快速公车提供丰富的基因已经被预滤器。最后,目标函数的分类准确率决心使用三个基于学习模型。

少量基因的技术显示有效的分类精度。然而,独立的疾病诊断,每个诊断模型都有一个指定数量的假阳性,这是明确的负面事件的数量之间的比例不正确归类为积极和实际的负面事件的总数。发电机深度学习模型是利用在本研究要解决这个问题,评估假阳性的值,并使用概率分布函数最小化假阳性率(3,4]。

本研究提出了一种机器学习方法和信息,显著特征选择综合肺癌疾病检测方法。第一步是使用Wilcoxon符号秩获得启发的预处理模型WONN-MLB [1)对肺癌诊断选择一个子集的潜在特性利用候选基因。自WONN-MLB只考虑基于可能性的有用特性,信息和重要特性没有选择,影响疾病的诊断准确性。通过应用Wilcoxon符号秩获得预处理模型,得到信息特性,随着时间的推移和翔实的特征子集演变。因此,它是计算效率。再往下,我们提供了一个第二阶段的疾病诊断基于生成器函数,区分疾病诊断为疾病和病人没有诊断为病。最后,胸外科数据集用于基准WS-GDL技术。实验表明,WS-GDL方法优于最先进的技术,证明了其实用性和有效性。提出的模型创建的应用程序可用于检测健康人群肺癌,成像测试,痰细胞学、组织样本(活检),和测试来确定癌症的程度。

病人的原始格式存储的数据,机器语言无法理解。数据争论的方法收集原始数据并将其转换为机器可读的数据。医生将使用机器可读数据的分析目的,选择所有必需的数据和原始数据的过滤。训练算法发现隐藏的模式和规则的过滤数据,和测试算法将决定模型的准确性。经过培训和测试算法,数据将部署它的价值如果模型的准确性是可以接受的。的部署是一个组合优化和操作。在这项研究中,自适应诊断肺癌的深度学习分类提出了使用Wilcoxon增益和发电机。

深度学习分类包含卷积层、池、完全连接层,SoftMax层。卷积层学习属性,使像素的图像通过将图像分解到小像素盒子。在这一层,深度学习对数据执行内核和过滤操作。输入上一层的合成。所有未使用的参数在池层下降,从而降低维度的特征图谱。(我)max-pooling层执行行动的最大数量元素特性映射区域的输入数据。(2)平均池计算输入数据的平均值的大小特征映射中。(3)全球池将减少每个网络特性映射到一个信号值。完全连接层把转换后的向量矩阵。这里功能映射转换成一个向量送入神经网络,和每一层连接到激活单元。 The fully connected network takes a vector matrix and converts it to a one-dimensional feature vector in order to create a model and categorises SoftMax function using the activation function.

本文的其余部分组织如下:以前的相关研究给出了部分2。部分3探讨了WS-GDL技术的细节,包括框图和算法。部分4考察了实验结果和比较先进的程序。最后,部分5使研究结论和提供了一些整体的视角。

早期大脑发现重要的诊断和治疗,以避免损害病人。文献[5)描述了一种方法基于最小化错误分类误差称为加权关联特征选择迭代学习贝叶斯多元深神经(WCFSIBMDNL)。通过使用WCFSIBMDNL方法,可以克服与肺癌相关的复杂性问题复杂的阶段。提供精度,6)提出了另一个独特的基于遗传算法的机器学习方法和粒子群优化。然而,提出解决响应时间等性能问题。文献[7)检查最普遍的胸、神经和肌肉骨骼急救在肺癌患者。然而,随着数据的不平衡性质,误分类据说发生。为了解决这个问题,提出了一种综合数据水平分析(8]。然而,这两种方法并不是专注于性能困难,相同的反应时间为代表的机密和非机密的数据。

生物信息学的快速发展,微阵列分析技术研究了应对挑战与癌症检测和治疗。一种自适应多项式回归与稀疏重叠集团套索处罚了(9)与事业的目标基因的基因表达数据的分类和选择相关的肺部。大量的分类策略观察(10)为了找到最重要的特征与肺癌有关。卫生专业人员对肺癌所面临的障碍进行了分析(11]。回顾最新的机器学习技术在癌症发展提出了设计(12]。然而,所有的技术都集中在解决重叠的条件来提高系统的精度,但响应时间太缓慢。

每个机器学习技术具有其优点和缺点。统计特性测试中提出了基于多种机器学习技术(13]。这反过来又提高了准确率和曲线下的面积。然而,随着较小数量的临床标记生成模式,该方法计算困难。为了解决这个问题,在14),模糊主动学习方法的目的是提高准确度和精密度。尽管改善,准确度和精密度更高的可用性和庞大的数据,诊断所涉及的复杂性较高。概率决定是应用在15)选择有效的参数,进而改善了涉及大数据的准确率。

监督学习技术,支持向量机,梯度增加机器,和决策树应用于(16)肺癌相应数据和性能评估。心理问题在肺癌中发挥主要作用的识别。在[17],许多影响肺癌的诊断和治疗进行了讨论。早期肺癌检测基于初级保健中提供(18]。早期预测的想法是在这些研究但参数考虑早期预测没有发现提供更好的精度。

看不到边的数据可用性和提高潜力的算法从他们掌握了基于神经网络技术的增加。为解决这些任务提供效率和确保相对比其他浅机器学习方法更好的性能,包括最近的一篇社论的发展和特殊问题的机器(深)学习提出了肺癌的(19]。文献[20.]报道致癌蛋白序列的统计分析基于判别信息的突变基因。文献[21)提供了一个系统的回顾和研究肺癌。减少出错率显著地诊断疾病,而面向梯度直方图和人工神经网络在提供22]。神经网络用于预测早期肿瘤早期预测过程中不合适的;最好是合成在运行时的预测。

还有一些非侵入性的方法,解决不同的模式来预测肺癌;(23]介绍了肺癌的阶段使用非侵入性方法游离DNA (cfDNA)。癌症检测和干预的评估是进行365人患肺癌的风险。癌症检测模型使用一个独立的385个人和46名肺癌患者癌。这项研究帮助我们与各种参数分析模型,解决病人的问题。文献[24]介绍了非小细胞肺癌(NSCLC)从非侵入性肿瘤组织学标准计算机断层扫描(CT)的数据。这种方法用于解决使用深度学习技术在肺癌组织学表型。但小细胞的方法是非常难以实现自训练系统,不同级别的特性是太难了。在[25),没有针对性的代谢组学研究显示关键循环血浆代谢物恶病的肺癌患者,可能有潜在的临床意义恶病质综合征发展或进展。此研究表明,特定的肠道微生物物种之间的联系和恶病的宿主代谢和功能在临床环境中,表明肠道微生物群可能影响恶病质和可能的治疗应用。这个过程,肺癌是确定在不同的方向,从而提高分析的准确性。在研究[26),生物免疫系统被用于Wilcoxon测试和统计测试证明本研究模型所示的增强性能。本研究受益于较低的计算成本。

然而,该模型成功地解决分类和优化任务。这将有利于选择福利魏克森讯号生成深度学习在减轻肺癌提出挑战。

尽管提出了许多方法对肺癌诊断的文学,这些方法没有解决在早期癌症检测。大多数这些方法有各种各样的缺点,包括过度复杂性,未能产生可接受的结果由于缺乏考虑信息或相关特性作为目标,和更高的迭代次数要求得到可以接受的结果。因此,一个有效的特征选择与一个有效的预处理模型技术是必要的。建议方法的主要目的是提出一个新的深度学习方法选择信息特征利用两个Wilcoxon符号秩和信息增益模型。

2.1。限制

该方法成功地处理大数量的特性,允许显著减少特征同时也提高疾病的诊断性能。该模型的贡献如下:(1)一个Wilcoxon符号秩增益模型提出了改进信息增益,因此增加的相关性。(2)符号秩获得预处理算法设计使用测试意义和信息增益来获取信息和重要特征。(3)造型发电机深度学习与双反馈和游戏极大极小函数可以提高准确性和减少假阳性。(4)实验措施进行验证方法的复杂性,假阳性率,和疾病诊断的准确率。

3所示。方法

拟议的肺癌疾病诊断机器学习框架包含两个主要阶段。过滤模型中使用初期排除无关的特性和选择最有益的和随后的疾病诊断的重要信息。在下一步中,发电机深学习模式提出了使用生成器函数应用在深度学习模型诊断肺癌的疾病。WS-GDL技术有两个目标:少量的相关和相关特性和改善疾病检测的准确性。图1说明了整个WS-GDL方法的流程图。

4所示。数据收集

数据集阶段,检查完整的数据集定义,是整个技术的初始步骤。使用的数据集是声称受到各种各样的活动,包括数据集加载和文件阅读(27]。拟议的方法使用胸外科的数据集,以确保测试的准确性的方法区分几种方法中使用的最先进的技术,如重量优化神经网络与最大似然增加(WONN-MLB)基于学习和特征选择(2)和肺癌疾病(LCD) (1]。

患者大肺癌肺切除术为主要研究了2007年和2011年之间在弗罗茨瓦夫胸外科中心。弗罗茨瓦夫胸手术中心隶属于医科大学的弗罗茨瓦夫胸外科和在波兰Lower-Silesian肺部疾病中心。研究数据库,另一方面,是一个国家肺癌库的一部分。研究所的肺结核和肺部疾病在华沙,波兰,监督全国肺癌注册表。

肺癌疾病的诊断,收集以下特点:用力肺活量,性能状态,疼痛在操作之前,咯血前手术,手术前呼吸困难,咳嗽手术之前,弱点在手术之前,初始肿瘤大小,2型糖尿病(DM),吸烟,哮喘、手术、年龄和生存期(28]。的细节特征用于肺癌疾病诊断表中列出1。


特性	值	讲话

DGN	特定组合的icd - 10编码中小学以及多个肿瘤	DGN3、DGN2 DGN4、DGN6 DGN5, DGN8 DGN1
PRE4	用力肺活量(FVC)	数字
PRE5	体积驱逐在迫使过期的第一第二的结论	数字
PRE6	性能状态	Zubrod规模(PRZ2 PRZ1 PRZ0)
PRE7	手术前的痛苦	(T、F)
PRE8	咯血手术前	(T、F)
PRE9	手术前呼吸困难	(T、F)
PRE10	手术前咳嗽	(T、F)
PRE11	手术前的弱点	(T、F)
PRE14	T在原始肿瘤的临床TNM-size OC11(最小的)OC14(最大)	(T、F)
PRE17	2型糖尿病(DM)	(T、F)
PRE19	MI多达6个月	(T、F)
PRE25	外周动脉疾病(PAD)	(T、F)
PRE30	吸烟	(T、F)
PRE32	哮喘	(T、F)
年龄	年龄手术	数字
Risk1Y	1年生存期——街(T)的价值如果死了(T, F)	(T、F)

4.1。Wilcoxon符号秩获得预处理

在几个机器学习应用程序中,特征选择是一个重要的步骤。它在减少艾滋病(即算法的搜索空间。、计算复杂度和计算时间29日]。大多数的癌症疾病诊断系统使用过滤模型作为识别特征的相关子集的第一步。这样的过滤方法帮助移除不相关和冗余的特性导致的高维问题,这是最重要的挑战之一在疾病检测30.]。由于删除无关的特性,提高肺癌疾病诊断的效率。的Wilcoxon符号秩增益模型用于WS-GDL预处理方法。

方法的性能,增加预处理的行为选择的子集是最丰富和重要的特性。预处理模型有三个目的:降低计算成本,加速计算,避免维度诅咒[31日]。在这部作品中,最丰富的特性选择使用Wilcoxon符号秩获得每个原始数据模型在不同的类。使用Wilcoxon的优势符号秩增益模型,它是一个混合预处理模型的优势,它选择的功能独立于任何诊断模型和措施相关的特征子集进化。因此,它具有的优点是计算效率和计算复杂度较低的工作。图2显示了预处理的框图使用Wilcoxon Signed-Rank-Gain模型。

的Wilcoxon符号秩增益(WSRG)测试是一种非参数检验比较两个匹配特性或重复测量在单一功能,看看他们的整体样本均值的变化。让“是指总体样本容量,也就是说,对的数量。然后,对“ ,“让””和““参考测量,与“”代表不同之间的相似性后对分散在零附近,““代表之间的不同对不遵循相似散布到零;测试测量意义如下:

测试的意义“SI”计算使用方程(1)和两次读数。” ,”“ ,“和相应的签署了价值”()”,并签署了排名的总和” ,分别”。紧随其后的是测试的意义,这项工作中使用信息增益选择最丰富和重要特性在给定的训练集的肺癌特征。每个属性都有自己的信息增益值,从而影响是否会在未来用于疾病检测。熵值用于计算信息增益的值。”“代表类的熵分布”米”,是数学表达如下:

从方程(2),““代表”的片段 ,“这属于阶级””与““代表类的数量。然后,对样本的收集” ,“信息增益” “属性”“数学表示如下:

从方程(3),“ ”是指每个子集的熵的总和” 。“这里,” ”是分裂的熵减少预期结果示例基于给定的属性” 。“符号秩的伪代码表示获得中给出了预处理算法1。

输入:数据集” ,“属性””
输出:信息和重要的预处理功能
过程
(1)	开始
(2)	为数据集”“属性””
(3)	措施””
(4)	措施””
(5)	如果”“然后排除对
(6)	回报减少样本容量””
(7)	等级降低样本大小”“从升序,降序
(8)	测量测试意义””
(9)	返回(测试意义””)
(10)	其他的转到第2步
(11)	测量熵为每个测试意义””
(12)	衡量信息增益”“属性””
(13)	返回(子集的特征””)
(14)	如果
(15)	结束了
(16)	结束

正如上面给出的符号秩获得预处理算法,首先,绝对分散在两个测量评估。然后,两个测量之间的符号函数。如果结果值等于零,然后对被排除在分析之外。,样本容量减少,表示为“ ,”之后,剩余的减少样本容量””然后从升序,降序排名绝对差的价值。接下来,测试的意义对于每个测量排名,紧随其后的是信息和重要的特性是通过应用增益系数。信息增益越高,相关性越强据说目标类,因此,信息越高和重要的预处理功能。

4.2。发电机深学习模型

所选特征子集作为输入传递给初始特征选择后的深度学习方法通过预处理模型。深入学习模式应用于所选特征子集,这是受大脑是如何工作的。深度学习的网络训练中产生的结果作为一个混合输入选择涉及深层神经网络的特征子集,给定的特性和目标的一个类别,除了许多隐藏层。通过这种方式,复杂的模式(即。,complex subset of features) are said to be learning with little information.

深入学习算法用于诊断肺癌病如图3。深度学习模型包括三个不同的层次” ,”,最左边的层表示输入层神经元和神经元被称为输入。神经元的数量或功能的重要子集来标示为“ 。“在我们的工作中,重要的特征子集获得通过预处理模式指的是输入神经元。

接下来,中间层然后被称为隐藏层,这是隐藏的神经元形成。最后,最右边的层指的是输出层””或输出神经元构成,肺癌疾病的诊断。准确地诊断样本,一个目标函数定义衡量之间的误差估计结果和明确的结果。在我们的工作中,目标函数是基于一个发电机。一个神经网络,称为发电机,创建新的数据实例,而另一方,称为鉴频器,评估他们对肺癌检测;即鉴别器确定每个实例的数据检查对应于实际的训练数据集。因此,使用发电机作为目标函数确保了双重的反馈回路。作为一个结果,发现真正的积极率更大。发生器的框图如图深度学习模型4。

正如图中所示,发生器的框图深度学习模型中,有两个不同的和独立的实体,发电机和鉴频器。神经网络,一方面,与已知的连锁反应特性的地面真值的子集。鉴别器和生成器,另一方面,在一个反馈回路。减少错误,系统变化时,其内部的值自适应标准定义输入输出函数基于这个发电机模型。此外,深层神经网络具有标准” ,”,“ ,”是指体重链接的特征子集之间的关系”“在””和子集的特征”“在” 。“然后,发电机(即函数。,objective function) is defined as follows:

从方程(4),目标函数发生器””是基于测量的概率分布特性的子集””和概率分布生成的子集的特征” ,分别”。培训的目标””然后被视为改善评估条件概率的对数似” 。“因此,极大极小(即游戏。,minimizing error with maximum accuracy) in equation (4)改写如下:

从方程(5),通过最小化目标函数(即。以最大的准确性”,最小化错误)“使用生成器函数”“相应的特征子集” ,据说“更高的疾病诊断。这是由应用期望””和相应的发电机被”“期望与概率分布和发电机功能。发电机的伪代码表示深度学习在肺癌疾病的诊断算法2。

输入:功能”的子集 ,“重量” ,“偏见””
输出:提高诊断准确性
(1)	初始化重量”“和偏见””
(2)	开始
(3)	为每个子集的特征””
(4)	获得生成器函数
(5)	获得极大极小函数发生器的特征子集
(6)	返回(概率)
(7)	结束了
(8)	结束

如上所述发生器深学习算法,两个重要步骤正在进行预处理产生的特征模型的子集。第一步是通过发电机模型目标函数的生成与偏见和初始化权重随着层数和层的神经元数量。第二步涉及极大极小函数发生器的特征子集,基于概率分布模型。采用发电机作为目标函数的方法,这助长了流的特性与实际,地面实况数据集到鉴别器和一个随机的特征子集。鉴别器接受肺癌疾病诊断和nondiseased病人和回报概率,数字0和1之间,以1反映出疾病被诊断出0代表nondiseased患者被诊断出患有这种疾病。

5。实验评价

建议WS-GDL方法比较两种常见方法:WONN-MLB(与最大似然增加重量优化神经网络)(1)和基于学习和特征选择技术(2]。此外,利用胸外科的数据集,采用机器学习算法对训练使用分类器的特性。计算复杂性、时间复杂度、肺癌诊断的准确性,和肺癌诊断时间高亮显示的参数。

评估该模型证明了通过使用理论评估使用定理和前题。实验结果建立了一个理论确定为100%,一个现实的贡献高达500 - 1000不同的样本。多样性的实际结果还显示有效的性能条件。

5.1。绩效评估的计算复杂度

WS-GDL方法的计算复杂度肺癌疾病的诊断是在深度在这一节中讨论。这三个步骤的计算复杂度是决定使用大符号,不断的复杂性:O(1),线性复杂度:O (n),和二次复杂性:O (N2)。测量给出了计算复杂性所涉及的步骤如下:(1)初始化的WS-GDL肺癌疾病诊断需要” ,”,“”是指目标的计数(在我们的工作与两个目标)和“”是指样本的计算考虑实验。(2)每个搜索重要特性的计算需要大O符号””,“”是指的最大迭代数来评估拟议的WS-GDL肺癌疾病的诊断。(3)下一个”“时间就是需要获取信息和疾病诊断的重要特性。(4)下一个”“需要时间来诊断疾病。(5)因此,所涉及的时间复杂度是“ 。”

从方程(6),时间复杂度”“测量毫秒(ms)。图5显示了时间复杂度WS-GDL方法的性能比较和比较与其他两个方法,WONN-MLB [1)和基于学习和特征选择(2),分别。

的x设在代表病人的数量,y设在表示时间复杂度以毫秒计,如上图所示(女士)。病人的数量是完全相关的时间复杂性,如图表所示。样品的数量(即。,patients) grows, so does the number of iterations and therefore the time spent acquiring informative and important features and disease diagnosis. As a result, the temporal complexity of diagnosing lung cancer disease grows. The WS-GDL technique, on the other hand, was proven to boost performance more effectively. This is obvious from the sample calculation. With “”(即数量的样品。,patients) considered for experimentation and the time involved in obtaining search significant features and diagnosis being “ ,“时间复杂度使用WS-GDL被发现” 。”与“”(即数量的样品。,patients) considered for experimentation and the time involved in obtaining search significant features and diagnosis being “ ,“使用WONN-MLB时间复杂度1被发现” 。”与“”(即数量的样品。,patients) considered for experimentation and the time involved in obtaining search significant features and diagnosis being “ ,“时间复杂度使用基于学习和特征选择2被发现” 。“从这个推断,使用WS-GDL方法减少时间复杂度。这是因为应用的Wilcoxon符号秩增益模型。通过应用这Wilcoxon符号秩增益模型,作为一个混合预处理模型,特征选择独立于任何诊断,除了随时间演变特征子集的提取。因此,它具有的优点是计算效率和最小的计算复杂度。随着时间的推移,时间复杂度进化是使用WS-GDL方法减少了35%(相比1)和54%(相比2]。

5.2。绩效评估的空间复杂度

在WS-GDL肺癌疾病的诊断,在一次性程序初始化阶段空间是必要的。因此,整体空间的复杂性WS-GDL肺癌疾病的诊断是“ 。“这是数学表达如下:

从方程(7),空间复杂性”“测量KB (KB)。图6显示了WS-GDL空间复杂度的性能比较方法,WONN-MLB [1)方法,基于学习和特征选择方法(2),分别。示例使用WS-GDL计算空间复杂性,WONN-MLB [1),和基于学习和特征选择2下面给出。

WS-GDL,””(即数量的样品。,patients) considered for experimentation and the space occupied in obtaining search significant features and diagnosis being “ ,“空间复杂性测量如下:

WONN-MLB,””(即数量的样品。,patients) considered for experimentation and the space occupied in obtaining search significant features and diagnosis being “ ,“空间复杂性测量如下:

基于学习和特征选择,””(即数量的样品。,patients) considered for experimentation and the space occupied in obtaining search significant features and diagnosis being “ ,“空间复杂性测量如下:

图6显示比较结果的空间复杂性(即500种不同的样品。、病人)。性能比较的空间复杂性是发现与增加样本的数量增加。样品越多,空间复杂度越高。这里,获得所需的空间复杂度是指空间信息和重要功能和疾病诊断。因此,越来越多的样品,因此在获得消费更多的空间特性和诊断疾病的增加。然而,具象表现显示了WS-GDL方法更好的结果通过应用。这是因为之间的不同对单独WS-GDL方法通过测试的意义。,首先,非常重要的特性得到基于签署了价值的结果和笔签名。接下来,与合成非常重要的特性,基于信息增益值,得到了信息功能。换句话说,只有获得重要的特性是下一步的信息特征提取和不使用整个功能出现在数据集。因此,使用空间复杂度WS-GDL浓缩4%(相比1)和51%(相比2]。

5.3。绩效评估肺癌的诊断准确性

这个诊断是比较基于诊断的准确性和的数量特征用于疾病诊断肺癌。正确诊断样本的比例相比,样品的总数是用来计算肺癌诊断的准确性。

从方程(11),“”是指样品正确诊断和“”是指样品的总数。三种不同的方法被用来评估每个子集的疾病诊断的准确性。训练和测试样本被用来评估的准确率。然而,在建议的方法中,使用WS-GDL,赋予每个样本在训练一个公平的机会。假设我们有k样品;然后,该方法WS-GDL,”“样本用于培训和剩下的一个样本”“测试用例。现在是重复相同的疾病诊断过程,与以前的测试样本包含在训练集和一个不同的样本认为之前的训练集的测试用例。继续这个过程,直到所有的样本都进行测试。肺癌诊断的准确性使用三种不同的方法显示在图7。

图7显示了性能比较的肺癌诊断精度提出WS-GDL和现有的方法(1,2]。样品的数量(即越多。,patients) is, the lesser the lung cancer diagnosis accuracy is found to be in the above figure. Besides, the number of patients is found to be neither directly proportional nor inversely proportional to the lung cancer diagnosis accuracy. With the increase in the number of samples (i.e., patients), the accuracy rate is not found to be in the increasing trend and not in the decreasing trend. This is because of the presence of random noise; that is, certain amount or number of informative and significant features is discarded during the Preprocessing stage. Hence, the accuracy is not in the increasing or decreasing trend. However, the accuracy rate is found to be improved using the WS-GDL method. This is evident from the samples. With ““实验和样品(病人)考虑”“样品(病人)正确诊断,疾病诊断准确性使用WS-GDL被发现” 。“在类似的方式,以““样品(病人),“样品(病人)正确诊断使用WONN-MLB [1),““样品(病人)正确地诊断出患有疾病使用基于学习和特征选择(2),整个疾病诊断的准确性被发现””和“ ,分别”。使用WS-GDL方法准确率的改善是由于发电机深学习算法。通过应用该算法,生成目标函数被发现使用发电机模型和应用子集的极大极小函数特性,根据概率分布。这两步模型,该算法获得的鉴频器的协助下肺癌疾病诊断患者和肺癌nondiseased病人并返回相应的概率。这反过来又提高了准确率相比使用WS-GDL 7% (1)和12%(相比2]。

5.4。绩效评估的假阳性率

最后,独立于疾病的诊断、假阳性率计算之间的比例比负面事件的数量(即。nondisease)错误地划分为积极的(即。,diseased patient) and the total number of true negative events. In other words, false-positive rate refers to the misdiagnosis of disease, that is, labelling a patient as a “disease diagnosed” patient when the patient is healthy. The false-positive rate is calculated as follows:

假阳性率”“使用不正确的样本计算””和样品的总数”“从方程(12)。它表示为一个百分比(%)。以下是一些错误的积极率估计的例子。

WS-GDL,假阳性率计算如下:““考虑样本实验和“7”错误地分类为病人样品,

WONN-MLB,假阳性率计算如下:““考虑样本实验和“8”错误地分类为病人样品,

基于学习和特征选择,假阳性率计算如下:“10“考虑样本实验和样品错误地分类为病人,

图8显示了假阳性的性能测量速度对500种不同的样品。假阳性率越低越好性能的方法是,因为假阳性率较低,患病的病人发现的错误识别较小。另一方面,假阳性率越高,就越不正确识别病变的患者。从上面的示例计算测量推断,假阳性发现率较小的两个最先进的方法相比,WONN-MLB [1)和基于学习和特征选择(2]。这是因为mgt的应用功能旨在减少错误率或假阳性率和最大化诊断准确性。发电机模型,应用深度学习时,减少了错误诊断通过鉴别器和这个游戏的功能。因此,假阳性的WS-GDL发现较小的9%相比,(1)和18%(相比2]。

WS-GDL方法,与现有方法相比之下像WONN-MLB1)和基于学习和特征选择(2),发现提高性能措施的比例:平均提高了45%,25%,9%,和13%,分别在比较这些现有的方法。除了提出的整体测量系统全局模型的角度来看,它是提高工作流的全视图显示版本你可以Scala错误标记为解决和优先考虑的问题。学习在哪个版本首次出现一个漏洞,合并重复,并知道如果事情在将来发布的版本中回归。系统使用Scala解决错误以最大效率的原则,不是最大的努力。

6。结论

在这项研究中,一个魏克森讯号生成深度学习(WS-GDL)方法对肺癌疾病识别开发基于机器学习技术。但是,与标准的机器学习技术,深层网络用于这项研究有两个功能:一个生成器函数生成新的数据实例和一个鉴别器函数,分别评估他们对肺癌诊断基于提供的样本。这有助于降低假阳性率,因此,提高疾病的诊断准确性。此外,信息和符号秩获得显著的特征提取的预处理算法,从而消除冗余特性和无关的特性,获得更有效的特征子集。然后,为深层网络通过定义目标函数发生器生成诊断病变病人的反馈回路,nondiseased病人正常。最后,一个极大极小的游戏功能应用于发电机功能与最大的精确度降低错误率。该方法已被评估使用胸外科的数据集。定量结果的时间复杂度,空间复杂度,疾病诊断的准确性,和假阳性率,拟议中的WS-GDL提高了性能措施的比例:平均提高了45%,25%,9%,和13%,分别,相比于现有的方法。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者要求(sandeep.kautish@lbef.edu.np)。

的利益冲突

作者宣称他们没有利益冲突的报告关于这篇文章的发表。

作者的贡献

o . Obulesu概念化执行,执行数据管理,表现形式分析,开发方法,和写了初稿;苏雷什Kallam提供软件,执行验证,写了初稿,和发达的方法;Gaurav Dhiman执行监督、审查和编辑文章,进行项目管理和执行的可视化;Rizwan帕坦进行数据管理,进行调查,并提供资源和软件;拉联合国进行数据管理,写了初稿,进行调查,提供了资源,进行验证,并提供软件;Yaswanth Raparthi导致可视化,执行调查,表现形式分析,并提供软件;Sandeep Kautish执行监督、审查和编辑文章,负责资金收购和执行可视化。

引用

j . a . ALzubi b . Bharathikannan s Tanwar r . Manikandan和a·卡纳”Chandrasekar Thaventhiran,“提高神经网络集成的分类肺癌疾病的诊断,“应用软计算杂志卷,80年,第591 - 579页,2019年。视图:出版商的网站|谷歌学术搜索
美国Ahmed Medjahed t·萨阿迪,a . Benyettou和m . Ouali“基于学习和特征选择Ccancer诊断分析,“应用软计算卷,51 39-48,2017页。视图:出版商的网站|谷歌学术搜索
n . Deepa b . Prabadevi p . k . Maddikunta et al .,“基于ai智能系统使用ridge-adaline医疗分析随机梯度下降法分类器,”《华尔街日报》的超级计算卷,77年,第2017 - 1998页,2021年。视图:出版商的网站|谷歌学术搜索
p . Ratta考尔,沙玛,m . Shabaz和g . Dhiman”区块链的应用,物联网在医疗和医疗领域:应用程序,挑战,和未来的视角,“《食品质量,2021卷,2021年。视图:出版商的网站|谷歌学术搜索
A·库马尔Ramachandran A . h . Gandomi r .帕坦s Lukasik和r . p . Soundarapandian“深脑部肿瘤诊断的神经网络分类器,”应用软计算杂志,82卷,2019年。视图:出版商的网站|谷歌学术搜索
m . Abdar w . Ksiauzek, r . Acharya R.-S。Tan诉Makarenkov, p . Pawiak”一种新的机器学习技术的准确诊断冠状动脉疾病,”计算机在生物医学方法和项目文章ID 104992卷,179年,2019年。视图:出版商的网站|谷歌学术搜索
b·德·波特,j . Huyskens b Hiddinga et al .,成像危机和紧急情况的肺癌患者施普林格,纽约,纽约,美国,2018年。
美国Fotouhi、美国Asadi和m . w . Kattan”综合数据分析对癌症诊断水平不平衡数据,”生物医学信息学杂志,90卷,2018年。视图:出版商的网站|谷歌学术搜索
j .李x, y . Wang和h·肖,”自适应多项式回归组重叠的多层次分类的肺癌,”计算机在生物学和医学,100卷,2018年。视图:出版商的网站|谷歌学术搜索
d . ChiccoID和c Rovelli称“计算预测诊断和特征选择的间皮瘤patienthealth记录,“《公共科学图书馆•综合》,14卷,不。1,文章ID e0208737, 2019。视图:出版商的网站|谷歌学术搜索
j·邓恩,g·加维,p . c . Valery et al .,“壁垒肺癌护理:健康专家的观点,”支持治疗癌症,25卷,2016年。视图:出版商的网站|谷歌学术搜索
k .库鲁t . p . Exarchos k . p . Exarchos m v•卡拉和d . i Fotiadis“机器学习应用于癌症的预后和预测,“计算和结构生物技术杂志,13卷,2014年。视图:出版商的网站|谷歌学术搜索
马里兰州。Maniruzzaman Jahanur拉赫曼b Ahammed et al .,“结肠微阵列基因表达数据的统计描述和分类使用多个机器学习范例,”计算机在生物医学方法和项目卷,176年,第193 - 173页,2019年。视图:出版商的网站|谷歌学术搜索
a·哈尔德和a·库马尔,“主动学习使用粗糙模糊分类器对癌症预测从微阵列基因表达数据,”生物医学信息学杂志,34卷,2019年。视图:出版商的网站|谷歌学术搜索
p . j . Wu关,y . Tan“诊断和数据概率决策基于非小细胞肺癌在医疗系统中,“IEEE访问,17卷,第44861 - 44851页,2019年。视图:出版商的网站|谷歌学术搜索
c·m·林奇b . Abdollahi j·d·福et al .,“预测肺癌患者生存通过监督机器学习分类技术,”国际医学信息学杂志》上,108卷,2017年。视图:出版商的网站|谷歌学术搜索
m . Looijmans s Annick,范-梅南et al .,“肺癌的诊断和治疗的心理后果和评价肺癌需要特定仪器usingfocus组方法,”支持性护理在癌症,26卷,不。12日,第4185 - 4177页,2018年。视图:出版商的网站|谷歌学术搜索
m·p·t·肯尼迪,s·h·布拉德利和r·d·尼尔,“识别肺癌在初级保健,”先进的治疗卷,36 19-30,2018页。视图:出版商的网站|谷歌学术搜索
m . Hatt c . Parmar j . Qi, i . El Naqa“机(深)学习图像处理方法和radiomics,”IEEE事务的辐射和等离子体医学科学,3卷,不。2、2019。视图:出版商的网站|谷歌学术搜索
Mohsin Sattar阿卜杜勒·马吉德,“肺癌分类模型使用判别信息的突变基因的蛋白质氨基酸序列,”阿拉伯科学与工程》杂志上,44卷,2018年。视图:出版商的网站|谷歌学术搜索
a . k . Dubey,古普塔,s . Jain”为其预测肺癌的流行病学和方法:系统回顾和分析,“中国癌症杂志,35卷,2016年。视图:出版商的网站|谷歌学术搜索
大肠Adetiba和o . Oludayo肺癌预测使用神经网络集成和面向梯度基因组功能的柱状图,Hindawi出版公司,伦敦,英国,2015年。
d . Mathios j·s·约翰森,s c et al .,“肺癌的检测和表征使用DNA fragmentomes游离,“自然通讯,12卷,不。1、1 - 14,2021页。视图:出版商的网站|谷歌学术搜索
t . l . Chaunzwa a . Hosny y徐et al .,“深度学习肺癌组织学分类利用CT图像,”科学报告,11卷,不。1、1 - 12,2021页。视图:出版商的网站|谷歌学术搜索
倪y, z Lohinai, y Heshiki et al .,“不同的人类肠道微生物群组成和代谢功能与精神萎顿在肺癌患者中,“ISME日报,2021年,页1 - 14。视图:出版商的网站|谷歌学术搜索
d . Gonzalez-Patino Villuendas-Rey, y Villuendas-Rey Arguelles-Cruz, a . j . Arguelles-Cruz o . Camacho-Nieto和c . Yanez-Marquez”AISAC:关联分类的人工免疫系统应用于乳腺癌检测”应用科学,10卷,不。2,p。515年,2020年。视图:出版商的网站|谷歌学术搜索
g . Thippa Reddy, a . Srivatsava k . Lakshmanna r . Kaluri s Karnam和g . Nagaraja”风险预测检查健康状况与实际和合成数据集,“生物医学和药理学杂志,10卷,不。4、1897 - 1903年,2017页。视图:出版商的网站|谷歌学术搜索
段j·l . Ru b . Zhang et al .,“详细研究人体健康监测系统基于物联网,”无线通信和移动计算卷,2021篇文章ID 5592454、9页,2021。视图:出版商的网站|谷歌学术搜索
r . Gadekallu s Thippa Sivarama Krishnan: Kumar s Hakak和s·巴塔查里亚,”区块链攻击检测基于机器学习算法的基于物联网E-health应用,”2020年,https://arxiv.org/abs/2011.01457。视图:谷歌学术搜索
n . Yuvaraj k·斯里赫里,s . Chandragandhi r·a·拉贾g . Dhiman和a·考尔”protein-ligand交互分析SARS-CoV-2对选择性药物使用深层神经网络,”大数据挖掘和分析,4卷,不。2、76 - 83年,2021页。视图:出版商的网站|谷歌学术搜索
b . k . Tripathy m . Parimala g . t . Reddy,“创新的分类、回归模型预测各种疾病,”数据分析在生物医学工程和医疗保健,第203 - 179页,2021年。视图:出版商的网站|谷歌学术搜索

医疗保健工程