基于机器学习算法的软聚类增强慢性病诊断

摘要

慢性病是对全球公共卫生的严重威胁。据估计，它约占全世界所有死亡人数的60%，约占全球慢性病负担的43%。因此，对卫生保健数据的分析帮助卫生官员、患者和卫生保健社区对这些疾病进行早期检测。从医疗保健数据中提取模式有助于医疗保健社区获得用于诊断的完整医疗数据。本研究工作的目的是完善慢性病监测检测系统，以保障人们的生命安全。为此，本系统利用机器学习算法来增强对慢性疾病的检测。与慢性疾病相关的标准数据来自世界各地的各种资源。在医疗保健数据中，特殊慢性病包括类的模糊对象。因此，模糊对象的存在表明涉及两个或更多类的特征的可用性，这降低了机器学习算法的准确性。目前研究工作的新颖之处在于，假设采用非脆度粗糙k -均值聚类方法来解决慢性疾病数据集的模糊性，从而提高系统的性能。 The RKM algorithm has clustered data into two sets, namely, the upper approximation and lower approximation. The objects belonging to the upper approximation are favourable objects, whereas the ones belonging to the lower approximation are excluded and identified as ambiguous. These ambiguous objects have been excluded to improve the machine learning algorithms. The machine learning algorithms, namely, naïve Bayes (NB), support vector machine (SVM), K-nearest neighbors (KNN), and random forest tree, are presented and compared. The chronic disease data are obtained from the machine learning repository and Kaggle to test and evaluate the proposed model. The experimental results demonstrate that the proposed system is successfully employed for the diagnosis of chronic diseases. The proposed model achieved the best results with naive Bayes with RKM for the classification of diabetic disease (80.55%), whereas SVM with RKM for the classification of kidney disease achieved 100% and SVM with RKM for the classification of cancer disease achieved 97.53 with respect to accuracy metric. The performance measures, such as accuracy, sensitivity, specificity, precision, andF，用于评估拟议系统的性能。此外，本文还对提出的系统与现有机器学习算法进行了评价和比较。最后，该系统提高了机器学习算法的性能。

1.介绍

慢性病是一种严重的疾病，因为它们对人们的生命构成严重威胁，并且会持续很长时间。它们会妨碍身体残疾者的自由和健康。因此，它们会进一步使患有各种健康残疾的人感到沮丧。现有的疫苗和药物无法完全满足他们的需要y预防慢性病，因为它们在任何情况下都没有任何迹象。随着年龄的变化，慢性病继续成为一种更常见的现象。因此，有必要确定导致慢性病的因素，并相应地采取必要的纠正措施。因素如吸烟、缺乏体育活动、饮食不足或缺乏锻炼过度饮酒可能在很大程度上导致慢性病。此前的研究已将慢性病列为其他死因中的第七位。在美国，2010年慢性病导致美国男性65.8%的死亡，女性67.2%的死亡[1.］.心脏病、癌症、糖尿病、哮喘和肾病被确定为慢性疾病。此外，慢性病被视为非传染性疾病;它们在很长一段时间里慢慢地结束人们的生命。慢性病不会从一个人传染给另一个人。在美国，慢性疾病推高了医疗服务费用，合理地分割了人类服务。它们是经济的重要组成部分，阻碍人民的健康质量。这项研究促进了慢性疾病的分类，即癌症、肾脏、哮喘和糖尿病。世界卫生组织在2002年的报告中指出，主要慢性病都造成了死亡、可怕和丧失能力。目前的记录显示，60%的死亡和43%的全球疾病是由慢性病造成的。 By 2020, it is expected that the percentage of deaths will reach 73% of total deaths and 60% of the global weight of sicknesses [2.］.在机器学习算法的帮助下，预测慢性病已经成为一项简单的任务。因此，我们的目标是开发一个监测系统来预测和诊断医疗数据，以帮助健康社区。

机器学习算法提高了个体预测的水平，因此诊断最终将加强预测的努力。提供良好的预防措施不仅将增强或提供良好的健康，而且还将减少保健支出。机器学习技术在医疗保健领域得到了广泛的应用。它们现在已经成为医疗保健管理的关键工具。他们还利用对全世界人民面临的流行病的预测措施，帮助改善卫生保健。世界卫生组织(世卫组织)从使用机器学习应用程序中受益匪浅，这些应用程序提高了卫生保健的质量。

为了解决实时应用中的各种问题，机器学习算法被认为是分类、聚类和预测。它们为分类和预测解决方案的稳定性和可靠性提供了保证。一些研究人员在机器学习算法的基础上开发了成功的医疗保健系统。算法包括统计、支持向量机、决策树、聚类和优化算法等。机器学习应用程序主要依赖于分析和发现用于解决特定任务的模式的数据集。医疗保健系统在健康领域具有潜在的推广价值并发现数据库中隐藏的模式[3.］.因此，可用的医疗保健数据普遍是分散和模糊的。在预测和分类的稳定性方面，它们也可能包含不充分和不重要的信息。医疗保健数据及其信息的最大挑战之一是对某些重要信息的准确诊断。为了预测和分析慢性疾病，如肾脏、糖尿病、癌症和心脏病，有几种提出的机器学习算法可以使用。这些算法包括决策树(DT)、支持向量机(SVM)、人工神经网络(ANN)、线性回归(LR)、KNN、NB和时间序列预测模型。由于软件工程的快速创新和不断变化，可以产生大量的信息。随着医疗数据库管理系统的发展，医疗系统将有更多的改进机会。从这些数据集中提取模式并管理大量的维数数据已经成为机器学习的一个主要领域。机器学习算法被认为是医疗保健数据集的分类，以获得有用的知识，可以帮助卫生官员和社区。 To apply machine learning algorithms that enhance the performance of the classification process, the preprocessing of the soft clustering algorithm is required.

本文的其余部分分为几个部分。引言将在本节中讨论1.，相关研究见第节2.，数据和方法见章节3.，结果和讨论见第节4.最后，在第节中给出了结论5.．

在医疗保健数据的分类和预测方面已经进行了大量的研究工作。Solanki [4.]提出了Weka工具上大多数用于预测流行镰状细胞病的分类器算法。在Weka数据挖掘工具上可以得到与分类器进行比较的结果。研究表明，随机树方法是一种较好的镰状细胞分类算法。类似地，Joshi等人[5.]使用了许多机器学习方法，如贝叶斯网络、逻辑模型树(LMT)、多层感知、随机梯度下降和顺序最小优化技术。这些研究人员建议使用LMT算法诊断乳腺癌，因为它的高性能和准确性。此外，David等人[6.]应用KNN算法、贝叶斯网络、决策树算法和随机树方法，即J48树来预测白血病疾病。因此，发现决策树算法在结果中显示出更好的准确性。Vijayarani和Sudha进行的另一项研究[7.]使用LMT和序列最小优化多层和感知器算法预测心脏病[8.]提出了一种用于心脏病分类的随机树算法。研究结果表明，随机树分类算法的性能优于其他分类算法。因此，从随机树分类器获得结果时，发现随机树分类器的性能优于随机树分类器。释迦牟尼与甘南的研究[9]也有报道称，Weka分类算法用于分析和预测糖尿病患者的数据库。同样，本·奥斯曼和尤[10]比较了不同的分类方法与Weka数据挖掘工具预测乳腺癌。Israa [11]应用NB、决策树(DT)、随机森林、支持向量机等技术改进心脏病分类。另一方面，D.西索迪亚和西索迪亚[12]提出了三种机器学习算法；也就是说，使用DT、SVM和朴素贝叶斯（NB）来检测糖尿病。因此，使用UCI机器学习库中的标准数据进行了实验。结果表明，与其他算法相比，NB方法的准确率高达76.30%。Syed等人的研究[13]采用支持向量机、贝叶斯网络和决策树算法预测学童肥胖。Sandeep等人[14]提出了线性判别分析(LDA)、NB、随机森林、LR和二次判别分析(QDA)对慢性肾脏疾病进行分析和分类。Sahana和Minavathi的研究[15]也专注于使用分类算法预测肾脏疾病，即ANN和C45。它着重于准确的预测和时间因素的性能。人工神经网络和C45算法用于帮助医生提供适当的药物和医疗治疗。K. Polaraju和Prasad [16]提出了一个多元回归模型来对慢性心脏病进行分类。证明了多元线性回归模型对心脏病的预测是有利的。

在本研究中，训练数据集由3000个具有13种不同特征的值组成。实验结果表明，回归算法的性能优于其他算法。Kim等人[17]提出了特征递归神经网络(Char-RNN)模型来预测慢性病。他们收集了韩国国民健康和营养调查(KNHANES)的数据。结果表明，与传统多层感知器模型相比，Char-RNN模型获得了更高的精度。吴等人[18]使用机器学习算法检测心力衰竭。此外，电子健康记录数据用于预测事件和疾病的发病。张等[19]提出了一种卷积神经网络(CNN)结构，命名为Group Net，用于预测慢性病。因此，使用当地医疗中心的数据进行实验分析。他们注意到CNN已经达到了最好的准确性。Kriplani等人[20.已经使用深度学习来预测慢性肾脏疾病。建议的模型通过使用UCI上可用的标准疾病数据集进行测试。分析结果在使用交叉验证性能方面表现较好。Liu等[21]提出了CNN、LSTM和层次模型来预测慢性病。布里西米等人[22]已经应用了四种机器学习算法，即SVM，脑内，稀疏的逻辑回归和随机森林来预测慢性心脏和糖尿病疾病。他们收集了电子健康记录（EHRS）的标准数据。陈等。[23]使用流线型机器学习技术预测慢性病流行。他们的实验利用2013-2015年从中国中部收集的真实医院数据提出了预测模型。卷积神经网络是基于多模态疾病风险预测（CNN-MDRP）实现的使用来自医院的结构化和非结构化数据的算法[24]我们已经开发了一个系统，使用三个分类器，如KStar、SMO和J48、贝叶斯网络和多层感知神经网络算法，借助Weka软件对心脏病进行分类。通过使用k-折叠交叉验证方法，观察到与进一步的分类算法（即KStar、多层感知和J48方法）相比，贝叶斯网络实现了最佳性能。Deepika和Seema的研究[25]还设计了一个通过naïve贝叶斯、决策树、支持向量机和人工神经网络等机器学习算法预测慢性病的系统。对算法的性能进行了比较分析。我们观察到，在预测糖尿病疾病时，向量机和naïve Bayes的支持提供了最高的准确率。Ul Haq等[26]提出了不同的机器学习算法，如朴素贝叶斯、分类树、KNN、logistic回归、SVM和ANN来预测心脏病。采用三种特征选择方法对分类算法进行改进。结果表明，该特征选择方法提高了分类器预测心脏病的性能。Ahmed等人[27]提出了一种用于肾脏疾病分类的模糊逻辑算法[28]采用了两种分类方法，即logistic回归和ANN。熏等人[29]提出了用于预测慢性病的神经网络和naïve贝叶斯分类器。一些研究人员使用UCI机器学习库测试提出的模型，如慢性疾病[30.,31]，糖尿病疾病[32,33，以及乳癌[34］.Kim等人使用深度学习算法预测慢性病[17用于慢性病诊断的受自然启发的计算算法[35]并利用机器学习算法开发了用于慢性病诊断的电子健康系统[36］.

在目前的研究文章中，传统的机器学习算法被用来预测慢性病。因此，需要现有分类算法的结果来提高医疗系统的可靠性。然后采用软聚类算法提高分类算法的准确率。

3.材料和方法

提出的模型被明确设计为使用机器学习算法对慢性疾病进行分类。数字1.展示了结合现有机器学习算法和粗糙k-均值聚类技术的系统。给出了处理模糊对象的非清晰粗糙k-均值算法。这些模糊的对象阻碍了机器学习算法的性能。RKM集群将数据集群为两个集群。因此，它被用来测量物体的粗糙度。此外，该阈值还可以最大限度地提高目标的粗糙度，以减少目标的模糊性。阈值参数在非脆算法的编程中起着非常重要的作用。实验发现，阈值为1.4。采用RKM算法处理模糊目标，改进了分类算法。RKM算法将数据聚类为下近似和上近似，其中下近似中聚类的对象被考虑，而上近似中聚类的对象被排除。 The novelty of the proposed model has used rough k-means to handle the ambiguous objects belonging to lower approximation that is processed with the help of machine learning algorithms. The rough k-means clustering is proposed to explicitly determine ambiguous objects. To close, it is investigated that the results of the proposed system have outperformed all the alternative models used for measuring the performance. The detailed description of the proposed system is discussed in the following subsections.

３．１．数据集

慢性病数据集已从不同的资源收集如下:

3.1.1。糖尿病疾病数据集

从机器学习库收集的糖尿病数据包含九个属性、八个特征和一个类。该数据集是从自动电子记录设备和纸质记录中收集的[37］.表格1.显示数据的特征。


功能名称	类别

怀孕	数字
葡萄糖	数字
血压	数字
皮肤厚度	数字
胰岛素	数字
体重指数	数字
糖尿病血统函数	数字
年龄	数字
等级	名义上，糖尿病患者，非糖尿病患者(0,1)

3.1.2。乳腺癌疾病数据集

从Kaggle中收集的癌症数据包含9个属性、30个特征和1个类。这些特征是从乳腺癌的数字化图像中获得的[38］.表格2.显示数据的特征。


功能名称	类别

Id	数字
半径的意思	数字
Texture_mean	数字
Perimeter_mean	数字
Area_mean.	数字
Smoothness_mean	数字
Compactness_mean	数字
Concavity_mean	数字
凹points_mean	数字
Symmetry_mean	数字
Fractal_dimension_mean	数字
半径	数字
Texture_se	数字
Perimeter_se	数字
Area_se	数字
平滑度	数字
紧致度	数字
Concavity_se	数字
凹点	数字
对称性	数字
分形维数	数字
Radius_worst	数字
纹理最差	数字
Perimeter_worst	数字
Area_worst	数字
平滑度最差	数字
Compactness_worst	数字
Concavity_worst	数字
凹points_worst	数字
对称性最差	数字
Fractal_dimension_worst	数字
诊断	名义上(M=恶性和B = 良性的）

3.1.3.肾脏疾病数据集

从Kaggle收集的肾脏数据包含26个属性、24个特征和1个类别[38］.表格3.显示数据的特征。


功能名称	类别

年龄	数字
英国石油(bp):血压	数字
sg：比重	标称值：1.005、1.010、1.015、1.020、1.025
艾尔:白蛋白	标称：0,1,2,3,4,5
苏:糖	标称：0,1,2,3,4,5
红细胞	名义:0 1
pc:脓细胞	名义:0 1
PCC：PUS细胞团块	名义:0 1
芭:细菌	名义:0 1
血糖随机	数字
部:血尿素	数字
血清肌酐	数字
sod:钠	数字
锅:钾	数字
麻:血红蛋白	数字
Pcv:填充细胞体积	数字
Wc:白细胞计数	数字
红细胞计数	数字
高血压	名义上
糖尿病:糖尿病	名义上
冠心病	名义上
索引：胃口	名义上
足水肿	名义上
贫血	名义上
类:类	名义上:CKD，不是CKD

3.2.处理歧义

机器学习算法已成功应用于许多实时应用，如图像处理识别、视频识别、市场预测、天气预报和网络安全。传统的机器学习算法用于识别只属于一类的对象。在数据分析中，对象可能显示不同类的特征[39］.在这种情况下，一个对象应该属于一个以上的类，因此，对象边界必然会重叠。机器学习算法将一个对象精确地分类为一类。数字2.显示了模糊的数据。在许多实时应用程序中，这样的要求被发现过于严格。

在图2.，可以注意到模糊对象的基本例子。它清楚地显示了三个独立的类。因此，我们观察到五种物体并没有被精确地分类。因此，这五个对象降低了机器学习算法的性能。因此，在应用机器学习算法之前，需要确定这些模糊的对象并对其进行处理。针对这一问题，目前的研究工作应用RKM技术来识别来自慢性疾病数据集的模糊数据包。后续小节将详细描述用于识别模糊目标的RKM算法。

3.2.1.粗糙K-均值聚类算法

提出的RKM聚类方法基于简单的K-means聚类[40–42］.彼得斯(43]改进的算法[40]（原始方案）通过使用距离比计算粗糙质心，作为区分相似距离的新方案。乔希和林格拉斯[44]采用RKM和ECM聚类算法处理高维数据。阿尔德亚尼和乔希[39]使用粗糙K均值和ECM聚类算法处理入侵检测中的模糊对象。粗糙K均值方法用于确定属于聚类上边界的模糊对象。将数据聚类为下近似和上近似。粗糙K均值表示每个对象。（P1）物体最多可以是一个下近似的一部分(下界)（P2）∈ = ⇒∈(P3)一个对象不是任何下近似的一部分属于两个或更多的上近似(上界)

总的来说，软聚类的思想更适合处理不明确的对象。在处理算法时，分配所有对象和．对于每个目标向量，让D( , )是自身与簇质心之间的距离．让D( , )= 1分钟J k d( , ）。的比率D( , )/D( , ），1 ≤ 我,J≤K，用于确定．让T= { : D( , )/D( , )≥阈值和}.(1）如果T = , ∈A.( )和∈A.( ），∀J∈T.此外，不是任何较低近似值的一部分？上述标准保证满足属性（P3）。（2）否则,如果T = , ∈A.( ）。此外，根据属性(P2)，∈A.( ）。

粗糙k均值算法对歧义处理具有稳定性和可靠性。粗糙k-均值算法将聚类对象分为下界和上界。上界中的对象是模糊的对象，而下界中的对象是正确的对象。上界不能为空，上界中的对象可以属于集群号的一个或多个上界。数字3.显示从RKM算法获得的输出快照，用于确定模糊对象，以提高机器学习算法的性能。下界中的对象是校正对象，而边界上的对象是模糊对象。

３．３．分类算法

本节将讨论传统的机器学习算法。提出了基于朴素贝叶斯(naive Bayes, NB)、支持向量机(support vector machine, SVM)、k -最近邻(K-nearest neighbor, KNN)和随机森林树(random forest tree, KNN)的慢性疾病自动分类方法，以提高医疗卫生系统的健康水平。

3.3.1。支持向量机算法

采用支持向量机对数据进行分类和回归分析。在支持向量机算法中，数据点被认为是N- 存在有多个数据特征的多维空间，并且特征值是特定坐标的值。通过在使用超平面找到数据类之间的最佳差异，实现了数据的分类。支持向量机算法通过分离标签训练数据的多动平面来分类数据。当边距很大时，SVM获得更低的错误。在目前的研究工作中，使用了两种慢性疾病。应用所有类型的内核功能以对径向基函数（RBF）的慢性疾病数据集进行分类，以及内核功能，获得高精度。应用内核功能并观察到RBF功能和核功能适用于RKM算法，以获得良好的精度。在哪里两个特征向量和之间的平方欧氏距离是多少σ是一个参数。

3.3.2。朴素贝叶斯算法

朴素贝叶斯算法定义为一种基于众所周知的贝叶斯概率定理对数据集进行分类的概率方法。naïve Bayes分类算法包括先验概率、后验概率、似然概率和证据概率。它通常使用概率分布。工作的贝叶斯算法如下:假设A. = A._1.,A._2.,A._3.，......，A._N作为慢性病特征的特征向量，特征值为A._1.,A._2.,A._3.，......，A._N并且被视为数据集中的许多功能。C表示一类慢性数据为正常和异常。Bayes方程如下:条件概率：

假设预测器A.在给定的课堂上C独立于其他预测器的值，称为条件类独立性。是类的后验概率吗C，给定预测器(特征)。定理如下:

3.3.3.K-最近邻算法

k近邻算法是一种简单的机器学习算法，它在训练阶段使用整个数据集。KNN算法具有较低的编程和实现复杂度。它的基本思想是在一个样本空间中，当其最近邻的特征属于一个类别时，这些特征就属于同一类别。KNN分类算法既可以用于单个特征数据集，也可以用于多维特征数据集，并能找到最接近的特征。它采用欧几里得距离法来寻找特征中最近的点。

3.3.4.随机森林算法

决策树算法是强大的决策之一。它用于构建随机林的块。它用于在每个步骤中从数据集中选择对象的最佳分割。为了减少高度利用的方差，我们可以使用不同的数据集样本创建多棵树，并将此操作与引导聚合或bagging。bootstrap聚合方法的缺点是用于溢出每个树的值，这在决策中造成了问题。此外，它使训练数据的预测相似，并减少了最初寻求的方差。因此，随机森林算法可进一步用于分类和回归问题lems和用于数据过拟合。通过使用信息增益方法从整个数据集中发现值或信息来测量所选属性。通过选择高增益属性为每个分割属性计算信息增益方法。假设D是数据集。在哪里D是数据集，我 = 1.,2.，......，M是数据集的类吗D，概率是P_我

让B是数据集中的属性D和中的属性值B．属性是用于从属性生成大量信息的分区。

属性显示最高的信息如下:

3．4．性能测量

性能指标用于测试和评估建议的系统。准确性、特异性和灵敏度、精密度、召回率和F-score评价矩阵被用来检验所提出的模型。评价矩阵由公式(9)- (13)如下所述。我们有真阳性（TP）、真阴性（TN）、假阳性（FP）和假阴性（FN）。

3.4.1。精度

准确性是模型在各种预测上所做的正确预测的数量。它计算为正确的标签（TP + TN）的总数除以慢性疾病数据集的总数（P + N）：

3.4.2。特异性

特异性（也称为真正的负率）是一种措施，告诉我们没有患有慢性疾病的患者的百分比，这些患者是由模型而不是慢性疾病预测的：

3.4.3。灵敏度

敏感度(也称为真实阳性率、召回率或检测概率)是一种衡量方法，它反映了由慢性病分类算法诊断出的真正患有慢性病的患者的百分比:

3.4.4。精度

精确性是一种衡量我们诊断为患有慢性病、实际上患有慢性病的患者比例的指标。它被称为阳性预测值（PPV）：

3.4.5。F1分

F1分(也叫精度，F-得分，F-测量和召回）是精度和召回率的调和平均值（平均值）：

4.实验结果与讨论

因此，粗糙的K-means算法用于改善慢性疾病的分类。它用于确定阻碍了分类算法的模糊对象。它进一步尝试了各种标准慢性数据集。它旨在提高慢性疾病的诊断。在开始，常规分类算法用于预测慢性疾病。然而，观察到所得结果不合适。从获得的结果中，应注意，存在减少机器学习算法的准确性的模糊物体。我们在建议系统的实现中面临的最大挑战之一是嵌入在标准数据集的变量中的歧义。因此，考虑RKM算法处理这些模糊的物体，以便可以提高分类算法的准确性。RKM算法适当地设计用于检测慢性疾病数据集中的模糊性。 The experimental results have shown that the performance of the proposed system is better than that of the conventional models. For measuring and evaluating the performance of the proposed system, the performance measures are applied. The standard evaluation matrices, namely, accuracy, specificity, sensitivity, precision, andF-score已经提出，以测试提出的系统与现有的机器学习技术。此外，为了验证所提出的系统，将数据集分为70%的训练和30%的测试。许多实验都试图对这个系统进行评估。机器学习算法和增强模型对各种数据集的结果如下:

4.1.糖尿病患者疾病分类结果

本节对改进后的分类算法进行了不同的实验。采用软计算粗K-means算法处理模糊对象。慢性疾病数据集中的模糊目标问题降低了机器学习算法的性能。当将分类算法应用于原始糖尿病数据时，观察到结果并不理想。从数据中分析了存在模糊目标的问题，从而阻碍了分类算法的实现。糖尿病数据包含7个实例和两个类。通过RKM聚类对这些模糊对象进行检测，以帮助确定模糊疾病的确切类别或最接近的类别。该数据集已被聚类为两个集群，对应于两个类，在数据集中标记为变量。RKM算法将模糊目标聚类为上近似和下近似。那些属于上近似的对象，属于一个或多个簇数，被排除在外。 Among 768 instances, 718 instances are clustered as a lower approximation. Moreover, the remaining objects are clustered as an upper approximation and are considered as ambiguous objects as well. The ambiguous objects have been denied from the data. The classification algorithm is applied to process the data in a lower approximation for diagnosing the diseases. Table4.显示了用于发现模糊目标的RKM算法的结果。


集群数量	较低的近似	上近似

第一组第2组	718	50

表格5.显示了分类算法的结果，即naïve Bayes、SVM、随机森林树和KNN。结果表明，所得结果还有待改进。rough K-means用于增强已有的机器学习。表格6.展示了基于RKM算法的机器学习技术的结果。粗糙k -均值用于处理模糊对象。结果表明，RKM算法改善了分类算法的结果。naïve Bayes结合RKM的准确率为80.55%，灵敏度为80.14%，特异性为80.14%，精密度为90%，F-score为84.78%。与之相似，RKM方法的SVM结果分别为77.78、77.24、78.87、88.19、82.35，分别对应于accuracy、sensitivity、specificity、precision、andF-分数，按顺序排列。使用RKM的随机森林结果分别为77.20、56.09、69.05和62.0。此外，使用KNN和RKM获得的结果分别为71.30%、79.29%、56.58%、77.08%、77.08%和78.70%。最后，从获得的数据来看，使用RKM算法改进了分类算法。图4.–7.用RKM算法验证了分类算法的性能。


模型	精度(%)	灵敏度(%)	特异性(%)	精度(%)	F分数(%)

朴素贝叶斯	69.69	70.72	66	88.19	82.35
支持向量机	73.16.	73.79	72.09	81.68	82.35
随机森林	76	55.6	65.6	55.6	60.02
KNN	65.80	56.79	56.58	51	53.80


模型	精度(%)	灵敏度(%)	特异性(%)	精度(%)	F分数(%)

Naïve贝叶斯与RKM	80.55	80.14	80.14	90	84.78
支持向量机与RKM	77.78	77.24	78.87	88.19	82.35
随机森林与RKM	77.20	56.9	69.05	56.9	62.06
knn与rkm.	71.30	79.29	70.67	77.08	78.17

4.2.肾脏疾病分类结果

本节展示了借助机器学习算法和增强的拟议系统对肾脏疾病的分类。表7.显示了从RKM算法获得的结果，以找出不明确的对象。肾脏疾病包含400个实例。数据分为两类。粗略的K均值将数据分为上近似值和下近似值。在下近似值下聚集的对象为174个实例。那些elong到lower近似被视为已批准的对象，因为它们属于相同的簇号。剩余的对象，即226个对象，在lower近似中被聚集，这被认为是不明确的对象。


集群数量	较低的近似	上近似

第一组第2组	174	226

表格8.显示了现有机器学习算法的性能，即naïve Bayes、SVM、随机森林树和KNN。观察到，如果处理模糊对象，则有可能改进分类算法。还应注意，RKM算法改进了分类算法的结果。表9展示了基于RKM算法的机器学习技术的结果。naïve Bayes与RKM的结果分别为98.11%、96.43%、96.15%、96.15%和98.04.78%。同样，RKM方法的SVM结果在准确性、敏感性和特异性、精密度和f评分方面分别为100%、100%、100%、100%。随机森林的RKM结果分别为100%、100%、100%、100%和98.02%。KNN与RKM结合的结果分别为84.91%、80.65%、90.91%、92.59%和86.21%。最后，从得到的结果可以看出，采用RKM算法对分类算法进行了改进。数据8.–11显示分类算法与RKM算法在预测肾脏疾病方面的性能。


模型	精度(%)	灵敏度(%)	特异性(%)	精度(%)	F分数(%)

朴素贝叶斯	95.87	89.36	89.36	93.67	96.73
支持向量机	50.2	37	40.0	42.0	51
随机森林	98.07	One hundred.	96.6	One hundred.	98.02
KNN	69.57	60.03	74.39	82.65	76.86


模型	精度(%)	灵敏度(%)	特异性(%)	精度(%)	F分数(%)

Naïve贝叶斯与RKM	98.11	96.43	96.15	96.15	98.04
支持向量机与RKM	One hundred.	One hundred.	One hundred.	One hundred.	One hundred.
随机森林与RKM	One hundred.	One hundred.	One hundred.	One hundred.	One hundred.
knn与rkm.	84.91	80.65	90.91	92.59	86.21

4．3．癌症疾病分类结果

本节展示了使用现有机器学习算法对癌症疾病进行分类，以及使用RKM算法提出的系统。癌症数据包含569个实例，这些实例被分为良性和恶性两个类。采用软计算RKM聚类算法处理模糊对象。它根据数据的类标签将数据分成两个集群。RKM技术将数据聚为低近似和高近似。属于下近似的对象是合适的对象，并采用机器学习算法进行处理。而聚类成上近似的对象则被认为是模糊对象。RKM在低近似下聚为539个物体，其余的物体在高近似下。表格10演示了RKM算法的结果。随后，机器学习被用于诊断癌症为良性和恶性。


集群数量	较低的近似	上近似

第一组第2组	174	226

表格11显示了传统机器学习在癌症疾病分类中获得的结果。注意到结果需要进一步改进，并应用RKM算法对现有机器学习算法进行了改进。表12给出了模型的结果分析。naïve Bayes与RKM的结果分别为94.44%、94.95%、93.65%、95.92%、95.43%的准确率、敏感性、特异性、精密度和F-score。同样，RKM方法的SVM的准确率为97.53%，灵敏度为99.07%，特异性为94.44%，精密度为97.27,F-score为98.17%。随机森林的RKM值分别为96.30%、93.09%、96.01%、95%和93.09%。KNN与RKM结合的结果分别为85.80%、95.05%、70.49%、84.21%和89.30%。最后，根据得到的结果，研究了采用软聚类RKM算法对分类算法进行改进。数据12–15展示了分类算法与RKM算法在癌症疾病诊断中的性能。从所显示的图形表示可以看出，所提出的系统是更好的。


模型	精度(%)	灵敏度(%)	特异性(%)	精度(%)	F分数(%)

朴素贝叶斯	88.89	88.24	89.86	92.78	90.45
支持向量机	95.91	96.49	94.44	97.27	92.01
随机森林	95.06	90.2	96.05	90	93.2
KNN	79.53	89.42	64.18	79.49	84.16


模型	精度(%)	灵敏度(%)	特异性(%)	精度(%)	F分数(%)

Naïve贝叶斯与RKM	94.44	94.95	93.65	95.92	95.43
支持向量机与RKM	97.53	99.07	94.44	97.27	98.17
随机森林与RKM	96.30	93.09	96.01	95.0	93.09
knn与rkm.	85.80	95.05	70.49	84.21	89.30

5.比较分析

在本节中，将在相同的数据集中对所提出的模型和其他一些最先进的工作进行比较分析。这种比较是非常重要的，因为它检验了所提出模型的结果。准确性度量用于比较所提出的模型与现有分类算法。表格13结果表明，提出的系统和现有的神经网络方法。实验结果表明，该方法优于现有的神经网络方法。


技术	参考文献	精度(%)	疾病

安	[45]	80.4	肾脏
广义回归神经网络	[46]	80.20	糖尿病
反向传播神经网络	[47]	95.03	肾脏
BPNNs	[48]	92.84	乳腺癌
提出的模型		One hundred.	肾脏
提出的模型		80.55	糖尿病
提出模型		97.53	乳腺癌

6.结论

由于存在模糊对象，现有机器学习在诊断慢性病方面的表现受到阻碍。这些模糊的对象在多个类中显示特征。为了更明确地识别和处理模糊目标，我们提出了一种非清晰的RKM聚类方法来处理这些模糊目标，从而提高了分类算法的准确性。该系统的框架在于使用了一种软聚类算法，即粗K-means，可用于建模模糊性。粗糙k均值聚类可以帮助确定模糊目标的准确类别或近似类别。研究发现，RKM算法提高了传统机器算法预测慢性病的性能。不明确的对象被排除在慢性数据集之外。因此，RKM算法将数据聚类为上下近似。以较低近似聚类的目标被认为是合适的目标。另外，对属于上近似的对象予以否定，并将其视为模糊对象。 The objects that belong to the lower approximation are proposed by using machine learning algorithms to predict chronic diseases. The experimental results demonstrate that the proposed system is successfully employed for the diagnosis of chronic diseases. Comparative analysis results between existing machine learning algorithms and the proposed system are presented. Moreover, it is observed that the results of the proposed system are superior in terms of accuracy, specificity, sensitivity, precision, recall, and F-score performance measures. Identifying common web search activity behaviour is regarded as a proxy for chronic disease risk factors using machine learning algorithms can be considered in future work.

数据可用性

用于支持本研究发现的数据可由通讯作者要求提供。

的利益冲突

作者声明没有利益冲突。

致谢

作者致谢了德国州国王大学科学研究的院长，为奔跑轨道的财政支持（授予第186163号）。作者承认国王福萨斯大学科研院长财政支持。

补充材料

慢性病数据集从不同的资源收集如下:糖尿病数据集:从机器学习存储库中收集的糖尿病数据包含9个属性、8个特征和1个类。这个数据集是从自动电子记录设备和纸质记录中收集的。2.乳腺癌疾病数据集:从Kaggle收集的癌症数据包含9个属性，30个特征和1个类。这些特征是从乳腺癌的数字化图像中获得的[38]肾脏疾病数据集：从Kaggle收集的肾脏数据包含26个属性、24个特征和1个类别[38］.(补充材料)

参考文献

https://www.cdc.gov/．
https://www.who.int/．
J.H.Witten和E.Frank，“数据挖掘：实用的机器学习工具和技术，”国际控制论与信息学杂志（IJCI），第4卷，第4期。4、2015。浏览：谷歌学术搜索
A. V. Solanki，“使用WEKA分类的镰状细胞病数据挖掘技术”，国际计算机科学与信息技术杂志，第5卷，第5期。4, pp. 557 - 560, 2014。浏览：谷歌学术搜索
J. Joshi, D. Rinal，和J. Patel，“使用分类规则诊断乳腺癌和预后”，国际工程研究与科学杂志，第2卷，第6期，第315-323页，2014年。浏览：谷歌学术搜索
S. K. David, A. T. Saeb，和K. Al Rubeaan，“在医学生物信息学中使用WEKA的数据挖掘工具和分类技术的比较分析”，计算机工程与智能系统，第4卷，第13期，第28-38页，2013年。浏览：谷歌学术搜索
S. Vijayarani和S. Sudha，“心脏病预测分类功能技术的比较分析”，计算机与通信工程创新研究国际期刊， vol. 1, no. 13, pp. 735-741, 2013。浏览：谷歌学术搜索
C. Sugandhi, P. Yasodha, M.。Kannan，“WEKA工具中白内障患者数据库人群分析”，国际科学与工程研究杂志，第二卷，第10期，2011年。浏览：谷歌学术搜索
P. Yasodha和M. Kannan，“WEKA工具中糖尿病患者数据库人群分析”，国际科学与工程研究杂志，第2卷，第2期5, 2011。浏览：谷歌学术搜索
M. F. Bin Othman和T. M. S. Yau，“使用WEKA对乳腺癌不同分类技术的比较”，刊于第三届吉隆坡生物医学工程国际会议论文集，第520-523页，施普林格海德堡，吉隆坡，马来西亚，2006年12月。浏览：出版商的网站|谷歌学术搜索
A. israel和M. Azzeh，“利用数据挖掘分类预测心脏病的比较研究”，国际计算机科学与信息安全杂志第14卷第2期12日,2016年。浏览：谷歌学术搜索
D.Sisodia和D.S.Sisodia，“使用分类算法预测糖尿病，”计算机科学百科全书，第132卷，第1578-1585页，2018年。浏览：出版商的网站|谷歌学术搜索
F. A. Syed, A. Aryati, S. Wajihah，和M. R. Shahir，“使用数据挖掘技术对6名学童肥胖儿童进行分类”，国际软计算和数据挖掘会议，第549页，2016年。浏览：谷歌学术搜索
J.Sandeep，R.Mula和B.Kuriachan，“使用机器学习算法进行慢性肾脏疾病分析，”国际应用科学与工程技术研究杂志，第6卷，第2期1, pp. 3367-3379, 2018。浏览：谷歌学术搜索
B.J.Sahana和Minavati，“使用数据挖掘分类技术和人工神经网络进行肾脏疾病预测，”计算机与通信工程创新研究国际期刊，第4卷，第5期，第8675-8679页，2017年。浏览：谷歌学术搜索
K. Polaraju和D. D. Prasad，“用多元线性回归模型预测心脏病”，国际工程发展与研究发展杂志，第5卷，第4期，第1419-1425页，2017年。浏览：谷歌学术搜索
C. Kim, Y. Son, S. Youm，《在缺失信息存在的情况下使用特征递归神经网络预测慢性疾病》，应用科学，第9卷，第5期。10，页2170,2019。浏览：出版商的网站|谷歌学术搜索
K.Ng、S.Steinbuhl、C.deFilippi、S.Dey和W.Stewart，“使用电子健康记录早期检测心力衰竭：诊断前时间、数据多样性、数据量和数据密度的实际意义，”以病人为中心的研究和评论杂志，第4卷，第3期，第174-175页，2017年。浏览：出版商的网站|谷歌学术搜索
X.Zhang，H.Zhao，S.Zhang和R.Li，“用于多标记慢性病预测的新型深度神经网络模型，”遗传学前沿， 2019年第10卷。浏览：出版商的网站|谷歌学术搜索
H. Kriplani, B. Patel，和S. Roy，“使用深度人工神经网络技术预测慢性肾脏疾病”，临床和医学图像中的计算机辅助干预和诊断柏林，德国，2019。浏览：出版商的网站|谷歌学术搜索
Liu，Z.Zhang和N.Razavan，“深度EHR：使用医学笔记预测慢性病”，2018年，https://arxiv.org/abs/1808.04928．浏览：谷歌学术搜索
T.S.Brisimi，T.Xu，T.Wang，W.Dai，W.G.Adams和I.C.Paschalidis，“从电子健康记录预测慢性病住院：一种可解释的分类方法，”IEEE论文集，第106卷，第4期，第690-707页，2018年。浏览：出版商的网站|谷歌学术搜索
M.Chen，Y.Hao，K.Hwang，L.Wang和L.Wang，“通过医疗社区大数据机器学习进行疾病预测，”IEEE接入， vol. 5, pp. 8869-8879, 2017。浏览：出版商的网站|谷歌学术搜索
J. Patel, T. Upadhyay，和S. Patel，“使用机器学习和数据挖掘技术的心脏病预测”，国际计算机科学与通信杂志，第7卷，第1期，第129-137页，2016年。浏览：谷歌学术搜索
K.Deepika和S.S.Seema，“预防和控制慢性病的预测分析”，发表于应用和理论计算与通信技术国际会议记录（iCATccT），第381-386页，IEEE，班加罗尔，印度，2016年7月。浏览：出版商的网站|谷歌学术搜索
A. Ul Haq, J. P. Li, M. H. Memon, S. Nazir，和R. Sun，“利用机器学习算法预测心脏病的混合智能系统框架”，移动信息系统，第2018卷，文章编号3860146，共21页，2018年。浏览：出版商的网站|谷歌学术搜索
S. Ahmed, M. T. Kabir, N. T. Mahmood，和R. M. Rahman，“使用模糊专家系统诊断肾脏疾病”第八届软件、知识、信息管理与应用国际会议论文集(SKIMA 2014)，IEEE，孟加拉国达卡，2014年12月。浏览：出版商的网站|谷歌学术搜索
G. Caocci, R. Baccoli, R. Littera, S. Orru, C. Carcassi，和G. La Nasa，“神经网络和逻辑回归预测长期肾移植结果的比较，人工神经网络结构及其应用，第106-124页，IntechOpen，费城，宾夕法尼亚州，美国，2012年。浏览：出版商的网站|谷歌学术搜索
L.Xun，W.小平，L.宁山和L.Tanqi，“应用径向基函数神经网络估计中国慢性肾脏病患者肾小球滤过率”，年计算机应用和系统建模国际会议的诉讼程序（ICCASM），第15卷，第V15–V332页，IEEE，太原，中国，2010年10月。浏览：出版商的网站|谷歌学术搜索
H. Polat, H. D. Mehr，和A. Cetin，“基于特征选择方法的支持向量机诊断慢性肾病”，系统级质量改进号，第41卷。55, pp. 2-11, 2017。浏览：出版商的网站|谷歌学术搜索
V. Anuja Kumari和R. Chitra， "使用支持向量机对糖尿病进行分类"，国际工程研究与应用杂志(IJERA)，第3卷，第2期。2, pp. 1797-1801, 2013。浏览：谷歌学术搜索
A. Hamza和H. Moetque，“基于K-SVM特征提取的糖尿病诊断方法”，国际高级计算机科学与应用杂志，第8卷，第2期1, p. 236, 2017。浏览：出版商的网站|谷歌学术搜索
A. MERT，N.窑和A.AKAN，“乳腺癌分类通过使用带有减压的支持向量机，”第53届国际研讨会ELMAR的诉讼程序2011年9月，克罗地亚扎达尔。浏览：谷歌学术搜索
D. West, P. Mangiameli, R. Rampal，和V. West，“医疗诊断决策支持系统的集成策略:乳腺癌诊断应用”，欧洲运筹学研究杂志，第162卷，第2期，第532-551页，2005年。浏览：出版商的网站|谷歌学术搜索
R.Gautam、P.Kaur和M.Sharma，“一篇关于诊断人类慢性疾病的自然启发计算算法的综合评论，”人工智能的进展，第8卷，第2期4，页401-424,2019。浏览：出版商的网站|谷歌学术搜索
E. M. Rojas、H. B. R. Moreno和J. S. M. Palencia，“机器学习在健康领域作为慢性病诊断和护理支持的贡献”，医药卫生系统和多媒体的创新，卷。145，Springer，柏林，德国，2019年。浏览：出版商的网站|谷歌学术搜索
http://archive.ics.uci.edu/ml/datasets/diabetes．
https://www.kaggle.com/uciml/breast-cancer-wisconsin-data．
t·h·阿尔德亚尼和m·r·乔希，《在入侵检测中处理模糊信息包》，发表于第三届信号处理、通信和网络国际会议记录（ICSCN）， IEEE，印度金奈，2015年3月。浏览：出版商的网站|谷歌学术搜索
P.Lingras和C.West，“使用粗糙k-均值对web用户进行区间集聚类，”智能信息系统学报，第23卷，第2期。1，页5-16,2004。浏览：出版商的网站|谷歌学术搜索
J. a . Hartigan和M. a . Wong，“AS 136算法:k-means聚类算法”，应用统计学，第28卷，第1期，第100-108页，1979年。浏览：出版商的网站|谷歌学术搜索
Q.MacQueen，“多元观测分类和分析的一些方法”，年第五届伯克利数理统计与概率研讨会论文集卡姆(l.m. Cam)和内曼(J. Neyman)。，卷。1.,PP．281.–2.97., University of California Press, Berkeley, CA, USA, 1967.浏览：谷歌学术搜索
G. Peters，“粗糙的一些改进意味着聚集，”模式识别，第39卷，第8期，第1481-1491页，2006年。浏览：出版商的网站|谷歌学术搜索
M.Joshi和P.Lingras，“证据聚类或粗糙聚类：选择权在你手中”，在粗糙集和知识技术，LNCS王光等。，卷。7.4.14,PP．123.–1.2.8., Springer, Heidelberg, Germany, 2012.浏览：谷歌学术搜索
S.Ramya和N.Radha，“使用机器学习算法诊断慢性肾脏疾病，”计算机与通信工程创新研究国际期刊，第4卷，第1期，第812-820页，2016年。浏览：谷歌学术搜索
K.Kayaer和T.Yldrm，“使用通用回归神经网络对印度皮马族糖尿病进行医学诊断”，年人工神经网络和神经信息处理国际会议记录（ICANN/ICONIP），页181-184，韩国大邱，2013年6月。浏览：谷歌学术搜索
B.V.Ravindra，N.Sriraam和M.Geetha，“使用反向传播神经网络分类器检测慢性肾脏疾病”，年国际通信、计算和物联网会议论文集，第65-68卷，第15-17页，印度金奈，2018年2月。浏览：出版商的网站|谷歌学术搜索
A. Marcano-Cedeño, F. S. Buendía-Buendía和D. Andina，应用人工转移可塑性的乳腺癌分类，斯普林格·维拉格，柏林海德堡，德国，2009年。