文摘

目前,医疗数据聚类是一个非常积极和有效的部分研究领域做出正确的决定在医学领域从医疗数据集。但医疗数据聚类是一个非常具有挑战性的问题由于无限的接收数据,规模巨大,高频率。为实现这一目标和提高性能快速和有效的聚类,提出了一种混合优化技术,即K-means-based骑手向日葵优化(RSFO)算法对医疗数据。在这个研究中,最初,数据预处理阶段进行了清理当前输入医疗数据,然后在第二阶段,重要特征选择的帮助下与holoentropy Tversky指数。最后,医疗数据聚类进行了通过使用混合K-means-based骑手向日葵优化(RSFO)算法。RSFO设计生产最优聚类质心,两个优化技术的结合,如骑士优化算法(ROA)和向日葵优化(SFO)。该混合算法可以得到的好处和k - means RSFO技术和避免过早收敛的k - means算法和高计算成本的优化技术。k - means聚类算法用于集群医疗数据通过使用一个最佳的重心。提出K-means-based骑士向日葵优化算法的效率与心脏病检查数据集和分析基于三种不同的性能指标。

1。介绍

今天,有许多聚类模型在数据挖掘、人工智能的分支(1]。最近的研究的主要目的是项目并提供模型在一个非常快速和有效的方式对任何类型的数据。本文还设计了基于快速和有效的集群比现有的模型。有效和高效的医疗数据的聚类,提出了混合数据聚类,它可以避免k - means算法的过早收敛,降低计算成本的优化技术。今天,医疗数据的高维异构数据、遥感数据、地理数据和大量的实时应用程序隐藏数据(2]。对于这种类型的医疗数据,需要有适当的数据分析决定医务人员采取适当的分析。时间最优的特性,选择适当的决策系统也是一个重要的任务的质量预测。医疗数据也有缺失的数据,数据冗余,不完整的数据,数据不一致,所以需要适当的数据预处理技术对当前输入数据。管理所有这些困难的处理,我们需要适当的智能技术在机器学习和数据挖掘,它只是叫医疗数据挖掘。主要目标是集群的数据大量的数据库。有不同类别的聚类模型,如划分聚类(3],density-based集群[4),文中针对集群和fuzzy-based(软和集群)和混合型聚类算法(5,6]。这篇论文提出也使用混合文中针对聚类算法生成最优聚类质心与更快的集群解决方案,集传统聚类的优点,文中针对聚类质心。每个混合优化方法有其风格和程序聚类数据。继承传统和文中针对聚类的优点,本文提出了K-means-based骑手向日葵优化(RSFO) [7)算法。RSFO是骑手的组合优化(ROA) [8]和向日葵优化(SFO) [9),它只是被称为骑士向日葵文中针对集群。在这里,k - means是最受欢迎的,而基于分区的传统聚类算法。但是,它有一些缺点像非常敏感的初始化和过早收敛10,11]。提出了集成RSFO减少分析数据的复杂性,显然需要更少的时间和内存。同时,文中针对集群技术需要更多计算成本由于更多的计算步骤12,13]。这个模型处理三个步骤,如数据预处理、特征选择与holoentropy Tversky指数(14,15],最后一步的医疗数据聚类k - means骑手向日葵优化算法。

1.1。研究论文的主要贡献

提出了全局优化技术,通过RSFO找到聚类质心,集群的数量是由用户定义的。这一研究工作是结构化以以下方式:部分1解释了基本的介绍部分,部分2给医疗数据聚类的挑战,部分3解释医疗数据聚类的方法,部分4与性能指标解释了实验结果和讨论部分5提供仿真结果的基础上,提出K-means-based骑手向日葵优化算法。比较分析在部分6。最后,部分7总结了研究工作。

1.2。文献综述

五各种现有方法在本文献综述,综述了其优点和缺点。2018年,Yelipe et al。16)提出了一个imputation-based基于类的聚类(IM-CBC)的帮助下基于类的聚类分类器(CBCC)混合聚类的形式找到之间的相似度两种不同的医疗记录。本文使用fuzzy-similarity函数和欧氏距离的k - means算法找到的相似集群。然后,我们使用支持向量机(SVM)和邻居(事例)进行分类。最后算法产生的结果精度高和性能。然而,这种方法没有考虑模糊措施更好的医疗数据进行分类和预测。然后,在相同的2018年,Das et al。4)提出了一种修改蜜蜂殖民地优化(MBCO)方法聚类数据概率与选择方法。这文中针对集群显示比其他方法更快收敛。这个修改蜜蜂殖民地与k - means算法优化混合,提高性能和实现全局最优的解决方案和分类准确性的帮助下混沌理论。但是,这种优化方法不使用多目标优化函数初始化聚类质心处理高频数据流。然后,在2019年,Al-Shammari et al。17)提出density-based集群的动态分类框架的帮助下医疗数据分段总近似和density-based空间聚类算法来提高动态集群的更好的性能和维护。但是,这种算法不考虑对高频率的数据流数据更新和维护集群。2019年,Chauhan et al(18)病人的障碍提出了两步聚类技术分析使用不同的数据变量最优簇具有不同的形状和大小。本文的主要目的是诊断肝脏疾病的早期的隐藏与巨大的数据库知识。2020年,Baliarsingh et al。19)提出了一个医学媒母算法支持向量机分类的数据(M-SVM),这是社会工程的组合优化和帝企鹅的优化。该算法可以非常准确的医疗数据的方式进行分类。但是,这种方法并不适用于大规模数据集。

2。挑战

以下所面临的挑战是现有的方法:第一个是找到合适的聚类质心和生产基于最优聚类结果聚类质心是没有保证的。第二,数据预处理,如缺失的数据,数据冗余和数据不一致,数据聚类是下一个主要挑战。然后在医疗数据聚类,它是复杂的研究,在实时应用中由于海量,无限的输入数据,大量的异构数据,高频率的数据(20.]。为了避免这个问题,我们提出了最相关的医疗数据聚类的特性,所以它可以降低数据分析的复杂性和更少的时间和内存。

3所示。提出了k - means Clustering-Based RSFO医疗数据聚类

这一部分又提出的聚类算法基于RSFO k - means聚类,医疗数据聚类。骑手向日葵优化(RSFO)技术是由结合ROA和SFO设计的。这种技术的优点与优化,如ROA和SFO定义最佳质心与更快的收敛。图1说明的观点提出混合文中针对集群。

3.1。数据预处理

输入数据的质量可以产生高质量的输出。医疗输入数据可能丢失数据或数据不一致或嘈杂的数据。这种类型的不清洁输入数据可能影响质量的输出。产生高质量的输入数据,数据必须清洁预处理技术。数据预处理必须完成每一个输入数据清洗嘈杂的数据,丢失的数据,和不一致的数据。数据预处理是非常重要的部分来处理输入医疗数据平和从巨大的数据量和消除不一致和嘈杂的数据产生更好的聚类结果。

3.2。特征选择

意义特征选择和特征提取是下一个重要的步骤来确定高相关特性来产生一个更好的集群解决方案。这里,所有无关的特性可以避免或消除通过使用特征选择方法。同时,也减少了通过减少数据的复杂性特征的数量。有不同的特征选择方法可用来识别和消除不相关的特性,取决于所使用的数据类型,如拉普拉斯算子的特征选择,和文献[21]解释光谱特征选择的监督和非监督学习22),无监督特征选择与multisubspace随机化(23)等。本文特征选择是通过使用与holoentropy Tversky指数。

3.2.1之上。使用Holoentropy Tversky指数

特沃斯基指数比较两个数据集,发现两个数据集之间的相似之处,也用于从数据库中提取最相关的条款,通过使用一个特性评价函数。同时,它可以降低计算复杂度,提高精度24]。Tversky指数使用骰子的系数和Tanimoto系数值在0和1之间。应用holoentropy Tversky指数参数αβ找到之间的关系特征和属性(25]。Holoentropy计算通过使用熵和权函数的乘积,在以下几点:

在这里,(γ)指holoentropy,权函数ω,Ent(γ)是称为熵措施。在这里,熵Ent(γ)通过计算

在这里,u(γ)数据和惟一的值的数量γ用于应用在Tversky参数对吗αβ

的程序步骤RSFO给出如下:步骤1:初始化初始参数和随机选择初始聚类质心C={1,2、。j}步骤2:评价适应度函数的方程 ,“Z“是集群的数量Of是目标函数,计算的吗

在这里,”P”表示数据点的总数|你ij|是数据元素的总量属于集群。在这里,两个数据点距离测量计算的

集群重心将重新计算

发现性能健身价值基于集群之间的欧几里得距离测量质心和每个intercluster和星团内的数据点26]。然后,集群重心将由骑士发现向日葵优化(RSFO)。

更新最优聚类质心基于骑手向日葵优化(RSFO),在以下部分。

3.2.2。提出RSFO算法

为了更好的聚类结果,我们需要生产最优聚类质心。所以,为了找到一个更好的聚类质心,我们使用了RSFO算法,这是向日葵的组合优化(SFO)和骑士(ROA)优化算法。这个提议的模型得到的回报ROA和anglo american产生更好的集群解决方案更快的收敛。ROA (27)是通过不同类型的乘客的行为到终点站。这里有四种不同类型的乘客如绕过骑手,攻击者、追随者,分别和接管者。向日葵优化(SFO)通过太阳的旋转。向日葵总是模仿旋转,这是自然优化(28]。该模型可以确定好位置更好的性能。与此同时,它使用高计算复杂度由于计算步骤。获得全局最优的解决方案以更好的计算步骤和快速的性能,我们使用了混合与英国严重欺诈办公室ROA法。

混合的程序步骤K-means-based骑手向日葵优化给出如下:

步骤1。初始化初始参数

步骤2。计算适应度函数由拉格朗日优化原理,给出的方程: 在这里, 指的是数据对象,用用户定义的常数ρ,lp是指集群的中心, 模糊隶属函数,K显示总的集群中心,然后呢 总的数据。然后,上面的方程将导数如下: ,这是作为 我们应该确保 ≥0。

步骤3。更新的职位骑士团体
对于位置升级,我们使用旁路骑手成就率最大化。绕过骑士总是跟踪和遵循一个共同的一般路径没有其他乘客的信息。位置的方程基于旁路骑手显示为升级 这里的参数ϑ,t,米,μ在0到1之间的随机数。然后,k表明迭代的数量,这是由用户定义的。假设μ=r方程写成 向日葵优化(SFO)更新位置或解决方案空间旋转的太阳。向日葵总是模仿太阳的旋转。因此,这个职位是由SFO的升级 在这里,Bt(r,p)表示当前位置t,Bt+ 1(r,p)是更新的位置t+ 1, 向日葵表示步骤, 指的是向日葵的方向。 位置升级、替换(15),它是向日葵的位置升级优化(13),是骑士的位置升级优化。 然后,重新排列(15)和(16),我们得到 然后,最后的方程将写成

步骤4。定义最好的解决方案
在这里,最大的健身价值被认为是一个最好的解决方案和更新骑手优化参数最佳解决方案。

第5步。终止条件
重复上述步骤2到4,直到达到定义的迭代次数。

4所示。实验结果和讨论

实验结果为该K-means-based骑手向日葵优化是使用Python编程语言的实现3.8.6 10版本的Windows操作系统,英特尔i5处理器核心。使用心脏疾病医疗数据集进行实验从在线来源(29日]预测心脏病风险因素与300实例和7主要属性,如年龄、随机血糖、性别、体重指数、胆固醇、随机血糖、吸烟、收缩压(30.- - - - - -33与500次迭代)。这些数据收集从牌的火腿肠约翰逊先生,医院护士,他们的目标是提供正确的决策和建议,特别的心脏病人。这个决定可以为病人提供各种建议等健康食品的饮食,类型的运动,步行距离,医学,步行距离,定期体检。对于实验结果,只有少数量的数据。在真正的时间,该算法可以处理大量的数据集。

4.1。性能指标

K-means-based骑手向日葵优化的性能指标是发现数据质量,相似性,和正确的决定比真正的阳性,真正的底片,假阳性和假阴性34- - - - - -37]。

以下4.4.1。精度

参数的帐目p,帐目n,AccFp,AccFn指示真阳性的总量,真正的底片,假阳性和假阴性。

4.1.2。Jaccard系数

也称Jaccard相似系数,发现两个数据集的相似度,范围从0%到100%。当比例值的增加,两个数据集的相似度也增加。在这里,XY是两个不同的数据集。

4.1.3。随机系数

个随机对照试验的参数p个随机对照试验,n,RcF公司p,和RcFn指示真阳性的总量,真正的底片,假阳性和假阴性。

5。仿真结果

2显示了投影二维模拟结果K-means-based骑手向日葵优化医疗数据的不同特征的三个不同阶段的集群。

在这个图中,二维模拟结果。,red color indicates the high-risk factor of the heart disease; blue color indicates average risk factor; and green color denotes the less-risk factor of heart disease based on age vs cholesterol (in Figure2(一个))、年龄和身体质量指数(在图2 (b)),年龄与随机血压(在图2 (c))。上述三个图表区分基于输入功能。

6。比较分析

的比较分析提出K-means-based骑手向日葵优化使用下面的性能指标是基于输入的大小。

6.1。比较结果分析输入的大小

数据3(一个)- - - - - -3 (c)显示合格的比较研究分析通过使用输入大小从50到300不等。准确性、Jaccard系数和随机系数提出K-means-based RSFO输入大小50 67.037%,60.748,和61.907,以及输入尺寸300是90.026%,89.3426%,和92.767%,分别。

6.2。通过比较分析表

比较分析表中给出了表1最好的绩效指标的准确性,Jaccard系数,和随机系数的提出K-means-based RSFO 90.026%, 89.3426%,和92.767%,分别。在这个表,提出混合k - means和骑手向日葵优化技术与现有的k - means算法相比,K-harmonic意味着算法和模糊c均值算法和显示更准确高效的解决方案。在这里,提出混合公里+ RSFO技术比现有方法更准确高效的解决方案。

7所示。结论

因此,提出混合K-means-based骑手向日葵优化聚类算法对医学数据分析心脏病的危险因素。最优centroid-based集群解决方案是由使用混合K-means-based骑手向日葵心脏疾病医疗数据的优化。的成就提出K-means-based RSFO算法产生最佳的准确性为90.0236%,Jaccard系数89.3426%,随机系数92.767%。该混合聚类算法可以得到两个骑士的优势优化和向日葵优化thehniques。RSFO是用于生产最优聚类质心和k - means算法用于生产快速集群解决方案。所以,该混合聚类算法可以防止过早收敛。作为一个未来的增强,该算法可以扩展和多目标函数更有效和更好的聚类质心。

数据可用性

医疗数据用于支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。