文摘

动机。乳腺癌是女性癌症死亡率的第二大原因,根据世界卫生组织(世卫组织)和所有女人中最常见的疾病之一。的影响并不局限于工业化国家,也包括新兴国家因为作者相信增加城市化和采用西方的生活方式将会导致疾病发病率的上升。问题陈述。乳腺癌已成为最致命的疾病之一,目前面临的女性。然而,导致这种疾病的原因有很多,不能正确地建立。然而,有一个巨大的困难没有正确认识乳腺癌的早期阶段或延长检测流程。方法。在这个研究中,机器学习是一个人工智能领域,采用各种概率,优化,和统计方法使电脑学习从过去的数据和查找和识别模式从大型或复杂的组。优势尤其适合医疗应用程序,特别是那些涉及复杂的蛋白质和基因的测量。结果和影响。然而,当使用PCA方法减少功能,检测精度下降到89.9%。IG-ANFIS给我们检测精度(98.24%)通过减少数量的变量使用信息增益”方法。而简称ANFIS算法检测精度为59.9%,没有利用特性,J48,这是决策树的方法,检测精度为92.86%不使用特征提取方法。应用主成分分析技术来最小化时的特性,检测精度是相同的方式降低(91.1%)为朴素贝叶斯检测算法(96.4%)。

1。介绍

根据世界卫生组织的数据,全世界数以百万计的人死于癌症,占所有死亡人数的70%和增长近50%的死亡率与前时代相比,新兴国家(1,2]。据几位医生的研究中,欠发达国家只有5%的全球预算来对抗癌症。此外,这些国家几乎没有材料和人力资源。乳腺癌起源于乳腺细胞,有两种形式的癌症:良性和恶性。乳腺癌,另一方面,是一种致命的疾病(一组肿瘤细胞)。乳腺癌是女性最常见的相关,但它也可能打击男人。乳腺癌是一个问题,有可能影响到身体的每一个地区(3- - - - - -6]。可以感染女性的癌症,不大,可能觉得或被改变,出现的乳房虽然明显症状通常不直接出现疾病的结果。最典型的症状包括乳房大小显著上升,以及其他相关的症状(2):1发红或出现乳头2皮肤的变化,如起皱和聚合3乳房膨胀的一部分

在统计和计算机学习,分类是一种形式的监督学习,其中包括引入计算机程序提供的数据,然后做一个分类(2)发现新的发现。这些数据可以两种类型:众多结果显示不同百分比或结果只有两个数字(如确定条件是可接受的或不可接受的,(7- - - - - -10)的人是男性或女性,或疾病是良性或恶性)。手写识别、文档分类、语音识别和生物测定都是分类问题的例子可以在(2)。

2。威斯康辛州乳腺癌(WBC)数据集描述

这项工作数据用于乳腺癌患者提供的威斯康辛大学医院,麦迪逊。有699份标本或样本10 + 1品质在这组数据(1类)。表1显示结果(2)。这些样本被分为两类:良性的数据实例(458)和恶性数据(241例),有16例缺失的数据(3)。

数据收集和扫描后,分为两组:训练和测试。训练数据将用于训练算法,而其余的将用来测试它们。本研究的算法预测乳腺癌的诊断测试组中的每个样本。最后但并非最不重要,这些算法是用来做性能分析,建立了最佳分析乳腺癌(3),(4)。

3所示。绩效评估措施

一个方法称为混淆矩阵可用于提高分类算法的性能。通过比较积极/误分类实例的数量和正确/错误分类的数量负的情况下,它可能被视为最有效的技术组织性能和简化分类模式(5)。表明预期分类混淆矩阵的列,而实际行描述情况下的分类,见表1(6)。1真阳性(TP):这表示指的是病人的分类,是良性的2真阴性(TN):这个表示法表示的分类是恶性疾病的患者3积极的假(FP):这表示表明病人的分类是良性疾病,但恶性疾病4假阴性(FN):这个表示法表示的分类的病人恶性疾病,但良性的

方程中使用性能的措施最广泛使用的准确性、敏感性和特异性的医学和生物学如下(6),(7): (1)特异性。真阴性结果的百分比是正确确定的模型,以更精确的方式设计模型的质量来确定正确的女人并非死于乳腺癌(2)回忆。的测量的比例预计将有并发症的患者和那些已经患有并发症(3)精度。它是衡量患者并发症的比例由于疾病并发症如那些基于模型(4)F1的分数。它是一种加权平均的精度和召回(5)马修相关系数(MCC)。这是一个二元分类器的性能参数

4所示。选择植物(J48)

在数据提取的实现,DT是经常使用。因为它是简单的掌握,它帮助用户在数据挖掘。一个高效的数据集的属性之间的联系提供了一个易于理解的格式。其他分类方法相比,这一次需要几个计算。

协议和规则分为两段DT(测试)。在构建树荫,功能测试是由每个节点表示。流程图描述了该算法的主要思想,它包含一个根节点,作为起点(nonleaf)节点但可以考虑算法的基本概念。合同被视为试验纸的路径节点上运行(最终结果)。当使用DT识别乳腺癌时,节点分为两类:良性和恶性。规则将建基于提供的数据集的属性来评估肿瘤是恶性的还是良性的。图1展示了如何使用DT的方法来识别乳腺癌。癌症(1)。

J48的执法DT算法ID3产生一个二叉树(7)。树是安装在数据库中的每一行下创建它。J48被使用,是因为它有一个相对较高的速度相对于其他DT算法。此外,简洁是它的一个独特的特性,以及算法的结果可以很容易地感觉到由最终用户和接受的性能指标。基于UCI机器学习的数据存储库,常用的比率将一个数据集划分为80%培训组和20%的测试组应用于J48。和结果表2。信息我们J48方法通过使用所有期货数据集有一个例外删除实例有缺失值。

5。信息增益和自适应神经模糊推理系统(IG-ANFIS)

研究人员一直致力于人工智能(AI)的解决方案是利用在医疗和健康相关行业好几年了。以下是最经常使用人工智能研究人员所使用的策略构建极其高效的自动诊断系统:(1)网络的神经元(2)支持向量机(3)模糊逻辑(4)遗传规划算法

因为临床医学诊断需要模糊和高维数据,迫切要求人工智能解决方案应对出现了数据集的性质不同,这将协助医护人员更有效和准确的决策。

自适应神经模糊推理系统(简称ANFIS)是一个机器学习技术,结合了两种机器学习方法:神经网络(NNs)和模糊推理系统(费斯)。再邻居的技术应用于本研究建立一个神经网络(NN)。简称ANFIS正在开发的输入和输出映射结合人道主义专业知识与机器学习能力(7)。

信息增益(IG)是最简单的方法来选择最佳的特性和常用的文本分类。通过评估的区别和postattributes之前,搞笑的方法被用来评估每个特性的质量(8)利用属性。

使用IG-ANFIS疾病诊断技术(在我们的例子中,乳腺癌)。这种方法或算法是一种混合的搞笑,简称ANFIS。搞笑的目的是减少输入功能简称ANFIS(7)(8)通过选择特征输入数据的质量。搞笑的结果是一组特征值排名高的输入。将使用功能组,简称ANFIS的更高程度作为输入。特征选择拥有更高的学位将被应用在简称ANFIS训练和测试方法。IG-ANFIS的一般结构如图2在哪里Z= (z1,z2……xnUCI数据集的原始特性,V = { 1, 2…… }后获得的特征信息增益,显示最终的输出在应用V简称ANFIS(诊断)(8)。

数据库有699条记录被划分(341、342)记录顺序进行训练和测试。和有16个记录被移除,因为它们含有缺失值。类属性已经规范化0 = 1 =良性和恶性。表2显示属性在应用IG的排名;其选择的质量属性(8)。

简称ANFIS应用特征选择后的输出IG用于白细胞数据集给了我们98.24%的准确率简称ANFIS,虽然简称ANFIS算法在检测的准确性为59.9%(8)提取特征。

6。SVM(支持向量机)

支持向量机(SVM)是一种机器学习算法,负责监督和工作分类和回归问题。在这种方法中,我们把每一个元素的数据作为空间的一个点n尺寸时n数量的功能和价值的每个特性的值是特定的坐标(7)。之后,我们通过发现非常高的水平,使分类特征两类很好如图3

支持向量机的特征如下(7)(8):(1)灵活的函数给出了选择过程,因为它没有指定特定类型(2)它有能力来处理大量的功能在搜索空间

机器学习需要预测和分类数据,我们使用各种机器学习的方法来做到这一点取决于数据集。

支持向量机和支持向量机,是一种线性模型,可用于解决分类和回归问题。它可以解决线性和非线性问题,为范围广泛的应用程序很有用。支持向量机是一个基本概念:该方法将数据划分为类或超平面画一条线。

支持向量机(SVM)是一种监督机器学习技术,可以解决分类和回归问题。然而,支持向量机是一个边缘,分开两组。运行在支持向量机,我们也有一个方法的过程分离超平面的类别(良性和恶性)。在这里,有三个超平面:A, B, c .正确的超平面是公认的分类(良性)和圆(恶性)(6),你必须记住一个规则指定正确的超平面。最好选择分离的仿真两类。在这项研究中,超平面“B”做了一个出色的工作在这。确定正确的超平面,我们有三个超平面A, B, C和所有分离的类。这里,最近的数据点之间的距离最大化(任何种类)和超平面将帮助我们确定正确的超平面(9),这就是所谓的保证金。

这569年研究实例,有357的实例良性乳腺癌和212年恶性乳腺癌的实例。数据集将作为训练和测试为30% 70%。我们有开槽70%的数据集训练。70%的数据集进行训练,我们使用的是63%,其余7%为验证测试(5)应用于支持向量机。和准确性结果得到的支持向量机方法。表1给我们详细的信息对支持向量机所有功能的混淆矩阵如图4

,见表1、准确性获得的支持向量机SVM的方法给我们详细的信息混淆矩阵,但删除一些功能使用PCA方法(5)最重要的特性。

7所示。朴素贝叶斯

贝叶斯理论支持的集合称为朴素贝叶斯分类方法。没有一个单一的数学规则。每次的可能性,然而,是一个家庭的算法,每一种都有一个共同的前提。被分类,它是个体在各种各样的方式。贝叶斯理论采用应急概率,计算未来事件的可能性基于之前的数据。在朴素贝叶斯分类器的输入变量预计将相互独立的,与每个扫描选择单独导致目标变量的概率(10)。因此,拥有一个变量一个特性没有影响功能相关的变量。这可能是天真的标签背后的原因。然而,在真正的学习集,特征变量是相互依存的,这可能是朴素贝叶斯分类器的一个缺点。在任何情况下,大型的朴素贝叶斯分类器是有效的知识群体。 Overall, the easy classifiers outperformed the tough classifiers for each form. The hypothesis of Naive Bayes is as follows:

为此,我们需要估计 和假设任何特定值的向量x有条件的CK每个维度的是统计独立的。 的概率是指导(7)(10)。当前提为真朴素贝叶斯算法的程序,(1)适用于multicategory和二进制分类(2)它可以训练一组小的小信息,可以是一个很大的优势(3)这是最快的,爬得上去的(4)的情况下从该死的移民在某种程度上表示位置的君主制

然而,如前所述,这导致一个误导的假设,输入变量是个体经营,从另一个。不能这样在现实世界的数据集,因为有几个高层互动特征变量之间的关系。测量的预测(11)如下:1步骤1。创建一个频率表的数据收集2步骤2。使用可能,创建一个表的概率3步骤3。使用朴素贝叶斯算法计算的概率

预后决定哪个类的后验概率最高。

有357例良性肿瘤和212例恶性肿瘤569例研究白细胞。70%的数据集将用于训练和测试的30%。我们有专门的数据集训练(5)的70%。我们63%的70%数据集用于培训和剩下的7%进行验证测试。朴素贝叶斯,这是使用(5)。

评估的成功的另一个统计分类混淆矩阵算法。混淆矩阵的语言,正如它的名字,可能是复杂的,但这个矩阵本身是容易理解的。我第一次了解了混淆矩阵时,精度,精度,还记得,F1-score, ROC曲线,真正的阳性、假阳性,真正的底片。

8。结果与讨论

数据45表明,分类和决策,J48群分类器通常使用。作为评估在这篇文章中,三位著名J48组分类,即J48, J48Consolidated, J48Graft,是独一无二的在他们的领域,采用单- - - 13 multidatasets性能合适的等级分配矩阵,而简称ANFIS表现出更少的检测性能在使用的所有特性。然后,通过使用获得的知识(IG)方法给最好的特点和应用他们简称ANFIS,我们得到了最高的检测性能与其他方法相比,通过使用PCA(主成分分析)方法来减少的特性和应用特性选择支持向量机和朴素贝叶斯方法,我们得到的检测精度较低,但精度检测主要是独特的在他们的领域,采用单和multidatasets。

9。结论

在这种情形下,机器学习是一个人工智能领域,拥有各种各样的概率,优化,和统计方法使电脑学习从过去的数据和查找和识别模式从大型或复杂的组。优势尤其适合医疗应用程序,特别是那些涉及复杂的蛋白质和基因的测量。

因此,它通常被用于癌症诊断和检测使用机器学习。支持向量机的技术支持在这项研究中,检测精度91.7%。然而,当使用PCA方法减少功能,检测精度下降到89.9%。IG-ANFIS给我们检测精度(98.24%)通过减少数量的变量使用信息增益”方法。而简称ANFIS算法检测精度为59.9%,没有利用特性,J48,这是决策树的方法,检测精度为92.86%不使用特征提取方法。应用主成分分析技术来最小化时的特性,检测精度是相同的方式降低(91.1%)为朴素贝叶斯检测算法(96.4%)。

数据可用性

在这项研究中给出的数据的结果包括在手稿中。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是由研究人员支持项目(TURSP-2020/311数量),塔伊夫大学,塔伊夫,沙特阿拉伯。