文摘
最流行之一,女性癌症的主要原因是乳腺癌。它现在已经成为一个常见的健康问题,其患病率最近增加了。最简单的方法处理乳腺癌研究是在早期识别它们。乳腺癌的早期检测是通过计算机辅助检测和诊断(CAD)技术,它可以帮助人们长寿的生活。这项工作的主要目标是利用CAD系统的最新发展以及相关的方法。2011年,美国报道,每8名女性被诊断出患了癌症。乳腺癌是由于乳房异常的细胞分裂,从而导致良性或恶性肿瘤的形成。因此,乳腺癌的早期检测是至关重要的,有效的治疗,可以拯救许多人的生命。这项研究涵盖了多个机器学习模型的结果和分析对于识别乳腺癌。威斯康辛州乳腺癌诊断(WBCD)数据集被用来开发方法。 Despite its small size, the dataset provides some interesting data. The information was analyzed and put to use in a number of machine learning models. For prediction, random forest, logistic regression, decision tree, and K-nearest neighbor were utilized. When the results are compared, the logistic regression model is found to offer the best results. Logistic regression achieves 98% accuracy, which is better than the previous method reported.
1。介绍
乳腺癌与高死亡率相关。乳腺癌每年影响全球150万多名妇女,据世界卫生组织(1]。乳房癌,最初是在大约公元前1600年,埃及是最著名的癌症之一2]。肿瘤可以用来检测乳腺恶性肿瘤。肿瘤分为恶性或良性的。检测恶性肿瘤,医生需要使用一个活跃的测定方法。但是,即使是专家,确定恶性肿瘤是非常困难的3]。因此,为了检测癌症,一个自动的方法是必要的。许多研究都试图使用机器学习的方法来确定癌生存能力的人,和他们也表明,这些算法更有效地诊断癌诊断(3]。医生的经验和专业知识通常是病人所需的检测精度4]。然而,这种能力是磨练多年的不同病人的不良反应和确认诊断。即便如此,没有可靠性的保证。由于加工工艺的进步(5),现在很容易收集和保存大量的数据,比如专业电子患者信息数据库。没有电脑的帮助,卫生工作者将无法打破这些巨大的数据库,尤其是在进行重要的数据分析。此外,严重的肿瘤的精确分类可能阻止个人得到他们需要的治疗。因此,正确的乳腺癌诊断和分类分为良性和恶性组的研究是一个热点问题。毫升的方法被广泛应用于上世纪诊断乳腺癌和其他概念来自数据模式。机器学习是众所周知的在乳腺癌的分类和建模使用。这是一个现有的检测方法隐藏的规律和模式在不同的数据集。它包含一个广泛的方法揭示规则,范式,以及连接的分组数据生成这些联系的假设,可以用来解释新的隐藏数据。图1描述了最常见的机器学习在医学领域的应用。
艾未未的使用在临床方面的快速增长是由于其成功的预测和分组,尤其是乳腺癌的临床分析。在生物医学研究中也大量使用。
在肺部细胞破裂后,乳房恶性肿瘤是随后驾车女性死亡原因(6]。与美国相比,女性的数量最近决定乳房恶性生长在印度(7)较低,然而,从乳房疾病的死亡人数,但高很多,见表1。随后,重要的是要认识到乳腺癌的开始阶段。疾病的期望可以培养通过理清数据从强调疾病的信息。附近的审查利用人工智能策略的评估进一步发展胸部疾病预测率。
在孟加拉国的女性,乳腺癌仍是死亡的主要原因。它拥有先进的一个秘密的重量,占所有疾病传播女性(69%8]。乳房恶性肿瘤已被证明流行率最高(19.3 100000)在孟加拉国的女士们在15 - 44岁的范围与不同的疾病在孟加拉国(9]。从2008年到2010年,这群妇女宫颈癌排在第二位,患病率为12.4每100000名女性从2008年到2010年。没有感染的正念,在临床考虑缺乏信任,不体面的筛查,早期转移和滥用都被连接到一个提升频率(10]。此外,受到了获得恶性肿瘤治疗的患者因为缺乏金融框架,感染的社会耻辱,他们对治疗恐惧的感觉。根据孕产妇死亡率的研究结果由孟加拉国的国家癌症研究所和医院2010年,胸部疾病死亡总数的21%负责女士年龄在15到49岁。国家癌症研究所和研究医院,孟加拉国,建议胸部疾病是变成了一个真正的总体幸福担心孟加拉国政府。检查显示在孟加拉国的战争怎样惊人地扩大部门领导在2007 - 2008年,87%的新出现的胸部疾病命名III期+,暗示恶性增长已经扩散到身体不同的地区。治疗决策受到限制和昂贵的,特别是在low-asset像孟加拉国这样的国家。澄清原则可能是恶性肿瘤早期缺乏公共意识的决心,这反映了情况在孟加拉国的农村地区。
结果通过扩展不停地探索发挥影响的研究本文中描述。审查扩展了过去的工作,利用人工智能策略需要考虑和胸癌疾病的特定的预期一样,以及帮助医生快速识别推荐治疗考虑订单计划或例子。此外,本研究的重要目的是利用一些人工智能方法处理风险和无害的增长在威斯康辛州胸部疾病的决心。这种技术包含每个品质的有害和无害的癌症从公开数据集访问。创建多级模型识别危险和非恶性的癌症是一个问题的研究。审查的基本点是评估不同的展览metaclassifiers找出哪一个是最好的胸部疾病的安排。
利用一个帮助向量机(SVM)分类器和一个假冒的神经组织(安),科学家(11)培养一个聪明的方法识别胸部恶性增长。利用威斯康辛诊断数据,帮助向量机(SVM)模型识别无害,恶性胸束。这次考试中使用的数据集包含估计获得细针吸入(FNA)。许多研究已经进行了对比的标准测量方法和机器学习(ML)表征过程为了代表毫升的伦理及其机会(12]。结果展示,毫升策略有最坚定的质量值得注意的特征(13- - - - - -15),由于人工智能技术的发展和进步以及增加体积和错综复杂的信息。在工作中描述(16),方法是利用一组加入几个模型,每一个分类器的预测准确性对比在各种各样的项目类。这种方法与支持向量机、朴素贝叶斯和J48与民主分类器方法获得精度为97.13,高于任何独立的分类器。
部分研究[13,17,18)专注于利用人工智能技术来预测和分析疾病,例如,恶性生长检测利用选择树。由于其游刃有余和适应性,资讯技术是一种最广泛使用的顺序计算AI的Marsilin和Wiselin集集(19]。Belciug et al。20.]研究群组织、自组织映射和K-implies在胸部疾病的识别利用威斯康辛乳腺癌预后(WPBC)数据集21),观察到K-implies表现更好。Chaurasia和朋友22)评估了假冒的充足率神经组织(ann),逻辑回归(LR)和二元选择树(滴滴涕)预见胸部疾病重复使用乳腺癌数据集。在威斯康辛州乳腺癌注册表中,Christobel Sivaprakasam [23朴素贝叶斯的生产力评估,决策树(C4.5),再和支持向量机识别恶性增长的重要区域(WBC)。的见解,SVM比其对手。在威斯康辛州诊断乳腺恶性肿瘤(WDBC)数据集,Abonyi和Szeifert24)使用蓬松的分组技术分析的威胁。改善分组WDBC数据集的准确性,Lavanya和Usha王妃25)使用对半和动态方法10-crease交叉的批准。根据这一研究,机器学习算法产生实质性影响乳腺癌检测和预后。目前的研究主要是集中在识别癌症的主要位置。因此,必须早期发现乳腺癌,这意味着必须使用专门的方法。
大多数的调查准确率约为90%,这被认为是例外。原来我们工作的一部分是我们利用几个不同的计算和到达98%的精度,比之前更加突出分布。随机森林,决策树,K-closest邻居,和逻辑回归达到96%,95%,90%,和98%的F1-scores分别。模型的精度%用于这项研究显然高于先前的研究,表明这些模型更可靠。许多模型相关性已确认,策略可以来自评估研究。
据研究,可以提高如果女人可以发现早期乳腺癌,在早期阶段接受治疗。他们必须通过精确预测疾病的发展从一个温和的状态到乳腺癌。机器学习技术可以协助在早期做出准确的预测。许多机器学习系统存在,但他们的预测是不可靠的和错误的。他们也担心过度拟合和underfitting。因此,我们创建了一个模型来帮助医疗技术人员识别癌症疾病早期使用机器学习。它将确认和证明如果有人乳腺癌。
我们审查的基本承诺利用各式各样的著名的人工智能技术来获得我们的结果。随机森林和逻辑回归产生最好的结果,分别F1-scores 96和98%。这些模型的精度水平高于精确率利用先前的研究,表明他们更可靠的比最近利用。已经有大量的模型检查,已被证明是可靠的。这个过程可能是建立在复习的考试成绩。其余的工作分为以下部分。部分2讨论了方法和实验方法。部分3讨论了分析结果,而部分4检查结论。
2。方法和实验方法
这部分涵盖所有策略和材料,以及数据集的描述,网格块图、流图,和评估。
2.1。数据集
威斯康辛州乳腺癌诊断(WBCD)数据集26)是用来执行这项研究。从分类下载数据集,一个著名的机器学习库,及其简化的大小是56932,其中569是指样品的数量和32的数量特征。示例数据集包含原子的特性良好的针吸(fna)收集病人的乳房已经显示出来。疾病诊断或预测样本,比如癌症、一个小针插入一个abnormal-appearing体液或组织。恶性和良性的总量数据如图WBCD数据集2。
没有缺失的属性数据集和类分布是良性恶性,357 212元。图3显示缺失的数据点的总数在每一列的数据集。由于没有缺失数据,结果一直显示为零。
每个样品都是分配给一个能量向量1到10的范围内,1代表最正常状态和10表示最不正常的。对于每一个细胞核,数据集包含了十个关键的实值特征:(我)半径(平均中心和边缘点之间的距离),(2)周边,(3)密实度(^ 2周长/面积−1.0),(iv)纹理(灰度值的标准偏差),(v)平滑(本地半径的长度)的变化,(vi)区域,(七)凹度(野蛮轮廓凹的部分),(八)凹点(凹轮廓的配额数量),(第九)平滑(本地半径的长度)的变化,(x)分形维数(“海岸线近似”1)。
对于每一个图像,这些品质是决定。对于每一个10分,意思是,标准错误,和“最糟糕”(三大质量的均值)认为,收益率30了。例如,字段2展示了平均半径,半径12显示了SE,和现场22显示最糟糕的半径。流图4展品分类WBCD数据集上执行的工作利用人工智能方法。接下来是考试的方式完成。在主舞台,获得数据集分为准备和测试信息(80 - 20的百分比)。
2.2。系统的框图
AI的框图框架显示在图5。框架利用威斯康辛乳腺癌诊断的数据集,其中包含的全部特征和品质。首先,我们评估独秀的任何类的数据集,数据集有两个坦诚的品质。沿着这些线路,ID部分是最后的数据集。示范特征部分同样改为0和1的数字品质。我们检查之间的关系特征利用“网络连接”设备依赖症状特点和绘制更可能理解它们。
后,引起预期指定的组件,建立了客观价值所以模型可以推测。数据集被孤立成等量的准备和测试。分割是通过随机检查;这将导致一个准备和测试部分之间不平衡。随后,分离测试是利用,制备80%和20%的测试规模的大小。从那时起,元素的扩展竣工使用指南。为了更容易掌握情况,进行不同的柱状图和散点图表示准备分裂。之后,在这一点上,框架的开始做准备。
2.3。系统的流程图
乳腺癌是最常见的诊断疾病在医学领域,年复一年,其患病率增加。比较三种广泛使用机器学习算法预测乳腺癌复发是使用威斯康辛乳腺癌数据库(WBCD):(我)随机森林,(2)决策树,(3)再,(iv)逻辑回归。
2.3.1。随机森林流程图
图6显示了整个随机森林模型的流程图。随机森林是一个协调的人工智能系统(27]。这让“森林”的决策树,主要是准备使用“解雇”的方法。包装策略的中央的解释是,加入一些学习模型处理最终结果。随机森林落定在不同决策树和合并在一起产生一个更精确的和立体图形。它享有的利益倾向于计划和倒退的问题,占大多数当代毫升结构。另一个件很棒的随机森林过程是确定每个元素的整体相关性的评估是十分必要的。Sklearn有着非凡的机械装配评估组件的意义通过观察多少树中心利用它减少污染在整个边远地区。后续准备,注册这个分数为每个品牌和改变了披露的最终目标扩大直接意义。
随机森林的最吸引人的特性之一是它的多功能性。它可以用于复发和分组操作,和整体重要性它给的数据属性是明确的。它是另外一个有用的技术,因为默认hyperparameters它利用尽可能经常产生明确的预期。理解hyperparameters是至关重要的,并不是很多人在第一时间。过度拟合是公认的最广泛的问题之一ML,然而它只是有时发生在任意随机森林分类器。如果有足够多的树在森林里,分类器将不会overfit模型。
随机森林方法包括决策树的集合;每个由引导样本训练集,out-of-bag (OOB)样品,稍后我们将介绍它,三分之一的训练样本作为测试数据进行维护。然后,使用功能装袋,随机性的另一个实例是注入到数据集,提高它的多样性同时降低决策树之间的相关性。根据不同的类型的情况下,确定预测不同的过程。
2.3.2。决策树流程图
整个决策树配置的流程图显示在图中7。这次考试利用决策树分类器。这个分类器(28似乎分区模型空间递归。它是一个有先见之明的世界观,赋予权力之间的规划对象,将和独秀29日]。它隔离每一个潜在的结果成碎片。每个nonleaf中心地址组件测试,每个部门反映了测试的结果,每片叶子中心地址判断或分类29日]。倾向于期望模型是通过树的根中心加以解决,这是树的最高点。决策树的两个中心节点和叶节点的决定。叶中心地址这些决定的后果,没有任何额外的分支。测试的后遗症或决策依赖于给定的数据集的属性。
决策树是容易理解的,因为它反映了人类经历的步骤时,做一个真实的决定。它可以是非常有用的在处理决策的挑战。考虑所有的各种各样的回答一个问题是一个聪明的想法。数据清洗并不是必要的,因为它与其他方法。
2.3.3。再
整个再模型的流程图如图8。最基本的机器学习再计算程序,这取决于监督式学习系统。资讯的方法推断,新情况和以前的情况下是等价的,这让班上新案子最近过去的分类。资讯计算保持了每一个可访问的数据点和订单新信息指南针对的可比性与过去的信息。这意味着,使用资讯的方法,新的信息可以快速分为一个明显的分类。虽然资讯过程可以用于复发和分组,通常用于安排。非参数资讯的方法,这意味着没有怀疑有关信息。这同样是所谓的“懒散的学生技术”,因为它不立即获得制备;经过全面的考虑,它节省了信息和订单。资讯的方法简单地存储信息在准备阶段,当它得到新信息,组织成一个类,很几乎相同的新信息。
综述使用再分类器,它是一种最利用人工智能技术特征(30.]。再过程是一个非参数缓慢可能使用的学习策略来组织信息。这个分类器安排事情的距离和“k“最近的邻居。它认为物品的快速环境要素,而不是所需的信息分散(31日]。
2.3.4。逻辑回归
图9描述了逻辑回归模型的流程图。计算复发策略是其中最通常涉及机器学习计算在监督学习技术32]。这是一个技术预见一个彻头彻尾的因变量的一群自由的因素。
计算复发是用来预测的结果明确的从属变量。因此,结果应该是离散或连续。很好可能是或否,0或1,有效的或虚假的,等等,但概率特性提出了在0和1的范围,而不是精确的品质像0和1。复发和直接计算复发特别和如何使用它们。直线回归是用来照顾复发的问题,虽然逻辑回归是用来解决组织问题。在计算复发,我们一个“年代”形成的战略能力,仪表最极端的两个品质,而非复发(0或1)。计算容量的弯曲展示任何的可能性,例如,细胞是否有害,鼠标是否脂肪取决于它的重量,等等。战略复发是一个典型的人工智能方法,因为它能产生概率和新信息一致的和离散的数据集。
2.4。矩阵的评价
图10描绘了混淆矩阵(CM)。CM是AI的展览评估员描述模型。它是用来评估创建模型的展览。经常混淆矩阵的框架显示了我们的模型预测准确,他们判断错误。虚假的长处和误导性的底片被分配给值无效地预期,而真正的长处和真正的底片给准确预期的值。模型的正确性、准确性评估妥协,AUC是用来评估其展览的策划网格中的每一个预期的品质。
3所示。结果与数据分析
本节看模型的功能、模型预测,调查,和最终的结果。
3.1。数据可视化
直方图是一种图形描绘多次散射的无尽的类。它是一个地区的框架,它由正方形形状与基地之间的范围类限制和地区相对于频率的对比类。自基础之间填充孔类限制,每一个广场的结构在这种形象相关联。广场建筑的高度是相对于频率附近的类,和高度匹配相比,对各种类重复密度。整个数据集的柱状图显示在数据中4和11。数据集的范围是解决的直方图。
图4显示radius_mean的分布,texture_mean、perimeter_mean area_mean, smoothness_mean数据集。近似最大radius_mean texture_mean、perimeter_mean area_mean,和smoothness_mean 25, 35岁,170年,2500年,分别和0.14。
图11显示compactness_mean的运输、concavity_mean弯曲points_mean, symmetry_mean, fractal_dimension_mean数据集。不精确的值最极端的密实度,意思是,凹面,意思是,凹,意思是,对称,意思是,fractal_dimension平均是0.24,0.4,0.23,和0.08,分别。
3.2。的可视化特征选择
组件的表示决心过程显示在图12。强调选择协助看到如何彼此相关的元素。在图12主要目标元素,看到“决心”是绝对corelated fractal_dimension_mean, texure_se, smoothness_se symmetry_se, fractal_dimension_se。其他元素是相反的目标元素(诊断)。
3.3。模型的准确性
3.3.1。随机森林
图13显示了随机森林模型的分类报告。
整个F1-score赢得了96%。个人F1-score是恶性良性为94%和97%。图14显示了随机森林的AUC曲线。这表明曲线下的精度是98%的随机森林分类器。
图15显示随机森林模型的预测。预计结果将显示在混淆矩阵,以及模型的计算性能。正确预测的总数是109,五个错误的预测。
3.3.2。决策树
图16报告显示了决策树模型的分类。
整个F1-score取得了在这种情况下是95%。个人F1-score是恶性良性为93%和96%。图17显示了决策树的AUC曲线。这表明曲线下的精度是94%的决策树分类器。
图18显示之前的决策树模型的预测微调。预计结果将显示在混淆矩阵,以及模型的计算性能。正确预测的总数是108,6不正确的预测。
3.3.3。再
图19再显示模型的分类报告。
整体资讯的表现并不令人满意。整个F1-score取得了在这种情况下是90%。个人F1-score是恶性良性为85%和93%。资讯分类器的AUC曲线如图20.。这表明曲线下的精度是96%的资讯分类器。
图21再显示的预测模型在微调。预计结果将显示在混淆矩阵,以及模型的计算性能。正确预测的总数是103,有11个错误的预测。
3.3.4。逻辑回归
图22报告显示了逻辑回归模型的分类。该模型实现了分类精度最高。
整个F1-score赢得了98%。个人F1-score是恶性良性为97%和98%。逻辑回归的AUC曲线分类器如图23。它显示了逻辑回归曲线下的精度是100% (LR)分类器。
图24微调后显示了LR模型的预测。预计结果将显示在混淆矩阵,以及模型的计算性能。正确预测的总数是140,有3个不正确的预测。
3.4。模型比较
表2比较了模型与先前的研究论文。表清楚地表明,逻辑回归是最好的众多模型的框架。它有一个更高的F1得分和更精确的评估,该地区在弯曲。
4所示。结论
考试的主要目的是增加乳腺癌的结论的精度进一步发展乳房恶性增长预期。大部分的检查,重点是生产预报模型对乳腺癌的发现和预期使用机器学习方法和订单,已支持很长时间。在我们的研究中,我们使用各种知名的机器学习算法。随机森林,决策树,再和逻辑回归算法F1-scores最高,为96%,95%,90%,和98%,分别。通过使用谷歌Colab,每个算法的总体运行时间约2 - 3分钟。模型的准确性%用于这个调查是大大高于在早先的研究中,表明这些模型更可靠。交叉验证措施用于乳腺癌的预测时,逻辑回归方法拍不同的程序。在未来,谱聚类方法可以实现相关乳腺癌数据集。因为谱聚类(SC)已被证明是成功的在不同的应用程序。SC的学习计划是低于平均水平,它获得了团体标记从一个像样的图结构,通常需要额外的包裹信息的调整方法。 Also, the framework models could be improved by utilizing a more extensive dataset and ML models like AdaBoost, SVM, majority voting, and bagging. This will increase dependability and improve the exhibition of the framework. By just contributing MRI information, the ML framework can assist the overall population in finding out about the chance of cancer in grown-up patients. Hopefully, it will help people get cancer treatment early and work on their lives.
数据可用性
数据用来支持这个研究结果可以在网上https://archive.ics.uci.edu/ml/datasets/Breast + +威斯康辛+(诊断癌症)。
的利益冲突
作者宣称他们没有利益冲突的报告对于本研究。
确认
这项研究是由公主Nourah·本·阿卜杜大学研究人员支持项目数量(PNURSP2022R190),公主Nourah少女阿大学,利雅得,沙特阿拉伯。