文摘
乳腺癌是全球最常见的诊断女性疾病之一。人们进行了无数次研究预测生存标记,尽管其中多数使用简单的统计技术进行了分析。代替,本研究采用机器学习的方法来识别和开发模型可视化相关乳腺癌生存率的预后指标。综合医院乳腺癌数据集收集从美国国家癌症研究所的SEER计划的2017年11月更新,提供以人群为基础的癌症统计数据。2006年和2010年之间的数据集包括女性患者诊断乳腺癌浸润导管和小叶癌(SEER主引用重新编码号组织学代码8522/3)。数据集包括九个预测因素和一个预测变量与病人的生存状态(活着还是死了)。识别重要的预后标志物与乳腺癌生存率有关,建立了预测模型 - - - - - -最近邻的事例),决策树(DT),梯度增加(GB),随机森林(RF),演算法,逻辑回归(LR),投票分类器和支持向量机(SVM)。所有方法产生了密切的结果而言,模型精度和校正措施,实现了从逻辑回归(最低的 )从随机森林和最大的收购( )。值得注意的是,本研究使用的多种机器学习算法实现精度高,表明这些方法可能被用作替代预后生存工具在乳腺癌的研究,尤其是在亚洲地区。
1。介绍
乳腺癌死亡率很高。乳腺癌的影响全球150万多名妇女,每年按世界卫生组织(1]。乳腺癌是最著名的癌症之一,在埃及被首次发现在大约公元前1600年2]。肿瘤可用于筛查乳腺癌。肿瘤分为良性或恶性。识别恶性肿瘤,医生必须使用一个活跃的检测策略。然而,即使是专业人士,癌症是出了名的难以检测(3]。因此,自动化技术是用于癌症检测。大量研究试图预测癌的生存在人类使用机器学习的方法,而且也表明,这些算法更成功地诊断癌(3]。通常情况下,医生的知识和能力是至关重要的,以确保病人的检测精度4]。然而,这种能力是通过多年的完善看到不同人的不利影响和验证诊断。尽管如此,没有可靠性的保证。由于加工技术的发展,现在是非常简单的收集和维护大量的数据,如专业数据库的电子患者信息(5]。没有个人电脑的帮助,很难解析这些巨大的数据集,更因此而做广泛的信息检查。同样,一个精确的复制品真正的癌症可能防止个人治疗至关重要。结果,精确诊断和安排胸部疾病威胁到无害的子类型是一个重要的研究的主题。最近,人工智能计算已广泛用于区分胸部疾病和不同的想法来自信息设计。AI是众所周知的疾病分类和示范应用。这是一个战略寻找模糊的宽范围的一致性数据集的例子。它包含了一个广泛的各种各样的策略发现规则,理想模型,和连接内部信息分组,以及对理论对这些联系,可能被用来看到最近覆盖信息。图1说明了机器学习在医学领域的主要应用。
因此,艾未未的使用在医疗环境中迅速成长为其预测的结果和分类功能,尤其是在临床分析定义乳腺癌,目前广泛用于生物医学研究。
乳腺癌仍是最普遍的疾病在孟加拉妇女中。它已经发展成为一个隐藏的体重,女性占疾病死亡人数的69% (6]。乳腺癌最流行率(19.3 100000)在孟加拉国的年龄在15 - 44岁的女性7相比其他类型的疾病。在2008年至2010年之间,宫颈癌是第二个最常见的癌症在这群妇女,每100000年患病率为12.4。没有感染的认识,在临床决策缺乏信心,不道德的筛选程序,和早期转移性滥用都与频率的增加率(8]。此外,患者无法接受癌症治疗由于缺乏财力,感染的社会耻辱,及其治疗的恐惧。根据研究发现由孟加拉国的国家癌症研究所和医院,2010年乳腺癌负责21%的死亡年龄在15到49岁的女性。孟加拉国家癌症研究所和研究医院敦促胸部疾病孟加拉国政府成为一个严重的公共卫生问题。进行的一项研究表明在孟加拉国的战争怎样惊人地扩大业务在2007 - 2008年,87%的新例胸部疾病列为第三阶段+,表明恶性发展已蔓延至各个身体部位。治疗方案是有限的和昂贵的,在低收入像孟加拉国这样的国家更是如此。主要原因可能是缺乏公众对早期癌症检查,这是类似于在孟加拉国的农村地区。
专家已经解剖因素影响胸部恶性增长耐力利率利用基本编程项目,比如Microsoft Excel, SPSS,占据9- - - - - -11]。这些预排程序的可测量的设备并不是特别适应时跟踪新的因素或提供创新和综合概述12]。由于传统真实考试的缺点,各种人工智能(ML)计算已广泛应用于这一领域(13- - - - - -20.]。树方法是一个管理的学习方法,选择图片的结果在一个有效的可翻译的树状结构,这是打破巨大的基础措施的信息(21- - - - - -24]。Breiman的计算,DT的下属,是适合在监管和独立工作模式,可以同时处理一致和坦诚的信息为了和复发的问题(25,26]。人工神经网络经常被描述为秘密元素,证明通过准备信息与已知结果的进一步发展的期望和调优加载情况下模糊的结果(27,28]。的提高是一个并行的组织秩序和复发的树木产生精确的预测,很容易利用,打不同的计算(AI挑战29日]。战略是基于高斯扩散和复发有能力处理各种类型的因素,如不间断的、离散的、和二分,不作任何假设他们的平凡30.,31日]。监管的分组,使用支持向量机。他们通过定义工作最好的选择限制隔离主要元素分成特定的组,然后预测未来看法基于这种超然的类限制(32]。尽管人工智能策略胸部疾病已经创建并检查之前,面积等因素,生活方式,和开放的信息可能转变。我们确认它是必不可少的促进孟加拉国设置学习影响因素模型胸部恶性肿瘤病人的耐力率增长。此外,它是非常有用的执行变量选择利用人工智能方法在临床领域,专家有老式事实策略的倾向。本研究的目的是使用传统的人工智能方法开发可判断的预后模型发现影响人的主要特征与心脏病的存活率在亚洲的气候。本研究的主要目的是演示如何使用机器学习来检测乳腺癌的特性。研究最重要的方面是,我们使用各种著名的机器学习算法来实现最好的结果。在我们的调查中,我们使用许多知名的机器学习算法。RF, DT,事例,SVM分类器投票,GB分类器,演算法分类器,和LR算法达到了94.64%,89.22%,83.87%,84.67%,88.26%,91.78%,89.0%,和80.57%的准确率。模型的准确性百分比利用这个分析是大大高于在早些时候的调查中,表明这些模型更可靠。 Several model evaluations have demonstrated their resilience, and the strategy may be extrapolated from the study.
据研究,可以提高女性是否能及早发现和治疗乳腺癌。他们必须通过准确地预测疾病的发展从一个温和的条件乳腺癌。机器学习技术可能帮助初代的正确预测。有几个机器学习系统,但不幸的是,他们的预测是不可靠和不准确的。他们也担心,underfitting。因此,我们开发了一个机器学习模型,协助医疗技术人员在癌症的早期发现疾病。它将证实和显示一个人是否有乳腺癌。
我们研究的重要贡献,如前所述,我们使用很多机器学习模型在一个公开可用的数据集。以前,大部分的研究使用了一个巨大的模型来预测乳腺癌。然而,我们测试了许多不同的机器学习算法来预测乳腺癌的特点和早期的研究结果进行比较。这项工作的其余部分组织如下。部分2讨论了方法和实验方法,部分3讨论结果分析和部分4讨论了结论。
2。方法和实验方法
这部分包含一个数据集的描述,一个街区图,流程图,评估矩阵,并利用信息技术和材料。
2.1。数据集
这种乳腺癌患者数据库编译从2017年11月更新国家癌症研究所的SEER计划,提供以人群为基础的癌症统计数据(33]。女性患者被诊断出患有乳腺癌浸润导管和小叶癌(SEER主引用重新编码号组织学代码8522/3)在2006年和2010年之间被包括在研究。患者患者肿瘤大小不确定,调查地区LNs患者积极区域LNs和患者生存的不到一个月被省略;因此,4024名患者最终被包括在内。完整的数据集的“状态”列中的数据图所示2。
缺失值的总数在每一列的数据库如图3。由于没有缺失值的情况下,结果一直显示为零。
2.2。系统的框图
AI的框图框架显示在图4。的组件为期望已确定,并建立了模型的客观价值,以便它可以假设。之后,数据集分为等分的制备和测试。分割是通过随机检查,导致分配不均的准备和测试时间。
之后,两个考试进行,制备大小和测试20%大小的80%。再往下,按比例缩小的使用指南。为了便于理解,几个制备分离的柱状图和散点图表示。再往下,框架的开始做准备。
2.3。使用算法
乳腺癌是最常见的疾病在医学领域,发现和诊断的发病率逐年增加。SEER乳腺癌数据库被用来评估八广泛使用机器学习算法预测乳腺癌复发的死亡率。(我)随机森林(2)决策树(3) - - - - - -最近的邻居(iv)逻辑回归(v)支持向量机(vi)分类器投票(七)梯度提高分类器(八)演算法分类器
2.3.1。随机森林流程图
随机森林是一个机器学习技术指导(34]。这让“森林”的一群精心挑选的树已经准备在很大程度上“包装”技术。混合装袋策略的基本原理是,许多学习模型增加了最终结果。随机森林产生几种不同的树,组合成一个更精确和可靠的表示。它提供的好处的安排和复发问题解决困扰大多数现代机器学习框架。一个引人注目的组成部分随机森林方法是决定一切的整体意义的估计是如此直接的。Sklearn为评估提供了卓越的机械装配组件的意义通过观察有多少污染减少整个树的边远地区社区都使用它。规划后,这一点对于每个品牌和变化发现,完全专注于提高彻底的重要性。随机森林的适应性是最迷人的元素之一。它可以用来找到倒退和收集数据,和良好的数据的重要性是显而易见的。 Moreover, it is a valuable system since the default hyperparameters it utilizes frequently produce unequivocal assumptions. Because there are not many hyperparameters to begin with, understanding them is essential. Overfitting is a notable issue in AI, yet it seldom happens with the erratic arbitrary timberland classifier. The classifier will not overfit the model if there are sufficient trees in the backwoods. The random forest approach is made up of a progression of decision trees, every one of which is developed by utilizing a bootstrap test from a preparation set. The out-of-pack (OOB) test, which we will talk about later, is 33% of the preparation test that is saved for the end goal of testing. The dataset is then infused with one more case of randomization utilizing highlight packing, expanding its assortment while diminishing the relationship across choice trees. The strategy for anticipating differs as per the situation.
2.3.2。决策树流程图
本文利用决策树分类器。这个分类器(35]似乎递归细分模型空间。有先见之明的世界观作为指南之间的特征,其品质(36]。它经常隔离每一个潜在的信息结果成碎片。每个nonleaf中心与探索一个元素,每个分支审判的结果,每片叶子中心一个判决、裁定36]。树的根集线器,顶端,显示最常利用预测模型。决策树的两个中心决策中心和叶中心。而叶中心这些决策的结果,没有额外的分支,利用中心决定定居在这些选择,包含几个分支。测试或决策的结果依赖于数据集的属性。决策树并不难理解,因为它的含义重复个体经历而沉降成为当之无愧的选择。它可以是非常有用的在解决问题的方向。考虑所有可行的回答一个问题。清理不需要的信息,无论它是用不同的策略。
2.3.3。 - - - - - -最近的邻居
最重要的一个人工智能计算是事例的技术。它依赖于使用的学习方法。事例的方法承认新的情况和以前的情况下是可以互换的,分配新病例分类,类似于以前的分类。事例的计算使每一个可访问的数据点和安排相应的新信息与最近特征信息的可比性。这真正意味着使用事例的方法,新的信息会很快安排到不同的分类。事例的方法可以用于复发和分组,尽管它是最常用于订单的困难。事例的非参数方法,这意味着它对数据做任何假设。现在,然后提到“缓慢的学生”计算,因为它并没有获得准备设置在一瞬间,而是保持了和订单之后的数据。事例的方法仅保存在准备阶段的信息,当它得到新信息,这类到类,通常是几乎相同的新信息。本文使用了 - - - - - -最近邻分类器,这是一个最经常涉及的订单计算在人工智能37]。的 - - - - - -最近邻过程是一种非参数技术为特征的信息。这分类器特征的接近”“最近的邻居。它是担心快速环境元素的东西,而不是必要的信息交通工具(38]。
2.3.4。逻辑回归
逻辑回归是一种最常利用人工智能计算在调节学习方法(39]。这是一个估计的方法,利用收集的免费因素期望全面从属变量。估计一个因变量的结果,使用逻辑回归。因此,最终的结果应该有一个明确的或离散的性格。很好可能是或否,0或1,有效的或虚假的,等等,但概率品质提出了在0和1的范围,而不是精确的品质像0和1。复发和直接计算复发适度比较在他们的应用程序。直线回归是用来解决复发问题,而利用逻辑回归来解决安排困难。而不是拟合复发,我们利用逻辑回归来适应一个“S”型计算工作,预计两个最极端的特质(0或1)。计算容量的弯曲显示任何的可能性,例如,无论细胞是有害的,或无论鼠标脂肪取决于它的重量。由于使用连续的和离散的数据集,计算复发是一种常见的人工智能策略。它可以预测和组新信息通过使用两个数据集。
2.3.5。支持向量机
SVM模型的表示事件点空间,隔着很大差距的例子不同的类(40]。与直接安排,支持向量机可以实现成功的高层nonstraight表征可证实地计划他们的贡献包括空格。仅支持向量;我们没有压力在不同认知自边缘确定利用集中最接近超平面(支持向量),同时计算复发特征分类器在所有的地方。因此,SVM受益于特定的天生的加速效果。
2.3.6。分类器投票
投票分类器是一种人工智能模型,可以从大量的模型和预测的结果(类)基于类的最好机会被选为结果(41]。它基本上总数每一个分类器的后果是民主分类器和照顾估计结果类的类最大的民主更大的一部分。严格意义的民主扩展结果类是得票最多的,也就是。,the class that had the highest likelihood of being predicted by all of the classifiers. Accept three classifiers as a starting point for predicting the result class ( , ,和 )。的情况下,大多数人预测。随后,将填写最后一计。由此产生的阶级的民主是估计的正态分布的概率分配给类。希望贡献了三个模型,预测可能性是 这类是 。因此,正常的0.4333类和0.3067类 ,类显然是冠军,因为它有最好的正常到达每一个分类器的中点的可能性。
2.3.7。梯度提高分类器
梯度推进是一种人工智能方法,经常用于复发和安排应用程序(42]。它创建一个期望模型利用一个虚弱的预测模型中,最常选择的树木。在填写的时候选择树作为脆弱的学生,合成技术是提到“slope-supported树。“这经常拍任意的边远地区。slope-help树模型以类似的方式和其他支持的方法,但是它的对比,它允许增强的可微的不幸。
2.3.8。演算法分类器
推动发明的机器学习解决问题的弱分类器集合是否可能变成一个强分类器(43]。可怜的学习者或分类器是优于随机猜测。因为它将大量的弱分类器组成,每一个都比随机的,这将是对过度拟合。作为一个贫穷的分类器,一个简单的阈值通常使用在一个单一的特性。它是正的,如果特征超过预期的价值;否则,它是负的。演算法是一个缩写“适应性增加,”技术,将弱学习者或预测到强预测因子来解决分类问题。
2.4。矩阵的评价
图5描绘了混淆矩阵。机器学习分类模型的性能是衡量使用混淆矩阵。创建评估模型的性能,采用混淆矩阵。
混淆矩阵显示准确的模型在预测和他们预测错误的次数。假阳性和假阴性是归因于值是错误地预测,而真阳性和真底片被分配到正确预测的值。准确性、precision-recall权衡和AUC的模型被用来评估其性能一旦进入所有的估计参数矩阵。
3所示。结果与数据分析
3.1。的可视化特征选择
图6描述了特征选择的策略。能够理解功能是通过特征选择连接到另一个是辅助。
见图6、主要目标特征“地位”与所有其他变量呈正相关,除了生存几个月。
3.2。模型的准确性
3.2.1之上。随机森林
随机森林分类器的分类报告如图7。
在所有其他的算法,它精度最高(94.64%)。随机森林模型可以正确识别95%的特征与乳腺癌有关。随机森林分类器的混淆矩阵如图8。
有1291个正确的猜测和73错误的预测在这个例子。这个模型预测642年的数据为0和649年的数据为1。所以,这是正确的预测。然而,它还预测39数据点为0和34数据点为1。这是一个绝对错误的预测。
3.2.2。逻辑回归
图9演示了逻辑回归分类器的分类报告。
在这里,逻辑回归取得了81%的准确率。在这种情况下,该模型能正确识别81%的特征与乳腺癌有关。
图10显示了逻辑回归的混淆矩阵分类器。
在本例中,有1099个正确的预测和265错误的预测,分别。这个模型预测572年的数据为0和527年的数据为1。所以,这是正确的预测。然而,它还预测161数据点为0和104数据点为1。这是一个绝对错误的预测。在这种情况下,错误的数量大于随机森林预测。出于这个原因,精度小于随机森林算法的。
3.2.3。支持向量机
图11展示了支持向量分类器的分类报告。
在这里,支持向量机取得了85%的准确率。在这种情况下,该模型能正确识别85%的特征与乳腺癌有关。
图12显示了支持向量分类器的混淆矩阵。
有1155个正确的预测和209错误的猜测。这个模型预测614年的数据为0和541年的数据为1。所以,这是正确的预测。然而,它还预测147数据点为0和62数据点为1。这是一个绝对错误的预测。在这种情况下,错误的数量大于随机森林预测但低于逻辑回归。出于这个原因,精度小于随机森林但大于逻辑回归。
3.2.4。分类器投票
图13显示了投票分类器的分类结果。
投票分类器模型可以正确识别88%的特征与乳腺癌有关。出于这个原因,精度为88%,这比逻辑回归和支持向量机。随机森林分类器的混淆矩阵如图8。
分类器投票的混淆矩阵图所示14。
正确的预测是1204而错误的猜测是160。这个模型预测610年的数据为0和594年的数据为1。所以,这是正确的预测。然而,它还预测94数据点为0和66数据点为1。这是一个绝对错误的预测。在这种情况下,错误的数量大于随机森林预测但低于逻辑回归和支持向量机。出于这个原因,精度小于随机森林但大于逻辑回归和支持向量机。
3.2.5。决策树分类器
决策树分类器的分类结果图所示15。
决策树分类器模型可以正确识别89%的特征与乳腺癌有关。出于这个原因,比LR的准确性为89%,支持向量机分类器投票。
决策树分类器的混淆矩阵图所示16。
正确的和错误的预测的数量在本例中是1217年和147年,分别。这个模型预测595年的数据为0和622年的数据为1。所以,这是正确的预测。然而,它还预测66数据点为0和81数据点为1。这是一个绝对错误的预测。在这种情况下,错误的数量大于随机森林预测但低于逻辑回归和支持向量机。出于这个原因,精度小于随机森林但大于逻辑回归支持向量机分类器投票。
3.2.6。决定 - - - - - -最近邻分类器
的 - - - - - -最近邻分类器的分类结果如图17。
事例的模型可以正确识别84%的特征与乳腺癌有关。出于这个原因,准确性与逻辑回归优于84%。
事例的分类混淆矩阵如图18。
在这里,正确的预测和虚假的预测是1144年和220年,分别。这个模型预测584年的数据为0和560年的数据为1。所以,这是正确的预测。然而,它还预测128数据点为0和92数据点为1。这是一个绝对错误的预测。在这种情况下,错误的数量大于随机森林预测但低于逻辑回归。出于这个原因,精度小于随机森林但大于逻辑回归。
3.2.7。梯度提高分类器
图19显示了GB分类器的分类结果。
GB模型可以正确识别92%的特征与乳腺癌有关。结果,精度92%,高于其他技术,如LR的准确性,SVM分类器投票,和事例。
图20.描绘了梯度提高分类器的混合矩阵。
在这里,正确的预测和虚假的预测是1252年和112年,分别。这个模型预测635年的数据为0和617年的数据为1。所以,这是正确的预测。然而,它还预测71年的数据点为0和41数据点是1。这是一个绝对错误的预测。在这种情况下,错误的数量大于随机森林预测。但是它实现第二高的准确性在所有其他算法。
3.2.8。演算法分类器
演算法分类器的分类结果图所示21。
演算法模型可以正确识别89%的特征与乳腺癌有关。出于这个原因,精度是89%等于决策树分类器的结果。
演算法分类器的混淆矩阵图所示22。
在这里,正确的预测和虚假的预测是1214年和150年,分别。这个模型预测621年的数据为0和593年的数据为1。所以,这是正确的预测。然而,它还预测95年的数据点为0和55数据点是1。这是一个绝对错误的预测。在这种情况下,错误的数量大于随机森林预测。
3.3。模型比较
该模型在表1相比于之前的研究文章。表中明确表明,随机森林是最大的模型框架的几个模型。它有一个更高的分数,更精确,有更好的评估,并弯下一个更大的区域。
根据表1,所有的方法有很好的精度。随机森林方法,另一方面,是一个更好的选择,因为它是更准确。在这项研究中,射频方法是94%准确的。的分类器投票只有87%的准确率20.]。使用决策树方法,本文获得了89.22%的时间,而作者的26获得了73.2%的时间。
4所示。结论
本研究使用机器学习的方法来分析预测标记对乳腺癌的生存。当与其他算法相比,随机森林方法生产有点更高的准确性在评估模型。在这个研究中,射频,DT,事例,支持向量机,分类器投票,GB分类器,演算法分类器,和LR算法达到了94.64%,89.22%,83.87%,84.67%,88.26%,91.78%,89.0%,和80.57%的准确率。尽管如此,所有算法的准确性似乎近了。在这方面,本研究建立的模型的性能和重要影响因素乳腺癌患者的生存率,这可能是用于临床实践,特别是在亚洲的场景。在这项研究中使用的模型的准确性%显著大于在先前的研究中,这意味着在这项研究中使用的模型更加准确。随机森林方法比其他方法使用交叉验证措施时预测乳腺癌。框架模型可以改善在未来通过添加更大的数据集和机器学习模型多数表决和装袋。这增加框架的可靠性和提高其演示。只需提交核磁共振数据,机器学习框架可以帮助社区在决定成年患者罹患癌症的风险。 Ideally, it will aid patients in obtaining early cancer treatment and reclaiming their lives.
数据可用性
使用的数据来支持本研究的发现在https://上都是免费的http://ieee-dataport.org/open-access/seer-breast-cancer-data。
的利益冲突
作者宣称他们没有利益冲突的报告对于本研究。
确认
这项研究是由塔伊夫大学科研院长以来,沙特阿拉伯王国,通过支持项目数量TURSP-2020/265塔伊夫大学的研究人员。