文摘
肝脏是人体的强制机关,但检测肝脏疾病在早期由于症状的隐居生活是非常困难的。肝脏疾病可能导致损失的能量或弱点当肝脏的一些工作中的违规行为得到可见的。癌症是最常见的肝脏疾病之一,也是最致命的。开发控制有害细胞的生长,在肝脏。如果诊断出晚期,可能会导致死亡。治疗肝脏疾病的早期阶段,因此,一个重要的问题是设计一个模型早期诊断疾病。首先应该确定一个适当的功能,起着更重要的作用在检测肝癌的早期阶段。因此,它是至关重要的从成千上万的不必要的特性提取一些基本特性。所以,这些特性将使用数据挖掘和开采软计算技术。这些技术给优化结果将有助于疾病在早期诊断。 In these techniques, we use feature selection methods to reduce the dataset’s feature, which include Filter, Wrapper, and Embedded methods. Different Regression algorithms are then applied to these methods individually to evaluate the result. Regression algorithms include Linear Regression, Ridge Regression, LASSO Regression, Support Vector Regression, Decision Tree Regression, Multilayer Perceptron Regression, and Random Forest Regression. Based on the accuracy and error rates generated by these Regression algorithms, we have evaluated our results. The result shows that Random Forest Regression with the Wrapper Method from all the deployed Regression techniques is the best and gives the highestR2-Score MSE最低的0.8923和0.0618。
1。介绍
肝脏是人体重要器官之一(1]。肝脏和胆囊用于吸收、消化、加工的食物。肝脏有多个功能进行通过肝细胞(肝细胞)2]。它创造了一半的身体的胆固醇,和其他来自食物,这将有助于使胆汁支持消化。蛋白质和激素生产肝脏的主要任务是控制糖在血液和血液中的凝血。因此,肝脏的位置和功能使它容易产生疾病。目前,许多类型的肝脏疾病导致人类死亡率最高(3]。最常见的肝脏疾病是肝炎,B, C, D, E纤维化、肝硬化,脂肪肝,肝癌。最严重的是肝癌;它只能被触发如果癌症细胞是肝内开发的。
癌症只能治愈时发现在早期阶段4]。失控的增长异常细胞在肝脏可以导致癌症。很难诊断肝脏的癌症早期阶段作为其症状的出现是微薄的5]。肝脏可能工作异常时过度摄入酒精或吸烟,或患者乙肝或丙肝,II型糖尿病。这些异常可能导致肝癌。肝细胞(肝细胞),如果受到影响,会导致肝癌,肝细胞癌。肝癌的症状可能包括白色的大便,B型肝炎或C,严重的黄疸,体重严重下降,严重呕吐,腹痛,和更多2]。在早期诊断肝脏疾病将成为下一个任务的帮助下软计算技术。
软计算提供了方法来解决现实生活中的问题(6]。软计算的主要目的是为了实现更高的准确率,减少歧义,估计推理健壮性、实惠的解决方案,和可控性。过滤不相关属性,使用数据挖掘技术的人工智能,有预测模型表示7]。数据挖掘技术包括不同的特征选择技术用于过滤像过滤器一样,包装,嵌入式等等。数据挖掘需要消除不相关的数据在数据集(8]。挖掘算法减少了很多具有很高的性能特性或属性。因此,特征选择技术应用于矿井数据。特征选择的主要目标是改善模型性能,降低成本,避免过度拟合的快速和准确的结果9]。筛选、嵌入式和包装方法用于特征选择。
数据集和其合适的精炼至关重要,研究者侧重于特征提取技术。他们提供了构造特征和选择合适的特征的能力,排名功能,功能验证和评估模型10]。数据挖掘技术扮演了一个重要的角色在挖掘数据,选择合适的子集的操作整个数据集。数据挖掘技术包括特征选择技术,帮助消除无关的特性11]。特征选择技术分为三大类,即过滤方法,包装器方法,混合这两个(嵌入式方法)(12]。
在过滤方法,数据挖掘算法不习惯和属性计算的意义通过观察数据的基本属性。基本特征计算,和较低的评分属性删除(13]。包装器方法的主要特点是测量质量的性能特征子集的数据挖掘算法应用于特征子集。嵌入的方法是特征选择的另一种方法(14]。它与学习算法特征选择算法相结合。决策树是最适合所有嵌入的方法。可以评估这些选择技术的性能和相对最有效的模型可以选择(15]。
过滤方法的特征提取方法,包括统计分析的数据集从聚合数据中提取没有应用机器学习算法。单变量和多变量类型的过滤方法,包括信息增益、皮尔森相关,卡方,Quasi-Constant消除,比值比,消除重复的功能,消除常数特性,特征提取相关,更多的(16]。包装方法是另一个方法的子集选择算法利用学习算法消除,消除落后、和双向消除寻找最佳子集从整个预测性能较高的特征子空间17]。混合动力技术的研究人员也给过滤和包装为特征选择评估更相关的结果,其中包括嵌入式方法和提供了一个折衷的解决方案,在学习算法中嵌入特征选择并返回所选子集和学习算法,这将进一步被处理。广泛使用嵌入式方法是正则化方法,包括L1正规化(套索)和L2正规化(脊)方法(18]。
最后,上述特征选择技术的帮助下将评估回归技术。这些技术帮助我们在测量精度和错误率选中的数据集。回归预测分析技术在数据挖掘。它包括线性回归、岭回归,套索回归,弹性净回归,回归、决策树支持向量回归,回归多层感知器神经网络回归,随机森林回归,和更多19- - - - - -24]。这些技术将进一步采用特征选择技术来评估一些数据提取的统计结果。
本文的组织如下:在部分2描述的材料和方法,其次是确定模型的结果。部分3论述了在癌和最终性能检测方法。最后,给出了结论和未来工作的部分5和5,分别。
2。材料和方法
许多人工智能技术解决医疗问题。我们将提取有用的特性,帮助检测肝癌的特征提取技术的帮助下,过滤方法,嵌入方法和包装方法是非常有用的。这些方法将会在回归模型中实现相应训练我们的数据,和一些有用的特性将从这些模型中提取。这些算法提取有用的数据,帮助我们将是有用的在进一步治疗肝脏疾病早期诊断。整个过程在图表示1。
成千上万的功能是在一个数据集进行有用的特性提取整个数据集通过使用特征选择技术;这些包括过滤方法,包装方法和嵌入的方法训练数据。我们将评估回归模型在蟒蛇Python工具所需的结果。
在提出的模型中,数据采集是第一步,我们从网上收集肝癌(国家健康研究所的数据库来源25]。五十特征提取,240名患者的数据。数据包括一些人口以及医疗功能,也就是说,年龄,城市,地区,教育、婚姻状况、职业、爱好、兄弟姐妹、体重、身高、性别、关节炎、家族史、遗传状态、高血压、糖尿病、吸烟、酗酒、心脏病、骨质疏松症、药物摄入量,黄疸,胆囊炎症、肾结石、呕吐、恶心、温度、肝功能试验、哮喘、白色的大便,眼睛的颜色,最后血液测试,癌症病人、肺炎、肝炎类型、冷却、支气管炎、咳嗽、体重减轻、食欲不振、背部疼痛,肝脏肿大,痰液颜色、钙水平、肥胖、疲劳或虚弱,胸痛、血红蛋白水平,痰液水平的结果。这些数据被转换成数值,详细的表1。我们使用水蟒提示(Jupyter笔记本)工具来解决我们的问题,和语言中使用Python。系统规格如下:第十代英特尔酷睿i7处理器,支持Windows 64位操作系统,32 GB DDR4内存,1 TB SSD硬盘,和英伟达RTX A3000显卡。
最初,我们将回归技术计算的准确性和错误率为预处理数据集。
2.1。回归
回归统计分析方法用于确定一个因变量与多个自变量之间的关系(26]。有不同类型的回归模型或算法由哪一个可以很容易地估计相应的临界问题[27];也就是说,(我)线性回归确定现有的预测值和有针对性的值之间的关系(19]。(2)岭回归分析了标签基于statistical-based基本关系。这种方法给值低于从最小二乘法获得的值方差和更可取28]。(3)套索回归执行两个主要任务,正则化和特征选择。它的目标是减少预测误差(29日]。(iv)弹性网络回归岭回归的组合和套索回归,这是通过惩罚模型(30.]。(v)决策树回归就像一个模型决定的帮助下树结构。输入该模型给出了所有可能的结果,成本和时间复杂性,等等,是一个监督学习算法(22]。(vi)支持向量回归方法使用高维特征空间来计算一个线性函数,输入数据的非线性函数。它减少了误差提高回归性能(31日]。(七)回归是一个多层感知器算法学习潜在的非线性函数近似者(32]。(八)随机森林回归执行回归和分类使用多个决策树(33]。
我们应用这些回归算法特征选择技术在我们的数据集,它分为训练和测试数据集的比例为80%和20%,分别。
2.2。特征选择技术
特征选择技术是数据挖掘中数据的预处理。减少数据集的大小和删除无关的特性是数据挖掘的主要任务,这有助于提高机器学习算法的效率和准确性。它还减少过度拟合(14,34]。特征选择技术可以大致分为过滤器,包装,和嵌入方法。
2.2.1。过滤方法
过滤方法的主要标准是基于预测变量之间的关系和特征。过滤方法,特性的一个子集选择独立于一组作为输入使用的所有特性和在任何机器学习算法。它使用统计技术寻找输入变量之间的关系和预测变量(35]。过滤方法的一个例子如下:(我)皮尔森是基于相关矩阵的相关性。系数可以计算出输入和输出变量之间的线性关系。它是计算协方差除以两个变量的标准差的产品(36]。(2)Quasi-Constant特性显示相同的值对绝大多数观测的数据集,所以我们不考虑这些特性在预测结果。没有规则设置应该为Quasi-Constant方差阈值特性(35]。(3)常数特性消去法消除了常数的特性,也就是说,拥有相同的价值观和目标与零值方差(35]。最好是消除这些特性以避免数据的重复。(iv)相关特征提取开采特征的子集是足够好的与产量高度相关时,彼此不相关的。两个或两个以上的特性相关,如果他们相互接近线性空间。(v)复制特性消除无视相同的特性,这些特性使其重复的值。他们危害结果的准确性,增加时间延迟和开销,不帮助改善算法的训练35]。
2.2.2。包装器方法
包装方法是类似于过滤方法,但它使用一个预定义的机器学习算法,并使用其性能的评价标准,而不是一个独立的测量评估子集(37]。以下是不同类型的包装方法:(我)提出选择是一个递归方法最初模型中没有的功能。每一次迭代后,我们继续添加功能一个接一个,直到添加新变量不能改善模型的性能(38]。(2)相比落后淘汰工作在一个相反的方向向前选择;我们从一组完整的特性,然后删除一个接一个无关紧要的功能更少的显著性水平。首先,选择一个显著性水平然后使用所有功能符合模型考虑的特性值高于显著性水平和消除这些特性值小于显著性水平,然后重复这个过程(39]。(3)双向消除是一种混合消除向前和向后消除。首先,选择进入和退出模型的显著性水平,然后添加特性和检查功能的价值小于显著性水平值,然后不添加这个特性,然后执行逆向消除步骤和检查显著性水平值退出模型特征值;如果它的值小于特定功能的意义价值,然后删除它。
2.2.3。嵌入式方法
嵌入式方法提供了一个权衡之间的关键过滤和包装方法将特征选择嵌入模型的学习。该方法负责每个迭代模型的训练过程,提取特征贡献最高的训练为一个特定的迭代(40]。正规化是最常见的嵌入式方法惩罚一个特性系数阈值。它包括套索、山脊和弹性净回归,从哪两个如下:(我)L1正规化(套索)惩罚一个特性系数为0,如果是无关紧要的。因此,特征系数= 0将被删除,和其余的特性将再次通过套索正则化技术(41]。(2)L2正规化(脊)给予处罚如果特性是无关紧要的,相当于系数的大小的平方。它不收缩系数为零。所以,岭回归系数限制;如果系数的值是相当大的,然后优化函数是惩罚41]。
数据挖掘和机器学习扭曲在一起,用属性功能净化或选择被认为是他们的一个核心程序。我们的模型的性能高度依赖他们。我们使用240名患者的数据集和训练我们的模型在这个数据集,和回归技术也被应用。以下是表2给R2-Score初步结果和均方误差(MSE)的训练和测试数据没有应用任何特征选择技术。
R2-Score是一个关键的指标来评估一个回归模型的有效性。它也被称为确定系数和略R平方。它是通过计算dataset-explained变异量的预测。广场的MSE平均的不准确。数量越大,误差越大。在这种情况下,错误是指观察和预期值之间的差距。所以正面和负面的数字甚至不互相抵消;我们广场的区别。
现在,特征选择技术的包装方法,有以下类型:选择,淘汰落后、和双向消除。结果在表3特征选择技术使用包装器方法向前选择回归算法。
结果在表4使用包装器方法和特征选择技术落后淘汰所有回归算法。
结果在表5使用包装器方法是特征选择技术和双向消除所有回归算法。
嵌入式方法有以下两个方法,用于计算准确性和错误率训练和测试数据集。以下是结果L1正规化(套索)所有回归算法在表表示6。
以下是结果L2正规化(脊)中所描述的表7对于所有回归算法。
过滤方法有以下的方法将被用于计算准确性和错误率训练和测试数据集。下面是所有回归的皮尔森相关算法的结果表8。
表9显示结果为常数特性消除所有回归算法。
以下是结果Quasi-Constant表中描述的消除10对于所有回归算法。
表11显示了相关的结果特性消除回归算法。
以下结果表12为消除重复的特性都回归算法。
上面的表格显示,随机森林回归已从所有回归技术最好的结果。表13提供集体结果随机森林回归的所有特征选择方法错误率最低最高精度和比较所有回归技术。
2.2.4。完整的数据训练
所有包装方法给类似的结果,我们需要计算R2-Score和MSE使用完整的数据集。研究的结果发表在表14。
2.2.5。看不见的数据集
当所有的数据用于训练模型使用各种算法,评估问题的模型和选择最好的一个。的主要目标是找出哪些模型泛化误差最低的所有他人。换句话说,模型优于其他所有人在预测未来或者看不见的数据集?这需要使用一种技术,允许模型训练数据集和测试在另一个。现在,我们将执行这些技术使用一个看不见的数据集。现在我们有一个历史的60名患者。然后我们将再次使用包装器方法提取特征数据集。现在从看不见的数据集的识别功能使用培训模型图所示2- - - - - -4作为。
2.2.6款。准确性和错误率
我们代表的形式统计分析表给出的上方和下方显示的结果使用回归算法特征选择技术。给最好的结果在测试过程中使用回归算法从随机森林回归最高R2-Score和最小均方误差如表所示15。
3所示。讨论
最后阶段的癌症疾病死亡率增加的主要原因。在大多数情况下,肝癌早期未被检测到,这是毁灭性的人类,由于后期诊断,这癌症导致死亡。诊断的第一步是找到重要的特性,将某人的疾病的最佳示范。这里,我们已经确定了一个方案,将有助于提取有用的特征子集的详尽的功能,可以帮助进一步癌症或其他疾病的治疗。为此,使用训练数据特征选择技术和回归模型来提取优化功能。我们的框架将提取从一个巨大的数据集的子集的特性,其结果将有助于识别病人的健康状况进一步需要决定把病人带回家或进一步的专业诊断程序。这些技术还将帮助病人,医疗设施提供者,政府减少诊断费用。我们的结果是非常赚钱的早期和有效的检测病人的健康与适当的治疗可以促进一个人的健康问题在时间。如今,机器学习是一个巨大的字段,可以解决许多医疗相关问题;此外,它是非常重要的诊断之前致命的疾病和癌症是慢性毒药,慢慢地穿过身体的所有器官,所以它是非常必要的诊断这种疾病在正确的时间(42]。我们的重点工作有利,更少的时间将与优越R2-Score和MSE。有个人训练集和测试集的结果R2-Score和MSE,因此更容易检测原始数据集和预测值之间的区别R2-Score和MSE的识别问题。
4所示。结论
医疗相关问题可以在早期诊断主要是软计算技术的帮助下,机器学习和数据挖掘。数据挖掘与适当的初始步骤来诊断疾病特性的选择是至关重要的。出于这个原因,我们使用特征选择技术提供适当的选择功能,这使得处理疾病的检测变得更加容易。这些技术证明他们强烈有助于数据挖掘和机器学习技术。特征选择技术有多个方法挖掘数据集包括过滤方法、包装方法和嵌入方法。我们的工作表明,包装方法是最适合的检测特性,是最重要的对于疾病的诊断方法具有最高R2-Score和最低MSE提取的特征。然后我们有评估一些包装方法消除,消除落后,双向消除。这些被测试的方法的结果回归算法。我们计算R2-Score和MSE的帮助下这些回归技术。越高R2-Score和下MSE显示更高的疾病检测的正确性。我们的研究得出结论:包装器基于方法的特征选择技术应用有更好的结果,然后随机森林回归给最好的结果R对我们的数据集2-Score和MSE。
5。未来的工作
经过适当的特性的选择,我们的任务就是找到是否病人的条件是至关重要的。如果病人的条件是至关重要的,我们可以建议他们扫描:计算机断层扫描或正电子发射断层扫描。这个过程可以通过使用进一步软计算技术包括神经网络、遗传算法和自适应Neurofuzzy系统。之后,这些扫描图像识别可以将帮助识别肿瘤的位置在特定的器官。此外,图像识别技术将识别的结果癌细胞及其传播其他器官。
数据可用性
本研究的数据集生成是公开可用。
的利益冲突
作者宣称没有利益冲突。
作者的贡献
所有作者列出了一大笔,直接和知识贡献的工作,批准发布。