文摘
计算机科学中扮演一个重要的角色在现代动态卫生系统。鉴于合作性质的诊断过程中,计算机技术提供重要的服务,医疗保健专业人士和组织,以及病人和他们的家属,研究人员和决策者。因此,任何创新,改进诊断过程,同时保持质量和安全卫生保健领域的发展是至关重要的。许多疾病可以在初始阶段初步诊断。在这项研究中,所有发达技术应用于肺结核(TB)。因此,我们提出一个优化的基于机器学习模型,从结核相关提取最佳纹理特征图像和选择的hyper-parameters分类器。提高准确率,减少特征提取的数量是我们的目标。换句话说,这是一个多任务优化问题。遗传算法(GA)用于选择最好的特性,然后送入支持向量机(SVM)分类器。使用ImageCLEF 2020数据集,我们使用该方法进行了实验,取得了更高的精度和更好的结果相比,最先进的作品。 The obtained experimental results highlight the efficiency of modified SVM classifier compared with other standard ones.
1。介绍
结核病是一种高度传染性的疾病主要影响肺(称为“肺结核”)。当它影响到其他器官,它被称为“肺外结核。“它迅速蔓延世界各地,目前被认为是对人类的最大威胁之一。2015年,世界卫生组织(世卫组织)估计,全球结核病造成超过180万人死亡(1,2]。这是一个临床状况通常由细菌引起的称为结核分枝杆菌(3]。鉴于它影响多个重要器官,它可以分为多系统传染病。结核病可以分为“潜伏”或“活跃。“在2018年,世卫组织估计,世界上25%的人口患有潜伏性结核病(4]。从这个组织,结核病可分为不同的类型,例如骨骼结核病传播从肺的骨头。这是罕见的。此外,粟粒状的结核病影响肺和骨髓,但可以扩散到身体的其他部位,如大脑或心脏。肝结核的被认为是罕见的结核病形式。它占不到1%的结核感染。所有这些类型后发生的一些临床症状,如咳嗽、发热、体重减轻、盗汗。因此,它可以危及生命的如果没有适当的治疗。因此,早期发现和诊断是最有效的预防方法。结核病诊断和自动分类技术已经使用近几十年来改善疾病识别的准确性,从而帮助心脏病专家做出更好的决策。 Early techniques mainly used machine learning methods for automatic heartbeat classification, but required steps such as feature selection, feature extraction, and TB classification.
机器学习(ML)是人工智能的一个分支,发展数学模型使用训练数据。其目的是给一个精确的诊断决策没有手动设定为特定任务。米切尔给老,但仍然有效,定义在[5]。毫升是研究者极大的兴趣是因为它能够回答一些基本的科学和技术问题,以及改善高度实用的计算机软件生产和使用在许多应用程序中(6- - - - - -10),如医学领域。
几项研究表明,图像处理技术已经应用于不同领域的研究,如安全性、工程科学、医学诊断(11),和电影。计算机算法用于图像处理增强、恢复、过滤、分类、压缩、段,或阈值,使研究人员能够得出结论基于的兴趣点(12,13]。医疗imaging-i.e。,the process of visually portraying the inside of the human body [14)可以被用于医疗和临床分析。不仅仅是一个基本的检测方法,但是也可以提供对各种疾病的诊断。
这项工作涉及医学成像研究领域,专注于结核病。多样化的图像已经开发使用医学影像技术,如磁共振成像(MRI)、计算机断层扫描(CT)扫描和x射线。这些技术为准确诊断成像测试是必要的,在选择理想的治疗方案很重要。他们可以集中分析和处理12]。这种技术被称为图像处理,是计算机科学的一个分支15]。它执行操作图像提取数据根据特定标准和一个秩序井然的一系列步骤(16]。代表技术,这个过程被分割,把给定图像分割为多个部分(组像素,也称为super-pixels)。分割通常用于在数字图像识别对象或其他相关信息。有许多不同的方法或算法图像分割(17]。
执行图像处理之后,下一步是医疗数据的分类。这个阶段是为了克服潜在的问题,开发与实现的目标有前景的结果在结核病的诊断18]。这是一个系统数字图像中的所有像素分类的根据他们的特点,分为多个组类。医学图像进行分类根据提取的特征。输入图像可以归类为“正常”或“异常”,和“良性”或“恶性的。“如果每个图像与一个独特的看到下面成了一个标签或多标记分类是单身。如果有两个类标签,分类是二进制;如果有两个以上的类标签,多级分类。多级分类处理大量的标签(19),允许每个图像标记为一个以上的标签。在这项研究中,我们使用多级分类。
特征提取和表示是图像处理的关键步骤,尤其是在建设的模式分类。它由提取特征最准确地反映图像的内容和分配标签。在图像分类、图像特征提取和编号,然后组织成类。提取的一些特性是无关紧要的,多余的,或相关,有时,背景噪音会导致效率降低和性能。选择最有意义的分类特性是一个至关重要的一步。有必要从数据集中删除无关紧要的功能,以保证更准确诊断在医学应用。分类模型的性能很大程度上取决于图像的数量特征,代表的输入数据集训练模型。然而,很少有研究这个问题。最相关的特征的提取和选择仍然是计算机视觉领域的一个挑战,尤其是在图像分类。很少有作品分类结核病再使用算法,径向基函数(RBF)网络,多层感知器(MLP)网络和内核回归区分细菌和non-bacilli [20.]。支持向量机(SVM)是最引人注目的技术之一21,22]。在这项研究中,它是与遗传算法结合使用来确定最小数量的特点和制作最好的这些特性之间的区别。
在这项研究中,我们提出一种改进的支持向量机基于自动结核病分类的优化算法。提高支持向量机分类器的性能,我们提出新的图像特征提取与选择技术,提高特征表示。特别是,我们分析的功效融合图像特征提取与选择技术。本研究的主要贡献如下:
——快速解决二次优化问题,特别是hyper-parameters的问题,我们发明了一种改进的支持向量机分类器,尝试分类数据集通过寻找最优参数(C和 )。
提高支持向量机分类器的性能,提出两种不同的techniques-feature选择获得最相关的特征提取和特征。在特征提取中,使用小波变换提取潜在的特点,提供最合适的规模代表纹理分类。小波函数提供了一个广泛的选择,而其他选项,如伽柏过滤器,不太适合由于他们缺乏正交性。特征选择技术的主要目的是选择输入变量使用断路器特性的一个子集,没有预测信息,构造一个分类模型。遗传算法用于识别尽可能最小的特征的集合,允许最好的检索功能之间的歧视。
——突出SVM分类器的性能,本研究提供了一个比较不同的机器学习算法基于准确率。
本研究的其余部分组织如下:部分2审查相关结核病检测技术工作;我们的材料和方法部分中描述3;最后,部分5提供了关闭的想法和讨论未来的工作,而部分4描述了我们的实验评估提高SVM分类器和压缩结果其他毫升技术。
2。背景
本节提供了一个简短的描述支持向量机(svm),然后讨论相关工作领域的分类和疾病诊断。
2.1。支持向量机
分类是一种列车的技术与给定输入一个合适的分类器进行分类。就我们的目的而言,鉴于我们的输入数据集没有增强,一个支持向量机分类器结核病(TB)是更好的选择分类。支持向量机是一种强大的监督分类器。它在1982年首次引入统计理论领域Vapnick [23];然后,其他的研究证明其有效性在各种应用程序中,如医疗诊断(24,25]。如今,使用支持向量机计算模型,提高其准确性,同时降低其复杂度,但也需要一种改进的支持向量机分类器。它的主要目标是在更高的维度构建最优分离超平面,称为决定飞机,如图1。随着超平面,SVM最初的训练数据转变成多维空间分类的目的。中间的线在图1表示最大利润超平面,它把两个类的最大距离最近的数据点(26]。
分离超平面可以是线性的或非线性的。
2.2。线性分离
在一个线性超平面将输入模式类型,提出的(2): 在哪里是一个可调权向量和b是偏差项。为每个训练例子 ,我们有以下:
如果y= 1,输入的例子是正常的。如果y= 1,输入的例子是不正常的。假设有两个超平面 和 ,最小的垂直距离超平面的数据点计算 ,最好的分离超平面是最大化利润。创建的最大边界超平面选择支持向量机提高分类的准确性和限制错误分类的数量。
2.3。非线性分离
线性支持向量机可以扩展到非线性分类器使用非线性算子确定输入模式x在一个更高维的空间h .非线性支持向量机分类器获得定义如下:它是可能的线性支持向量机转换成一个非线性分类器采用非线性算子确定输入模式x在一个更高维的空间H,如图1。以下是非线性支持向量机分类器的定义,得到:
转换后的数据显示线性,但原始数据 ,分类器是非线性的。确定函数的参数决定 ,它必须遵循最小化标准:
数据预处理后,遗传算法(GA)选择一个选择使用的空间灰度特性和提取它们依赖的方法(SGLDM)。
有几种常见的内核函数,给出:线性的 多项式的学位: 径向基函数(RBF)表示为:
2.4。相关的工作
在本节中,我们依靠纯医学参考,以更好地解释结核病,其位置,其传播的倾向,其严重性和其他数据。这有助于研究人员更准确地诊断和使用正确的科学和医学数据的研究。
2018年,克里斯汀et al。27)提供了一个多样化的系统分析,导致结核病的细菌菌株。它也是值得一提的5]中,作者不仅总结,结核病是多方面的疾病也有许多测试诊断。我们也在计算机科学中,是指研究使用不同的技术和算法来识别结核病。我们复习以下主要步骤全自动结核病检测系统:数字图像采集和预处理技术,图像分割方法和特征提取和分类。
2.5。数字图像采集和预处理技术
在文献中,几项研究已经提出了自动结核病检测,给当前的研究人员能够自动分析结核细菌的存在,并迅速从一个坚实的数据库(28]。自动结核病检测系统用于自动分析结核细菌的存在迅速使用不同的步骤。第一步是图像采集和预处理。因此,在进行图像采集之前,自动结核病检测系统的一个重要组成部分称为自动对焦(完成29日节省时间和提供更好的聚焦图像。已经提出了很多方法的自动对焦(30.,31日]。每个方法的性能取决于不同的因素,如图像特征,图像中的噪声和其他细节。
在处理之前获得的图像,图像的预处理步骤必须完成,以提高它们的质量。提出了几种预处理方法来提高图像的对比度和亮度。Susanto et al。32)发明了一种方法来确定肺部结核。他们的研究应用图像预处理方法,以便更快地识别。在[33),作者首先系统回顾发表在不同的模型提出了结核病治疗结果的预测。
当数据集不统一,缺乏良好的结构特性,第一图像处理的任务是获得均匀性在整个数据集,提高图像的质量。这种技术也旨在减少图像背景。勒(34)一个小窗口扫描肺区域用于结核病的分类。此外,图像处理技术,如图像增强、分割、特征提取已使用(35结核病诊断。
获得输入数据,Poornimadevi et al。36)采用x射线图像;2017年,安东尼和α(37添加过滤相同的输入数据库。其他作品使用计算机断层扫描(CT)扫描ImageCLEF,组织一个挑战2017年结核病患者基于CT图像分析(38]。
另一个经常被提及的技术是机器学习(ML),用于模型训练数据。作者在39]最近毫升模型评估预后估计结核的疗效。其他研究人员详细毫升机制,引用的调查40在他们的概念和应用的发展。作者在过去工作毫升定义为“统计和计算机科学之间的联盟部队”和“人工智能的基础。“在[41),作者提出一种脑肿瘤分类特征选择模型。在这项研究中,我们提出一个模型在两个方面,第一个肺结核分类特征选择的字段和hyper-parameter选择的第二个。我们的目标是找到最优支持向量机(C, )参数来改善我们的分类器。
研究毫升逻辑回归等技术(LR)和线性判别分析(LDA),我们指的是(42)确定原因、危险因素和有效的治疗方法。
2.6。图像分割方法
图像分割是一种最重要的轴在医学图像分析。它的目标是区分哪些对象造成组织内的特定疾病。许多TB-specific研究提出等分割算法的阈值方法,包括k - means聚类(公里)、神经网络方法和贝叶斯分类(45,46]。几个工作提出了著名的阈值算法来段显微图像,以及其他metaheuristic算法,如公里,模糊c均值(FCM),快速行进(FM)阈值和萤火虫算法(FA),开发解决上下两层的显微图像的阈值问题。
其他的研究使用神经网络(NN)的方法检测结核杆菌。Priya和Srinivasan47)数字结核病图像用于映像级别和对象级分类基于多层感知器(MLP)神经网络。结核病检测也被使用基于深度学习实现过程(48]。黄等。49)开发了一种修改AlexNet学习和使用转移。
2.7。特征提取方法
分割后,一些杂质和多余的数据可能留在图像,需要特征提取。特征提取是图像特征值的减少分类过程中获得更好的结果和更高的速度。因此,特征提取过程中扮演一个重要的角色在一个好的分类模型的设计。
基于傅里叶变换技术(英尺)12)和小波变换(WT) [14,15在这方面)已经开发出来。WT进行时频分析,而英国《金融时报》仅仅检查频率。这使其成为一个有用的模式检测和time-space-frequency分析的工具。
2.8。分类方法
小工件和不受欢迎的地区仍在分割后的图像甚至已经执行。不同的分类方法,如贝叶斯分类器,支持向量机(SVM),概率神经网络(并),和资讯分类器,用于从这些片段中提取真正的杆菌。(提供的技术50,51)使用传统classifiers-namely贝叶斯神经网络、随机森林(RF)似乎classifiers-which低效分类重叠的杆菌。Hooda et al。52)提出了三种标准架构(AlexNet、GoogleNet ResNet)为结核病分类创建一个自定义的数据集。Chithra和Jagatheeswari53)吸引了不同分类器之间的比较来验证他们的分数乌鸦搜索支持向量神经网络是高度准确,比其他人表现的更好。
另一方面,我们不能否认,一些研究导致不良标签分类方法结核病。用这些方法,不能提供准确的位置或轮廓边界系统,但添加一个图像标签来识别给定的胸部x光片(CXR)作为“正常”或“异常。“这些作品所示(54,55]。
其他策略旨在检测多个结核表现使用监督方法,与Jaeger et al。56结核病),描述了技术分类根据不同的形状和纹理描述符。
支持向量机是另一个重要的分类器,可以用来检测和计算结核细菌的数量。描述的是(57)作为一种先进的模式识别分类器在实际的应用程序。当前结核病文学包括对比这个分类器有古典的评论,其中每个比较是基于一些特定的标准,如每一个分类器的结果。
在[21),支持向量机与卷积神经网络(CNN)模型。实验结果表明,最佳的整体精度为98.84%,得到一个SVM-radial基函数(RBF)网络模型。
作者在58结核病)提出了一个自动检测系统,该系统是基于高斯模糊神经网络(GFNN)分类器。GFNN分类器结合了模糊分类器和神经与高斯混合模型。它将图像的部分分为几个杆菌,non-bacilli,重叠的杆菌。提出了GFNN模型取得了更好的整体性能与各种经典模型相比,如支持向量机、贝叶斯正则化,决策树和模糊hyperbolic-based Levenberg马夸特。
作者在59)提出了一种混合分类器,结合决策树和深层信念网络的高斯模型infection-level识别在结核病的诊断。分类器实现两级分类技术。在一级分类,图像分为3类,比如一些细菌,non-bacilli,重叠的杆菌。另一方面,二级分类发现细菌的数量计数细菌和测量密度比率确定感染水平。通过比较分析,提出了高斯模型取得了更好的整体性能与现有的传统模型相比,如支持向量机、贝叶斯正则化,模糊决策树hyperbolic-based, GFNN Levenberg马夸特。
结核病筛查的一个主要挑战是发展的一个分类算法保证更高的精度,与一个强大的性能和灵敏度比例支持医生做出正确的诊断。
3所示。材料和方法
在本节中,我们将介绍我们使用的材料,然后我们跟着描述方法来实现自动结核病(TB)分类。
3.1。数据集
医疗数据采集一般是基于数据量、注释、准确性和可重用性。每个医学图像可以定义数据元素,元数据和标识符。在这项工作中,数据提供的3 d计算机断层扫描(CT)扫描压缩神经影像信息学技术创新(NIfTI)文件的扩展”。nii ImageCLEF运动”(https://www.imageclef.org/2020/medical/tuberculosis)。文件解压后,可以提炼出三套片,对应的三维空间三维图像XYZ (512 x 512像素)。然而,一些实验表明,Y的片比维度产生更好的结果X和Z维度;事实上,结核病识别不需要每一片。因此,我们只需要让那些潜在的信息。在选择Y维度,我们使用的数据集,包含264张图片。这不是一个大型数据库,但是我们选择了为了一个完全自动化的方法。在图2,我们给一个例子,一个样品图片和不同类型的结核病相关结果。
4所示。方法
整个系统必须遵循在医学图像处理。它包含许多功能和其他迭代方法来执行优化算法。我们建议的方法对结核病检测如图3。输入是人类肺癌的CT扫描图像。这张照片然后预处理可以改善质量,并输出给特征提取,生成分类器的输入。
该系统包括四个主要阶段:(1)输入数据预处理(2)特征提取(3)特征选择(4)SVM hyper-parameter选择。
每个步骤在本节的其余部分将详细。
4.1。预处理:使用小波变换特征提取
有几个多分辨率的特征提取方法,主要是傅里叶变换(FT)和小波变换(WT)。我们曾与WT,这是一个通用的数学工具来分析复杂的数据集和信号处理。WT的功能包括时间尺度信号分析、信号分解,信号压缩。英国《金融时报》法的主要缺点是,它提供了相同的频率分辨率的窗口函数的持续时间。此外,它不捕获的事影响的非平稳信号的频率,而WT函数通过提供一个层次结构的尺度,从粗尺度在平稳或非平稳的信号,分别。因此,特征提取WT被认为是最合适的工具由于其能力显示一幅在不同的各种决议。WT通常是由母小波,它是使用最广泛的频域分析和实例计算。
对于特征提取,我们使用空间灰度相关法(SGLDM)由Haralick [60]。通过这种统计方法,灰色的地理分布的水平是由计算二阶条件概率密度估计(我,j,d)。一个元素在SGLD矩阵(i, j)表示两个细胞的可能性与不同的决议,面向离水平线,我和灰度值j,分别。
在图4WT图像分解连续使用高通和低通滤波器。
22特性中描述表1被WT由于其多分辨率提取能力。
4.2。通过遗传算法特征选择
那些描绘成实际数字特征在高维空间并不总是存在的意义或重要。其中一些是无关紧要的,多余的,相关,和偶尔的吵闹,让学习更容易overfit模型,复杂,很难理解。由于这些特点,数据挖掘应用程序效率低下,表现不佳(如分类)。降低数据维数,减少计算复杂度都需要选择健壮的特性与未标记的数据来解决这些困难。
特征选择的目标是选择最重要的一个最初的功能,以避免过度拟合。为了完成这项任务,我们使用一种新技术基于遗传算法(GA)进行无监督特征选择。
天然气是随机搜索技术,基于自然遗传学,它提供强大的搜索功能复杂的空间。遗传算法是一种迭代过程,解决了一个优化问题44]。每个解决方案获得通过的编码/解码机制,这就需要我们来表示解决方案作为一个染色体。这是重复的相反。表明缺乏或功能的存在,它是由零个或一个位置我。气体从一个随机生成的人口开始染色体。适应度函数测量解决方案的质量和有效性。所以,适应度函数(1)将染色体作为输入和输出它的健身价值。下一阶段是选择适当的个人未来的父母。个人可以用来创建新的种群通过交叉和变异等生殖运营商。 在哪里代表准确重量,代表特性重量,代表了特征选择的数量。
CT扫描对结核病可以受益于应用气体保证最好的特性集选择进行分析。之间的竞争特性变换矩阵。为每个矩阵在这个人口转变模式计算输入模式乘以矩阵获得的集合选择特性,如图5。这些特性是然后给一个分类器。
GA系统旨在发现米最优特性的n提取特征来提高分类器的性能。最后,GA的主要目的是减少修改模式的维度,同时提高分类精度。
4.3。支持向量机参数选择
大量的内核函数用于援助支持向量机(SVM)在追求最好的解决方案。多项式、乙状结肠和径向基函数(RBF)内核经常使用。与线性核函数,RBF是最常用的核函数,因为它可以有效的多维分类数据。为了得到最好的结果,我们使用一个RBF核函数的支持向量机。C和 ,两个最重要的RBF参数与支持向量机使用,必须进行相应的调整。在上面的示例中,参数C代表惩罚的成本。因为该参数的值影响分区结果在特征空间中,该参数的值有一个大大大对分类结果的影响比其他参数的值。
最好的分类准确率可能决定通过选择合适的值上限和下限(搜索区间),以及跳间隔,在搜索过程中。除了参数C和 ,额外的变量,如数据集的质量特性,可能影响分类准确率,如假阳性的数量。这样的例子包括特征之间的相关性,对分类结果产生影响。
有必要调整C和当使用RBF内核。它已经建立的两个参数选择不当,可能导致,或underfitting模型。建议旨在优化C和遗传技术支持向量机。本研究采用RBF核函数的支持向量机分类器来完成我们的显示技术。分类精度和特征选择的数量是用来建立一个适应度函数。
拟议中的GA-SVM方法是更详细地描述如下:
步骤1。一个二进制字符串表示的参数创建和染色体反映了支持向量机参数。
步骤2。染色体的初始种群是随机生成的,然后,初始化种群。
步骤3。选择的参数(C )所在地。
步骤4。最优支持向量机训练,您将需要通过它与新参数运行您的数据。该模型预测的测试集。
第5步。健康评估。计算k-fold交叉验证的准确性,最优染色体和最佳的一对(C, )进入一个支持向量机分类器对每个染色体。
步骤6。代N的最大数量必须达到在比赛结束之前,或者之前的健身价值米必须低于一代一代。没有进一步的迭代是可能的如果两个条件满足。
5。结果与讨论
所有提出的技术上实现计算机断层扫描(CT)扫描结核病(TB)的病人。输入数据集分为训练集和测试集。收集的数据集后,使用的空间灰度特征提取应用方法(SGLDM)技术的依赖。在本节中,通过实验研究结果提出了两个部分:(1)获得的结果使用hyper-parameter选择和使用特征选择(2)获得的结果。
Python是用于开发模型,测试使用RTX 2060图形卡和16 GB的RAM。
5.1。数据集和评价指标
我们使用了ImageCLEF 2020 (https://www.imageclef.org/2020/medical/tuberculosis)的数据集,这是免费在互联网上,增强评估我们的机器学习模型。在这项研究中,我们使用多标记分类。三个标签被分配到每个肺:“肺受到影响,”“胸膜炎,”和“洞穴的存在。”“左肺的影响”和“对肺的影响”标签标记的存在任何形式的结核病(TB)相关损伤左、右肺,分别。表2和3病人的分布在每一个细节标签。
在这项研究中,我们最感兴趣的准确性,这是一个评价指标的整体功效分类器。精度指标措施的概率正确诊断测试(即执行。,正确的比例分类图片)。它可以使用以下公式计算: 在TP表明,模型准确预测积极类。FP表明模型错误预测的积极类。FN表明该模型不正确预测负类。TN表明,该模型准确预测负类。所有这些值在表中定义4。
使用本研究中描述的模型,我们进行了一系列的实验。比较各种机器学习方法的结果也是我们研究的一部分,我们使用Sklearn (https://scikit-learn.org/stable/)作为Python包。scikit-learn(也称为Sklearn)是最可用的和稳定的机器学习工具包用于Python。这个包包含了一系列有效的机器学习和统计建模的工具,如分类和回归,聚类和降维,可通过一个一致的接口在Python编程语言。
5.2。SVM Hyper-Parameter选择
提高支持向量机(SVM)的性能,关键是先决定应该使用哪个参数。为此,我们使用了一个自适应遗传算法(GA)来发现理想的参数。GA的主要目的是为了从大量的替代选择最优参数值,以确保最大程度的精度在整个训练和测试阶段。介绍了遗传算法的参数表5。
根据核函数的讨论的部分3径向基函数(RBF)内核是最有用的定义常量的最佳值和注意,核函数的宽度和C是错误/权衡参数,调整误差分离的意义创造的表面分离。这项工作中提出的方法评估是基于其准确性。表6显示了分类精度的变化分数,从0.64到0.97不等。所有值评估使用验证数据集。
在这里,我们提出一些的建议选择的参数变化带来的GA显示每个类的准确率的极限。我们注意到支持向量机分类器获得的平均精度达到最大值,比单独的参数选择的遗传算法。正如在前一节中提到的,支持向量机分类器被批准在这项研究中由于温和的数据集的大小。
5.3。比较SVM和著名的机器学习模型
在本节中,我们比较性能算法基于准确率。分类如下:
——“资讯”,k近邻分类器(61年]。
——“购物车”,决策树分类器(62年]。
——“NB,”高斯NB (63年]。
——“LDA,“线性判别分析(64年]。
——“射频”,随机森林分类器(65年]。
在表7,我们比较我们与监督机器学习的支持向量机分类器分类资讯,购物车,NB, LDA和射频。实验结果表明,我们的支持向量机分类器是比另一个更准确的分类算法,而资讯和LDA表现好于购物车和NB。
5.4。特征选择
表8给的范围选择的特性,以及在每个获得的准确性分数范围。使用选择方法,基于遗传算法所选择的最优特征,然后作为支持向量机分类器的输入。获得了最高的精度范围(3:12)。通过筛选的范围选择特性,我们的数量最小化提取功能,从而加速训练的过程。
正如在前一节中提到的,支持向量机分类器被批准在这项研究中由于温和的数据集的大小。我们的修改后的SVM分类器,根据最优参数和基于特征选择方法,大力提高分类精度。最优特征作为输入分类器选择使用GA。实验结果表明,遗传算法能够减少维数的转换模式,最大限度地提高分类精度。很明显,我们的支持向量机分类器取得了令人满意的结果,达到较高的分类准确率。我们可以因此注意SVM分类器尝试分类数据集通过寻找一个最优超平面,从而解决了一个二次优化问题。总之,我们的最优支持向量机模型明显优于其他模型分类结核病。最优参数的组合和基于特征选择方法改进的遗传算法在提取健壮和重大的性能特性。一般来说,机器学习算法的性能严重依赖于应用的特性集。
6。结论
在这项研究中,我们处理结核病(TB)疾病分类的问题。我们的主要结论如下:本研究讨论的方法突出了几个技术用于医学图像处理领域。使用小波变换结合的空间灰度依赖方法从数据集中提取特性。这些被选择使用一个优化遗传算法(GA)和被用作输入支持向量机(SVM)分类器。提高支持向量机分类器的性能,我们使用两个新技术基于GA。对于第一种方法,我们使用一种自适应遗传算法来确定最优参数的范围值,以保证尽可能高的精度在训练和测试阶段。第二个方法是用于选择一小部分(即原始特性。,the most one’s features) to avoid overfitting and reduce the dimensional of the data. Finally, our experimental results show that our modified SVM classifier was more accurate than other classification algorithms in classifying TB. This study proves that the quality of extracted features has a direct impact on the effectiveness of image classification. Additionally, the proposed classification model can help doctors automatically diagnose TB because it possesses all of the qualities described in this study: accurate, robust, and easy to control. In future works, several improvements can be made. In particular, we are planning to address hybrid deep learning-based TB detection for improving the obtained results.
数据可用性
肺结核“结核病2020”数据集用于支持本研究的发现ImageCLEF运动许可下提供的,所以不能免费提供。请求应该访问这些数据https://www.imageclef.org/2020/medical/tuberculosis/;所有必要的信息数据库和访问授权以下链接中提到:https://www.imageclef.org/2020/medical/tuberculosis/。机器学习的必要的代码模型中提到以下链接:https://scikit-learn.org/stable/
信息披露
资助者没有作用的设计研究;在收集、分析或解释数据;写的手稿;或决定发布结果。
的利益冲突
作者宣称没有利益冲突。
确认
作者扩展他们的感谢院长以来Jouf大学科学研究的资助这项工作通过研究批准号域- 2021 - 02 - 0109和公主Nourah少女阿大学研究人员支持项目数量(PNURSP2022R192),公主Nourah少女阿大学,利雅得,沙特阿拉伯。