文摘

在本文中,我们提出了一种新颖的方法基于统计特性和不同的机器学习算法。该模型可分为三个主要阶段,即预处理、特征提取和分类。在预处理阶段,中值滤波器被使用为了消除噪音,因为花白MRI图像通常受到这种类型的噪声影响,灰度图像在这个阶段也转换为RGB图像。在直方图均衡化预处理阶段,也被用于提高每个RGB通道的质量。在特征提取阶段,这三个渠道,即红、绿、蓝,从RGB图像提取和统计的措施,即是说,方差,偏态、峰态,熵、能量、对比度、同质性、相关性,计算每个通道;因此,共有27个特性,9为每个通道,就是从RGB图像中提取出来的。在特征提取阶段,不同的机器学习算法,如人工神经网络、 - - - - - -最近的邻居的算法、决策树和朴素贝叶斯分类器,已经应用在分类阶段提取的特征在特征提取阶段。我们记录结果与所有这些算法,发现决策树结果更好地比其他分类算法应用于这些特性。因此,我们已经考虑了决策树进行进一步处理。我们也将该方法的结果与一些著名的算法的简单性和准确性;它指出,该方法比现有的方法。

1。介绍

人类的大脑是科学的神秘未解之谜之一。其复杂性有困惑和困扰科学家们直到今天。它包含在 与同等数量的nonneuronal细胞数十亿神经元。布莱恩控制和协调我们的身体运动,homeostasis-body温度、心率、血压、和液体平衡。它负责我们的情感,战斗或逃跑情绪、记忆、认知、运动学习,和学习,记忆,和沟通过程(1]。大脑的神经细胞网络发展,建立新的突触,不断和死亡,但是神经细胞的异常和不受控制的增长会导致肿瘤的形成。脑部肿瘤也可引起的异常活动等其他身体部位的肺部,乳房,和皮肤2]。脑瘤是世界上最致命的癌症相关的死亡原因。根据最近的报告,由中央脑瘤注册的美国,有81246人死于原发性恶性大脑和其他中枢神经系统(CNS)肿瘤的时期2013 - 2017。平均每年有16249人死亡,和一个主要的诊断后存活率恶性大脑和其他中枢神经系统为36%,40 +最低年龄组(90.2%),而在年龄0 - 14年,存活率分别为97.3% (3]。

正常和异常的大脑图像分类从MRI是第一步解决惊人的死亡引起的脑部肿瘤。然而,大量的数据从MRI使他们的手工分类繁琐,容易出错,且耗时,并且需要一个专家。观察者面临着很大的困难分析和解读图像和检测肿瘤(4]。因此,有必要制定和实施自动图像分析系统。应该快和准确的推断MRI图像,它应该很容易使用。在这个领域的研究已经完成和在文学;我们有各种各样的自动和精确的医学诊断技术介绍了通过应用复杂信号/图像处理方法,利用机器学习算法的计算智能技术。核磁共振图像处理方法分为两种类型。一个是监督分类,利用算法和人工神经网络(ANN)一样, - - - - - -最近邻(资讯)和支持向量机(SVM)。另一种是无监督分类方法的自组织映射(SOM)和模糊 - - - - - -意味着被录用。监督分类提供了更精确的结果相比,非监督分类方法(5]。这些技术帮助医生诊断那些将要动手术期间和手术后的程序(4]。

核磁共振图像中的信息可以使用监督或无监督算法进行了分析和处理,可以分类为正常或异常类。但分类的准确性取决于我们如何从图像中提取的特性和相关特性来确定障碍。一些广泛使用的方法包括傅里叶transform-based技术,独立分量分析(ICA),小波transform-based技术(6,7)和统计特征提取方法,像峰度偏态,四分位数,模式,中位数,意思是,和标准偏差(8]。提取有意义的特性是很重要的,但它也提高了分类器的计算负担,所以平衡的缺点,最好的选择就是选择一个特征提取方法,可以确定最相关的特征,尽可能少的完整的肿瘤的解剖特点因此,减少不必要的特征提取的额外计算的并发症。保持视图下的约束,一个合适的方法是小波变换,这是一个nonstatistical方法。它提供了本地频率信息和详细的各级图像的系数。采用主成分分析(PCA)和小波变换降低维度和克服了计算复杂性(9]。此外,小波变换可以获得良好的空间频率信息的非平稳图像;也适合计算机分析分析可以被监视和控制通过改变选择的小波序列(5]。在我们的工作中,我们应用方法的图像处理,特征提取,特征减少,最后大脑肿瘤的分类。

更有用,特征提取,类似的,具有挑战性的任务。几项研究已经使用不同的特征提取方法。例如,伽柏特性,离散小波变换,光谱混合分析,纹理特征、主成分分析、最小噪声比例变换。通过降维,我们只能有我们关注一些关键特性。广泛实现算法功能降低是独立分量分析,主成分分析,线性判别分析,遗传算法(4]。

在特征提取阶段,分类的图像。在图像分类stage-classification正常/异常或肿瘤/ not肿瘤类。纯化选定图像特征的分类器需要训练和测试。各种classifiers-each有优点和同伙已经被用作上面所讨论的 - - - - - -最近邻(资讯),支持向量机(SVM),人工神经网络(ANN),隐马尔科夫模型(HMM)和概率神经网络(并)。的常见应用这些算法可以在手写数字识别、文本分类、识别,物体检测和识别,和说话人识别用于医疗目的(4]。分类有两个parts-training和测试。首先,培训,已经标记和已知数据的算法。算法得到训练这些数据并构建模型来预测/未知的数据进行分类。其次,测试数据的未知数据的分类器算法训练后已经完成。这部分后,算法的性能评估。错误分类或分类器的精度依赖于有效的培训。通常,更多的培训数据帮助分类器得到调整和构建一个更可行的或一般的模型。分析人类大脑的图像手动先生是缓慢的,昂贵的,labor-intense,且容易出错,我们提出准确、自动分析、和健壮的人类大脑的图像先生的分类。

许多研究人员提出了不同类型的脑磁共振方法分类。一项由Chaplot et al。6)比较了自组织映射和支持向量机的分类,脑瘤在正常和异常的图像。使用小波作为输入SOM神经网络和支持向量机,他们得出的结论是,支持向量机有更好的分类率(98%)高于SOM (94%)。特征提取是利用二维离散小波变换和Daubechies过滤器用于分解。Maitra和Chatterjee10)使用一个独特的和正交离散小波变换的改进版本功能extraction-the Slantlet变换;这个变换给出了一个改进的时间不稳定核磁共振图像的局部空间信息。应用一种改进的特征提取方法提供了一个更好的特征向量用于反向传播神经网络的二元分类器的训练他们用这个分类正常老年痴呆症患者的大脑图像和图像100%的准确率。El-Dahshan et al。11]介绍了混合动力技术和三个stages-feature提取、降维,分类核磁共振脑肿瘤图像进行分类。离散小波变换(DWT)是用于特征提取阶段;主成分分析(PCA)是用于降维阶段关注更多的MRI图像的基本特征。然后,两个分类器,即前馈反向传播人工神经网络(FA-ANN)和资讯,申请主体MRI图像的分类成正常和异常图像。结果FA-ANN 97%准确,而资讯,计算精度为98%。此外,Zhang et al。12)也提出了一个三级分类的大脑图像。张等人跟着El-Dahshan一样的方法,但他们使用了共轭梯度(SCG)反向传播神经网络的最优权重。训练和测试图像的精度是100%(66张照片),而每个图像的计算时间只有0.0451秒。类似的方法是采用带等。13预处理阶段,特征提取阶段,最后分类阶段。使用中值滤波,从磁共振成像灰度图像被噪声和转换为RGB彩色图像预处理阶段。在特征提取阶段,红色,绿色和蓝色通道从RGB图像提取;对于每一个频道,均值、方差和偏斜度也计算。然后,使用资讯,最后进行了分类。98%的训练,95%的精度测试数据得到正常的图像,而100%的训练,90%测试精度异常图像。

由不同的作者对分类提出了不同的方法在不同的领域,比如Alotaibi et al。14)提出了一个基于卷积神经网络(CNN)的混合方法和长期短期记忆(LSTM)递归神经网络分类的文本为精神病患者或nonpsychopath类。结果表明,该方法提供了良好的结果。同样,另一种方法提出了侯赛因et al。15]对抑郁症分类在社交媒体使用深度学习方法。

本文基于机器学习算法的新方法和统计特性提出了。本文的主要目的有两个,第一,以减少计算时间和第二次增加脑部MRI分类的准确性。本文的主要贡献如下:(我)灰度图像转换为RGB图像,红、绿、蓝通道然后从RGB图像。直方图均衡化是应用于每个通道的RGB图像以提高这些渠道的质量(2)提出了一种新颖的方法来提取统计特性,即是说,方差,偏态、峰态,熵、能量、对比度、同质性、和关联的红、绿、蓝通道RGB图像和连接到饲料的机器学习算法分类大脑核磁共振图像为正常和异常(3)在该方法中,我们应用不同的分类算法,如 - - - - - -最近邻决策树,随机森林,朴素贝叶斯选择精度最高的一种算法提取的特征

剩下的纸的结构组织如下:在部分2,该方法是详细解释了;部分3是关于实现,结果和讨论。给出的结论是在最后阶段。

2。提出的方法

在这项工作中,我们提出了一个新颖的大脑核磁共振方法分类。该模型包括四个阶段,即预处理、特征提取、分类、和性能评价。该模型的概念模型是描绘在图1

提议的方法的详细示意图如图2。在该模型的预处理阶段,中值滤波器已被用于去除噪声从MRI图像花白。通常,MRI图像受噪声和花白中值滤波器是最常见的滤波器用于消除这种类型的噪声从核磁共振图像13,16]。

在预处理阶段,大脑原始灰度图像转换为RGB图像,和红、绿、蓝通道从RGB图像中提取。下一个操作是部署在直方图均衡化的图像预处理模块。直方图均衡化是应用于每个通道的RGB图像来提高这些图像的质量,让他们能够被用于进一步的处理。下特征提取模块提出了模型的统计特性计算了红、绿、蓝通道的目的处理维度的诅咒。

这些特性存储和合并在一个文件中并标记训练机器学习算法。在分类模块中,我们应用不同的机器学习算法,如人工神经网络、 - - - - - -最近邻算法,朴素贝叶斯分类器,随机森林,和决策树分类器的分类,提取的特征作为输入这些分类器。在分类模块中,我们使用比例分割方法将数据分为训练和测试。在绩效评估模块首先,我们有分类算法通过使用不同的指标,如旋进,回忆,和 - - - - - -得分。

2.1。预处理

提出的方法论有三个阶段组成:预处理、特征提取、分类和性能评价如图2。每个阶段由几个步骤,预处理包括噪声去除、灰度RGB转换和直方图均衡化。

在预处理阶段,140个样本的图像从一个数据集是首次发布的噪声去除。不同类型的噪声存在于不同的图像形式,如噪音、抹墙粉高斯噪声和椒盐般的噪音。去除这些噪音图像,使用不同类型的过滤器,如维纳滤波、均值滤波和中值滤波。MRI图像通常受到噪音,花白,最有效和常用的滤波器为这种类型的噪音是中值滤波器(16,17]。

中值滤波可以没有令人不安的边缘锐化图像。在拟议的工作中,我们使用了窗口大小的值 去除噪声花白的图像和平滑的图像。因此,为进一步处理灰度图像转换为RGB,如图3。转换的必要性的灰度图像为彩色图像的像素的详细表示。将灰度图像转换为RGB,之后可以代表红色,蓝色,和绿色通道。这让我们从不同的观点中提取特征,然后看到一个更详细的分析大脑的异常。图4演示了一个简单的RGB图像转换成三个频道(红、绿、蓝)。

在拟议的工作中,我们还用直方图均衡化,这是最后一步在预处理阶段,它被用作技术调整图像对比度增强的强度(18]。在这项工作中,我们利用直方图均衡化增强质量的红、绿、蓝通道RGG的形象。直方图均衡化的理论背景详细给出。假设有一个整数像素矩阵的范围从0到 , 是一个图像表示成一个 通过 矩阵。在这种情况下, 是价值/强度的所有可能值的数量(通常, = 256)。和 的归一化直方图来标示 在方程(定义1为每个强度),特定本。所以, ,这是一个平衡的直方图的图像,定义为在方程(2)。

这里,地板()函数用于四舍五入到最近的整数值。这是改变像素强度相同 , 函数中定义方程(3)。一个给定的转换从一个想法出现的强度 为连续随机变量的函数 范围从0到 ,在哪里 被定义为在方程(4)。 在哪里 概率密度函数(PDF)和吗 累积分布函数。我们还假设这里 是可微的,是一个可逆的函数。因此, ,这是定义为 在这种背景下,分布均匀,即 这些定义在方程(5)和方程(6)。

2.2。特征提取

一个原始图像( )有过多的像素,如果这些数字的特点是直接喂给机器学习算法,然后计算在多项式时间内是不可能的。在特征提取阶段,获得的特性在拟议的工作中,我们有一些信息特征提取每个通道的RGB图像。前四个统计时刻,即是说,方差,偏态、峰态,和同现矩阵特性,即熵、能量、逆差异,和相关性,计算获得的近似图像的特征提取阶段(19]。在方程(7)- (10),意思是,方差、偏斜度和峰度为代表,分别。的意思是用来描述图像的明亮的意思和黑暗。方差是用来描述图像的对比。偏态是对称的度量,峰度是用来测量峰值和平整度相对于正态分布。 在哪里 代表了总在一个图像的像素数量;一个图像像素值的均值为代表 能量的计算、相关、熵、对比度,和同质性已经完成在方程(11)- (15),分别。 Eng, Corr Ent、体积和Homog代表能量相关,熵,对比,分别和同质性。

在拟议的工作中,我们有9个特性计算,即是说,方差,偏态、峰态,熵,相关性,熵,能源,对比,和能源为红色,绿色和蓝色通道,分别在特征提取阶段。特征提取阶段的图示见图5。我们有这些特性相结合在一个文件中,被美联储分类器分类大脑核磁共振图像为正常或异常。

在分类阶段,两种情况考虑:比例分割方法被用于整个数据分为两个数据集,即训练和测试,可视化图6

2.3。分类

人工神经网络性能更好比对应算法对于复杂数据(4,19,20.]。下面给出了简要的解释。产品重量的总和和神经元的价值观和偏见是使用以下方程: 在哪里 表示数量的输入,输入变量提出了 , 代表偏差, 表明权重。一组激活功能是可用的,我们可以适用于隐层神经元。

乙状结肠、切双曲乙状结肠和ReLU激活函数是捐赠在方程(17),(18)和(19相应的)。

均值,方差,偏态、峰态熵,相关性,计算能量,对比,和同质性特征在特征提取阶段为每个通道的RGB图像,结合人工神经网络。通过应用一个激活 函数 ,神经元的输出部分可以得到以下方程:

的结构图,提出了人工神经网络用于拟议的模型图7

第二个算法,我们提出工作中使用脑MRI基于特征提取分类特征提取阶段决策树分类器。决策树分类器被认为是其中一个最普遍的方法挖掘数据用于分类的目的。它是基于类的品种发展预测模型。该算法用于分类数据集到子树构成全球倒树(包括根、内部和叶节点)。巨大和复杂的数据集的算法是有效的。数据集是相当大的,训练数据分为验证状态(21]。决策树是说明图形作为一个等级图表示。这个图表包含分支和一个起始节点(根节点)22]。分支(条件)是已知一组相互关联的节点和继承的一些性质,导致最终决定(分类类)(22]。构建基于条件分支,使用各种分裂的标准。最常用的是获得比和基尼系数(23]。时获得率,降低每个节点的不规则性导致了树高减少目标的算法。不规则的定义是在以下方程:

在这里, 是一个部分的数据属于 类。这种方式,最大增益率的功能是定义为一个树根(见以下方程)。

在这里, 被称为不规则的类时使用了一个特定的功能。它是计算在以下方程:

基尼系数基本上是定义为分裂测量和计算如以下方程:

在这里, 代表的相对频率情况下属于 类。然后,计算信息增益在以下方程:

然后选择分裂特征最大化基尼指数。

第三个算法,我们提出工作中使用脑MRI分类基于特征提取的特征提取是随机森林(RF)。随机森林分类意味着决策树(DT)算法作为其基础。在随机森林的例子中,我们假设系统已经熟悉单树分类器,由大量的他们。因此,检查输入值所属的地方,它应该经过的每一个单一的树木制成的递延税资产。处理完成后,每个树给出了输出,科学家称之为“选票”,和类的选票最多,显示结果。强制性规则而构建的每个树(24)如下:(我)如果训练集的特征的数量 ,每棵树必须有一个小数量的特性选择随机集。收集的子集构造树的更换主要特征(2)在树木生长,重要的是不要过重的树的深度得出准确的结果(3)最大的程度上应该达到每棵树;没有修剪

在射频,树木之间的相关性定义了出错率,这意味着增加功能树生长出错率之间的相关性。因此,为了避免它,一个单独的树应该是一个强分类器和强度应该有其特性。该算法不需要任何交叉验证或任何分离测试来估计如果结果是偏见或公正的25]。

第四算法,我们提出工作中使用脑MRI分类基于特征提取的特征提取是朴素贝叶斯分类器。基于强烈的品种的独立性假设的贝叶斯定理,朴素贝叶斯算法的分类的目的。该算法假设变量是相互独立的,高斯分布的数值预测的平均值和标准偏差计算训练数据集。给定的算法通常用作决策树的另一种选择,虽然相比,它跳过任何数据集的实例使用null (N / A)值(26]。

已知的概率,朴素贝叶斯概率分类器。换句话说,数据集 ,所有类 ,的类 在上述数据集的最大后验概率(ĉ的估计是正确的类)(见以下方程)。

贝叶斯分类的主要思想是改变方程(26)其他可能性。 可能转化为以下方程:

如果我们降低分母 ,方程(28)可能很容易简化。自 计算每一个可能的类,这个公式可以简化方便。然而, 为每一个类没有改变;我们专注于最可能为同一类 必须存在一个相同的 概率(39、40)。因此,类最大化方程(29日)可以选择:

第四算法,我们提出工作中使用脑MRI分类基于特征提取的特征提取是资讯分类器。

- - - - - -最近邻(资讯)是一个广泛的机器学习算法用于分类的目的。它通常用于模式识别,数据样本是基于类的最近邻分类;他们可能属于(27,28]。 - - - - - -最近邻(资讯)是一个简单的算法,存储所有病例和分类基于相似性度量资讯算法也叫新病例(1)案例推理,(2) - - - - - -最近邻、(3)基于实例推理(4)基于实例的学习,(5)基于内存的推理,和(6)懒惰学习(29日]。

对于性能测试,我们使用不同的性能评估者如旋进,回忆,和 - - - - - -分数(13,19)来衡量该方法的性能。

3所示。实现、结果和比较分析

3.1。实现设置

在本节中,我们已经简要地讨论了实现细节。整个实现的工作完成在Python安装在英特尔(R) (TM)核心i7 - 7500 u NVIDIA GeForce 940 mx GPU, 15 GB的DDR2内存。在拟议的工作,一些图书馆的Python像NumPy Keras, SciPy, Sklearn用于建模和分类的目的。

在这项研究中,我们已经考虑了t2加权磁共振成像 从哈佛大学医学网站拍摄的图像大小30.]。从每个疾病样本图像如图8,正常的大脑核磁共振。

在拟议的工作中,我们应用不同的算法,如人工神经网络、决策树、朴素贝叶斯、资讯和应用于收集的数据在特征提取阶段。每个算法的性能评价结果给出详细的混淆矩阵,精确,回忆, - - - - - -得分。

3.2。结果

实现神经网络的结构图如图展出9和相应的规格表中列出1。通过安的混淆矩阵分类结果见图10。42的混乱表明,异常图片,安精度分类29图像和不准确分类2图像。同样,42正常图像,安8图像正确分类。精度、召回和 - - - - - -分数计算为安分类结果和表中列出2。同样,您可以看到可视化性能评价图11

通过随机森林分类混淆矩阵的结果如图12。42的混乱表明,异常图片,24图像和随机森林分类精度不准确分类2图像。同样,42岁的正常图像,随机森林分类9正确图片。精度、召回和 - - - - - -分数计算随机森林分类结果和表中列出3。同样,您可以看到可视化性能评价图13

通过朴素贝叶斯分类混淆矩阵的结果如图14。42的混乱表明,异常图片,朴素贝叶斯分类准确性20图片和不准确分类2图像。同样,42岁的正常图像,朴素贝叶斯分类9正确图片。精度、召回和 - - - - - -分数计算对朴素贝叶斯分类结果和表中列出4。同样,您可以看到可视化性能评价图15

混淆矩阵的分类结果通过 - - - - - -最近邻算法如图16。31的混乱表明异常图像,然而,精度分类24图像和不准确分类7图像。同样,11个正常的图像,然而11图像正确分类。精度、召回和 - - - - - -分数计算资讯分类结果和表中列出5。同样,您可以看到可视化性能评价图17

混淆矩阵通过决策树分类器的分类结果见图18。42岁的混淆矩阵表明,异常图片,决策树分类器准确分类39图像和不准确分类0图像。同样,42岁的正常图像,决策树分类器分类17正确图片。精度、召回和 - - - - - -分数计算的决策树分类器的分类结果和表中列出6。同样,您可以看到可视化性能评价图19

3.3。比较分析

我们应用不同的机器学习算法在分类阶段获得的特征在特征提取阶段。结果表明,分类和回归树性能更好,当我们把它应用到提取的功能;因此,我们认为这种分类并记录结果并与一些著名的分类方法列在表中7。我们有与其他方法相比,该方法以测量方法的性能。选择规范的合格的算法简单,计算复杂性和准确性。结果展示,该方法已经抢风头其他算法。

4所示。结论

准确分类的脑核磁共振图像与一个小的数据集是具有挑战性的。正常情况下,两种类型的策略用于大脑核磁共振图像进行分类,首先应用深度学习算法,如卷积神经网络分类大脑核磁共振图像,但深度学习的问题是,它需要一个巨大的数量的图像训练模型。在卷积神经网络的情况下,整个形象作为算法的输入。其次,如果我们有一个小的图片然后使用卷积神经网络并不是一个明智的选择,因为卷积神经网络对一个小数据集执行最差。因此,下一个选择是使用一个简单的机器学习算法,如人工神经网络与一个或两个隐藏层, - - - - - -最近邻算法、决策树等,但这些算法的问题是,我们无法养活这些算法完成图像,因为它需要大量的计算时间。因此,适当的特征工程需要降低维度的诅咒,从图像中提取感兴趣的一些特性。为此,提出工作,新方法已申请从图像中提取感兴趣的特性。首先,灰度图像转换为RGB图像和红、绿、蓝通道然后从RGB图像。直方图均衡化是应用于每个通道的RGB图像增强这些渠道的质量。然后,统计参数计算了红、绿、蓝通道的RGB图像。总共27 ( )每个图像的特征提取,特征为所有图像然后存储在一个文件,并相应地标记训练机器学习算法。我们有不同的机器学习算法,应用随机森林,安,然而,朴素贝叶斯决策树,在提取特征提取阶段的特性。性能措施表明决策树的性能是更好的比对应的算法。该模型也与一些先进的算法相比,和结果展示,该方法的性能比其他同行算法要好得多。

该方法的限制是,我们应用这种方法只在小数据集有140个图像和没有应用在大型数据集。

数据可用性

数据集是存档来自哈佛大学医学院的网站http://www.med.harvard.edu/AANLIB/home.html

的利益冲突

作者宣称他们没有利益冲突的报告对于本研究。