文摘

食道癌是增长最快的一个类型的癌症在中国。新疆哈萨克族民族是高危组。在这项工作中,一个有效的计算机辅助诊断系统开发协助医生解释数字x光图像特征,提高诊断的质量。提出系统的模块包括图像预处理、特征提取、特征选择、图像分类、和性能评估。300年原始食管x射线图像缩放感兴趣的区域,然后由中值滤波和直方图均衡化增强方法。37从结构特性,频率,提取和复杂性领域。都向前连续选择和主成分分析方法用来选择分类的区别的特征。然后,支持向量机K最近的邻居是应用于食道癌图像分类对他们的特定类型。分类性能评估的接受者操作特征曲线下的面积,精度,精度,分别和回忆。实验结果表明,该分类系统的性能优于传统的目视检查方法的诊断质量和处理时间。因此,提出了计算机辅助诊断系统是有前途的食道癌的诊断。

1。介绍

食道癌是第八个全球最常见的恶性肿瘤,每年有超过480000新病人诊断。根据监测、流行病学、最终结果(SEER)统计,5年生存率在诊断食道癌基于阶段(2001 - 2007)是17%:37%,当地疾病;18%区域疾病;3%,遥远的疾病(1]。《2004年世界卫生报告》排名食道癌是中国最高的癌症死亡率的原因。在446000死因引起食道癌在世界范围内,一半以上在中国发生,也就是说,28.8万(2004人)2- - - - - -4]。新疆维吾尔自治区是食管癌的高发地区。哈萨克民族的食管癌的死亡率是100000年的155.9,远高于15.23的平均死亡率的100000在中国5]。超过80%的食管癌发生在发展中国家,在几乎所有的情况下都是食管鳞状细胞癌(ESCC)。ESCC的风险因素,包括吸烟、饮酒、饮食和微量营养素缺乏,高温饮料和食品消费,和其他杂项因素(如快速饮食习惯和多环芳烃暴露),已确定在过去的几十年里(6]。食道癌的早期症状太不显眼的。大多数病人诊断疾病的晚期,在这个阶段,它带有不好的预后。x射线技术,钡作为食道癌的检测的重要工具,提供了专家医生高质量视觉信息来识别疾病类型(7]。经典,x射线图像是由医生检查手动和必然性很难避免interobservers不一致的解释。在某些情况下,即使是有经验的放射科医生,他们可能误解食道癌的图像区域和小姐较小的病变。因此,食道癌的主要预防策略和控制活动应增强未来的潜在有效降低食管癌的死亡率也必须拯救生命和资源。本文研制了一种计算机辅助诊断系统协助医生进行分类与特定疾病类型食道癌。

计算机技术的快速发展,CAD目前广泛应用于各种疾病的诊断或量化8- - - - - -10]。许多研究表明CAD有潜力提高诊断的敏感性和特异性成像(11,12]。CAD图像特性的优点在于客观性和再现性的特定特性的措施。传统模式设想,CAD的输出将被用于医生作为第二意见最后的诊断是由医生(13]。七等人开发了一个计算机辅助诊断系统协助检测异生巴雷特食管。实验结果表明,该CAD算法有可能量化和标准化的诊断发育不良,使高通量形象评价内窥镜光学相干断层扫描检查应用程序(14,15]。Sommen等人提出了一种新颖的自动检测算法的早期癌组织在高清内镜图像。实验结果表明,独立38病变显示的胃肠病学家,系统检测到36病变召回的0.95和0.75的精度(16]。katryn Schoon等人提出了一种CAD系统发现食道癌的早期阶段。结果表明,该系统实现了分类精度94.2%的正常组织和肿瘤组织和达到0.986的曲线下面积(17]。食道癌CAD文献发表的数据主要集中在内窥镜图像。除了我们之前的研究中,没有其他领域的论文被发现食管x射线图像我们最好的知识。

CAD发表文献中的算法包括图像预处理、特征提取和模式分类。直方图均衡化算法是使用最广泛的技术之一,为提高图像对比它的简单性和有效性。商等人提出了一个范围有限的Peak-Separate模糊直方图均衡化方法(RLPSFHE)增强图像对比度的简单性和有效性。实验结果表明,RLPSFHE能达到一个更好的权衡之间的平均亮度保存和对比度增强[18]。Zohair等人介绍了一个改进版本的contrast-limited自适应直方图均衡化(CLAHE)提供一个良好的亮度与体面的对比CT图像,提供可接受的结果,没有可见的工件和优于同类技术(19]。特征提取的目的是提取相关特征的地区利益作为分类器的输入向量。顾等人提出了一种新的特征提取方法称为自适应缓慢特性判别分析(ASFDA)为了解决传统SFDA的弱点。实验结果证明的优越性ASFDA一些先进的方法(20.]。全球Mueen等人提取三个层次的功能,结合当地,像素和他们在一个大的特征向量,实现了89%的识别率21]。

分类基于多个图像特征的优点是通过增加使用的信息量增加精度。然而,利用太多的图像特征源于有限的训练数据集过度拟合的风险增加,这将降低系统的鲁棒性当训练集之外的分类数据22]。因此,有必要选择一个有限数量的图像特征来平衡准确和健壮的分类。Gladis等人应用主成分分析(PCA)与支持向量机(SVM)分类的脑部MR图像类型。的识别性能提出了技术与其他三个方法系统。实验结果表明,主成分分析和支持向量机超过了其他三个方法的分类精度(45]。李等人利用顺序向前选择算法(SFS)找出nonunique探针选择的问题。实验结果表明该方法优于其他贪婪算法(23]。技术,如人工智能,数据挖掘技术被广泛用于医学成像领域的分类(24]。支持向量机是一种先进的模式识别技术从统计学习理论长大。帕帕多普洛斯等人实现人工神经网络(ANN)和支持向量机的数字化中微钙化簇乳房x光片。结果表明,支持向量机的分类性能优于安(25]。朱镕基等人采用SVM区别在Src激酶抑制剂类。顺序向前选择和顺序向后选择方法被用来去除冗余的变量。结果表明,该方法可以用来构造活动的关系建模与改进质量和可预测性(37]。Katsuyoshi和阿尔贝托详细K最近的邻居方法在乳腺癌诊断中的应用。实验结果表明分类精度变化与邻居的数量和比例的数据用于分类(26]。陈等人应用资讯分类肺的声音。实验结果表明,呼吸周期和实际测量值之间的误差仅为6.8%,说明探测器的潜力为家庭护理程序(27]。沙玛,肯纳先生提出了一个CAD系统来检测异常或可疑地区乳腺x射线图像和恶性和nonmaligant归类。实验有三个纹理特征提取技术,包括泽尼克时刻,灰度共生矩阵法和离散余弦变换。实验结果表明,支持向量机与泽尼克时刻达到最佳性能(28]。虽然文献发表了支持向量机的识别性能上的优越性和资讯,各种特征选择算法对分类性能的影响还没有被充分研究。

摘要提出了一种计算机辅助诊断系统分类新疆哈萨克族民族食管的医用x射线图像类型。该系统包括图像预处理(我),(2)特征提取,特征选择(III),和(IV)分类和性能评估。首先,原始图像大小感兴趣的区域,然后由中值滤波和直方图均衡化增强方法。在特征提取和选择步骤,利用主成分分析法(PCA)的特征向量分类器选择和SFS 37功能结构,频率,和复杂性领域。使用分类器,也就是说,验证了支持向量机和资讯,使用10倍交叉验证技术,收益率平均估计分类器性能的95%置信区间。两个分类器的性能研究和事先PCA和SFS输入特征向量的选择。AUC值的接受者操作特征(ROC)曲线,精度,精度,和回忆,是用来评估的分类性能。

2。方法和技术

提出的方法应用于300年生食管x射线图像,其中100被病理学家分类为正常图像和200年异常图像。异常病例进一步划分为两类:100 fungating类型和100溃疡性类型。这些图像,其中包括221年男性(平均年龄:65)和79名女性(平均年龄:68)的年龄45 - 80岁,收集从第一附属医院、新疆医科大学的中国。提出的算法在Matlab中实现2013平台。系统设计的流程图如图1

2.1。图像预处理

通常,预处理时是必要的数据挖掘是嘈杂、不一致或不完整的。预处理的有效性显著提高数据挖掘技术(29日]。典型的原始图像的大小是1012×974,几乎50%的整幅图像组成的背景有很多噪音。此外,在不同光照条件下这些图像扫描,所以一些图像出现太亮,太黑了。为了规避上述问题,噪声去除的第一步是修剪的原始图像裁剪操作。感兴趣的图像缩放到一个地区的140×240像素,可以保证所有感兴趣的区域包含病变区域同时避免无用的信息。此外,中值滤波器应用于不规则图片为了进一步消除图像噪声。尤其是第二步是图像增强,直方图均衡化的方法,这可以增加图像的对比度范围增加灰度级的动态范围,这对减少用于增强图像over-brightness和战胜黑暗在图像的影响。预处理图像由一个病理学家再次检查,以确保他们的质量是足够的诊断。图2介绍了预处理的结果不正常食管x射线图像,fungating和溃疡性食管x射线图像。

2.2。特征提取

特征提取在这个项目的目的是将一个二维图像转化为一个特征向量,这可以进一步利用开采阶段的分类器的输入。提取的特征应该提供输入类型的分类器的特点,考虑相关属性的描述图像的特征向量。因此,三种特性来描述纹理的结构信息,提取频率,和复杂性。

2.2.1。纹理特征

纹理包含重要的信息关于潜在的表面图像的结构安排。应用灰度共生矩阵建立灰度共生矩阵法(),它描述了灰度模式重复,是一个著名的纹理提取方法最初引入Haralick et al。30.]。同现矩阵是由像素之间的方位和距离信息。假设 是一个二维图像的大小×N,同现矩阵的定义如下: 在哪里 表示集合的元素的数量。 之间的距离和角度吗 ,分别。

许多纹理特征可以直接从灰度共生矩阵的计算。Pourghassem等人对比,提取相关性,应用灰度共生矩阵建立能源和同质性(31日]。 在哪里 像素的平均值和标准偏差值应用灰度共生矩阵建立的行和列的方向,分别。对于这个任务,我们计算灰度共生矩阵的四个不同的方向 {0°、90°、45°、135°}和距离 。因此,纹理特征向量包含16个元素。

2.2.2。频率特性

离散小波分解(DWT)被广泛用作快速算法获得x线医学图像的小波变换32,33]。DWT分析的图像分解成粗近似代表低收入和高频率和详细的信息内容的图像,分别。近似可以进一步产生近似计算和详细信息的下一个层次分解等等,直到达到要求的水平。图3描述了小波分解过程的工作。具体来说,A1-A4,代表四层的小波近似,低频图像的一部分。C11-C13, C21-C23 C31-C33,指示的细节水平,垂直,和对角线方向的四层,是图像的高频部分。经验,C11-C13可以被丢弃,因为它们包含一些有用的信息和大量的噪音。A4第四层次和近似系数是用来表示图像的低频。均值和方差值进一步计算出每个在DWT系数进行x射线图像。因此,20从输入图像特征提取。

2.2.3。Kolmogorov复杂度特性

一个图像可以通过扫描转换成一维二进制序列水平或垂直。每一行向量的复杂的价值可以通过评估获得每个矢量在水平方向上的复杂性。复杂的矢量的复杂性,这是由每一行的复杂性,可以计算的复杂性特征的形象。柯尔莫哥洛夫(34)提出了测量条件有限对象的复杂性 ,鉴于有限的对象 最短长度的序列 ,由0和1,从而使得它可以重建 鉴于 。在数学上,这是解释如下: 在哪里 序列的长度吗 是解码函数,算法计算其值。

柯尔莫哥洛夫只给了Kolmogorov复杂度的一般定义。卡斯帕和舒斯特尔35)提出了一个显式算法计算KC措施,其中包括两个操作,复制和插入。显式算法应用于图像后,一个特性。

2.3。特征选择

特征选择是一种优化技术,给定一组特性,试图选择一个子集的大小,导致一些准则函数的最大化(36]。在本文中,我们使用两个连续的选择(SFS)和主成分分析(PCA)方法选择特征向量之间的区别的特征。

2.3.1。顺序向前选择

非正式地,SFS算法可以描述如下37]:SFS始于一个空的特性集,所有被标记为nonselected特性的观测特性。在每个迭代中,一个功能从nonselected特性添加到功能集,它最小化均方误差(MSE)。迭代过程可能会停止,直到获得最佳绩效MSE。MSE可以定义如下: 在哪里 表示随机变量。 被定义为样本的数量。

2.3.2。主成分分析

主成分分析,也称为Karhunen-Loeve KL变换,是一种projection-based技术有助于降低数据维度通过建设正交加权主成分,原始变量的线性组合(38- - - - - -40]。假设一个线性变换映射原N维特征空间变成一个维空间, ,PCA变换可以表示如下: 在哪里 是所谓的特征向量的长度取决于我们想要表达的组件观察特征空间。合成功能空间是原始数据集的投影特征向量的协方差矩阵。在这项研究中,我们应用PCA调查如果减少的功能可以保留重要的歧视投影数据。首先,原始矩阵转化为标准化矩阵。即特征是零均值和单位方差归一化。其次,协方差矩阵,由输入空间中的每个特性的权重,计算。此外,协方差矩阵的特征值和相应的特征向量计算。最大特征值的特征向量是第一个原则组件,包含最重要的信息和占更大的方差的数据量。第一个选择几个主要组件的输入分类器时累计出资率是0.9。

2.4。分类和性能评价

在这项研究中,两个分类器,K最近的邻居(资讯)和支持向量机(SVM)和径向基函数(RBF),用于分类。支持向量机之间寻求最优边界两类。这种方法的普及已成长为它提供了一个强大的机器学习技术对数据进行分类。然而,在机器学习领域被称为一个非参数方法。

2.4.1。支持向量机(SVM)

支持向量机,技术来源于统计学习理论,是最有前途的技术数据分类和回归函数估计(41- - - - - -44]。应用支持向量机的基本思想为解决分类问题可以简要说明如下:(a)将输入空间高维特征空间的非线性映射功能,(b)构造分类超平面的最大距离最近的点训练集(45]。支持向量机分类精度高和良好的容错能力和泛化能力。SVM构造一个二元分类器的训练样本集 ,它属于一个类标签。支持向量机选择之间的分离超平面,使最大的决策函数值边缘两个类的示例。超平面的决策函数可以定义如下: 在哪里 是内核函数。 分类阈值。 是拉格朗日乘数,计算了二次规划问题。 , ,

有三个参数,我们应该选择支持向量机模型。他们造就伟大的对一个模型泛化能力的影响。众所周知,SVM泛化性能取决于良好的hyperparameters设置 内核,内核函数,参数。multiclassification问题,一般有两种方法,one-against-one one-against-all。在原方法中,分类器计算每一对的类。所有分类器相结合得出最终的分类采用多数表决方案。在后者的一个分类器计算从每个类与类,然后第一个对象归为一个类是未标记的数据的类型。

2.4.2。K最近的邻居(资讯)

K最近的邻居分类器在1968年首先提出的封面和哈特(46]。它是一种非参数学习算法,用于分类和回归(47]。资讯是一个非常简单但有效的算法,因为它是一种典型的基于实例的或基于内存的学习计划。的实现过程K最近邻居算法如下(48]:(我)在第一步中,最近的测试数据点的数量 对训练数据 是确定的。欧几里得距离是最常用的测量两个实例之间的距离根据属性的类型(49]。假设有两个点 维空间, 之间的欧几里得距离两个可以用 (2)我们可以判断测试数据 是一个特定的类别代表超过一个特定类别的数据。

一般来说,更大的价值 减少噪音对分类的影响,但类之间的界限不明显。一个好的 可以选择交叉验证,运行最近邻分类器的学习设置。由于其实现简单,分类效果,然而,已被广泛应用于模式识别。也用作不同的特征选择算法50,51)和集成到特征选择框架来评估候选人的质量特征子集(52- - - - - -54]。

2.4.3。绩效评估

分类器是验证使用10倍交叉验证技术,收益率平均估计分类器性能的95%置信区间。交叉验证,90%的样本用于训练和10%被用于验证复制。分类器的性能评估的接受者操作特征(ROC)曲线下面积(AUC),精度,精度和召回。ROC分析是一种常用的方法分类性能评价(55]。AUC值平均真阳性比率在所有可能的假阳性。精度、精度和召回56]给出如下:

3所示。结果与讨论

上述方法一直在评估一组食管x射线图像来自新疆医科大学第一附属医院。在分类阶段,性能比较分为三类:(1)所有37特性;(2)由SFS特征选择;利用主成分分析法(PCA)和(3)特征选择。的分类进行了一个两阶段的过程。在第一阶段的分类过程中,x射线图像分为正常和异常。然后继续第二阶段的分类过程异常图像分为fungating和溃疡性图像类型。和分类器验证由10倍交叉验证技术。分类性能测量的AUC值ROC曲线,精度,精度和召回。

特征选择是使用SFS和PCA方法去除冗余由于高度相关的特性。在第一阶段和第二阶段的分类过程,37的SFS选择17个适当的功能特性,分别。这意味着减少计算时间和数据存储空间。选择从结构特性,频率,和复杂性领域和所有有用的分类。特征选择的结果SFS的两级分类过程中详细表12。在适当的SFS 17个特征选择,比例就越高 = 45°、90°。这一结果表明,纹理的食管焦点可能发生在特定的角度和距离。每个主成分正交和代表一个原始变量的线性组合。前几个主成分通常占大多数的原始数据的方差。一起在这个分析,前六个主成分解释方差的90.7%和92.26%的第一阶段和第二阶段的分类过程,分别。特征值和前六个主成分的累积方差的两级分类列表在表3

4报告的资讯分类结果值 从一个21使用10倍交叉验证。从图可以看出4资讯分类器实现了最佳分类时 。观察到,然而,分类器的AUC值97.4%,准确性为92.33%,精度92.7%,92.3%的召回。

径向基函数(RBF)内核是SVM分类器的选择。然而,分类器的训练,最近的邻居 并采用欧氏距离度量。基于表所示的结果4,图5,图6可以得出以下结论:(一)特征选择的步骤不仅降低了输入向量的维数,而且还可提高分类性能。这可能是由于消除37-D相关特性的特征向量。(b)SFS优于PCA。在第一阶段分类,所有37特性作为输入向量,它得到最好的AUC值为94.5%,准确性为92.67%,精度91%,91%的召回。输入特征选择SFS和PCA,相应的AUC值,精度,精度和召回是97.4%和95.33%,95%和93%,94.33%和91.4%,94%和91.4%,分别。在第二阶段的分类,产生最好的AUC值为94%,准确性为91.5%,精度90.67%,召回所有37功能为90.67%。与输入向量选择SFS和PCA,相应的AUC值,精度,精度和召回是97%和95.14%,94.67%和92.5%,94.14%和91.67%,94.14%和91.67%,分别。(c)在特征选择标准(SFS的选择,没有选择和PCA选择),支持向量机的性能比资讯。最高的分类性能当SVM分类器,实现了SFS选择就业。

在我们之前的研究中,几种方法与食管癌的计算机辅助诊断系统已经开发出来。分类性能都列在下表中5。它是观察到单一功能达到降低分类精度。分类性能改善的情况下使用综合特性没有降维算法。特征提取方法利用时,精度得到了进一步改善。

虽然之前的工作取得了一些成就,但仍然需要提高分类性能以满足食道癌诊断的要求。本研究介绍了KC特征提取和SFS和SVM算法,和高分类性能是通过结合前面的方法。

该方法需要的处理时间14.32秒(11.02 s为图像预处理,2.16年代特征提取、分类和1.14 s),而手动识别需要大约37。检测的准确性食道癌通过专业医生和该方法是92%和95%,分别。和异常图像分类的准确性fungating和溃疡性类型达到90%和94.67%,分别。该方法的分类性能优于传统的目视检查方法,提高诊断质量和处理时间。

4所示。结论

新疆哈萨克族食管癌高死亡率国籍。x射线技术钡更常用的诊断这种疾病。然而,不同的经验、知识和技能之间的个人医生可能会影响诊断结果。本文提出一种计算机辅助诊断系统与图像处理和模式识别诊断食道癌新疆哈萨克族民族利用x射线图像。原始图像,包括正常食管图像,fungating和溃疡性类型的图片,第一次被调整到一个感兴趣的区域,然后由中值滤波和直方图均衡化增强方法。然后,37的特征是获得图像使用三种不同的技术,包括结构、频率、和复杂性领域。SFS和PCA方法被应用到选择的输入特性分类。此外,食道癌图像通过SVM分类和资讯分类器类型。和分类器验证由10倍交叉验证策略。分类性能评估的AUC值,精度,精度,分别和回忆。

一个两级分类过程进行了分类类型食道癌。在第一阶段的分类过程中,x射线图像分为正常和异常。对于所有37特征作为输入向量,它取得了最好的AUC值为94.5%,准确性为92.67%,精度91%,91%的召回。输入特征选择SFS和PCA,相应的AUC值,精度,精度,和回忆分别增加了2.9%和0.83%,2.33%和0.33%,3.33%和0.4%,3%和0.4%,分别。然后继续第二阶段的分类过程异常图像分为fungating和溃疡性图像类型。生产最好的AUC值为94%,准确性为91.5%,精度90.67%,召回所有37功能为90.67%。与输入向量选择SFS和PCA,相应的AUC值,精度,精度,和回忆分别增加了3%和1.14%,3.17%和1%,3.47%和1%,3.47%和1%,分别。实验结果表明,最高分类性能是实现当SVM分类器和SFS选择就业。检测的准确性食道癌按类型分类,通过专业医生和该方法是92%和95%,90%和94.67%,分别。提出系统的分类性能优于传统的目视检查方法,提高诊断质量和处理时间。

该方法在以下方面可能有限。首先,手动选择感兴趣的区域的图像,在图像处理结果是耗时的阶段。这是由于病变区域很大程度上取决与不同的图像,和很难找到一个统一的分类方法。研究的第二个重要的限制是缺乏与食道癌早期,因为小数量的图像在早期阶段。根据当前研究的局限性,我们工作的未来前景目标诊断质量的提高可能在于学习更高级的特征提取模型和食管x射线图像的分割方法。一个有趣的改进可以扩展成正常食管之间的比较研究和早期食道癌。

的利益冲突

作者宣称没有利益冲突。

确认

这个项目进行了中国自然科学基金会的赞助下拨款81460281,81560294,81160182,61201125。作者要感谢美国放射学,新疆医科大学第一附属医院,乌鲁木齐,中国。