文摘
早期发现肺结节的诊断和治疗是非常重要的肺癌。在这项研究中,一种新的分类方法提出了肺结节的CT图像通过使用混合特性。介绍了四种不同的方法对该系统。使用各种分类器检测的整体性能评估。结果比较相似的技术文献中使用标准的措施。该方法与混合特性导致分类精度90.7%(敏感性89.6%,特异性87.5%)。
1。介绍
计算机辅助诊断(CAD)系统是一个极其重要的任务在医学图像检测肺结节。达到一个更可靠、准确诊断、CAD系统最近开发协助医学图像的解释。系统找到真阳性发现医学图像是尤其重要的,他们还可以帮助放射科医生在早期肺结节的识别。最好的解释中透露的信息图片,需要经验丰富的医生;然而,这样的专家可能会达到不同的相同的医学影像诊断结果。因此,CAD系统是一个密集的工具,它可以为放射科医生提供第二个意见来改善他们的诊断决策过程的敏感性1]。CAD系统的目的是提供诊断信息来提高临床决策过程;因此,它的成功是直接相关的疾病检测精度(2]。今天,CAD系统经常被用来检测和诊断许多在常规临床工作异常。CAD系统通常是专业从事解剖区域如胸腔、乳腺癌、结肠或通过使用特定的医学成像技术,如摄影、计算机断层扫描(CT)或磁共振成像(MRI) (3]。
最近,肺癌仍被视为全球死于癌症的一个主要原因。特别是,它是主要的公共卫生问题之一,在发达工业国家(4,5]。这使得治疗肺癌的一个非常重要的任务,对癌症的战争。早期发现潜在的癌肺结节是高度重要的改善病人的存活机会。经由电脑断层扫描系统是一个非常敏感的影像学方法来检测肺小结节。
在以前的研究中,分类系统是由使用结节候选模式的特点和图像处理技术(6- - - - - -8),通过肺结节的形状分类模式(9,10和利用形态学特征11,12]。对肺结节,神经网络方法13,14)和Fisher线性判别分类器(15,16提出了。此外,提出了几种方法来检测肺结节在薄片螺旋计算机断层扫描图像17,18]。类似的技术介绍了利用遗传算法的随机子空间法(19,20.),一个单一的支持向量机(21),和随机森林分类器(22,23]。最近,集成学习方法已经应用于分类问题(24,25]。尤其是装袋等集成学习算法和演算法优于单个分类器(26,27]。
在这项研究中,提出了四种不同的组合方法从CT图像特征提取。
方法1。二维主成分分析(2 d-pca)应用于数据集。
方法2。从2 d-pca值统计特性。
方法3。几何特性通过使用区域描述符的2 d模式基于基本形态形状信息。
方法4。选择最佳的特征与mRMR上面的三种方法(最小冗余最大相关性)方法,结合得到的混合特性最好的特性。
执行严格的验证与拟议的系统,利用完全独立的训练和测试数据集。数据集的所有结节第一调谐/训练使用的数据集作为礼貌伊斯坦布尔大学Cerrahpasa医学院。
一个分类任务表单计算机辅助检测系统的支柱。在本文中,我们提出一种新的分类方法对肺结节使用混合特性应用于CAD系统。该研究的目的是分析的混合特征对分类的影响肺结节。提出的分类方法有几个小说潜在的角色。(我)作为一个有效的过滤方法减少假阳性的数量在CAD系统中。(2)提高检测系统的诊断准确性。
本文的其余部分组织如下。该分类方法对CAD系统和方法部分中描述的算法2。本节包括数据库信息、特征提取、特征选择和分类器算法。提出了系统的整体性能以及与其他六个以前提出了CAD系统提出了部分3。结论给出了部分4。
2。材料和方法
2.1。肺结节数据库和成像协议
在这项研究中,数据集包含95肺结节和75 nonnodules模式获得二维(2 d)从63例CT图像是利用。2 d肺结节模式由放射科医生手动标记在CT图像。然后,结节模式从CT图像中提取如图1。其他模式在肺实质结节类似但不标记为“结节”的放射科医生选择模式nonnodule类的成员。图像是来自39个男24岁女患者年龄从25到78年[意思=年)。的肺结节检测左右肺实质,如图267(20在上部,20在底部,和胸膜27例),共有28(12在上部,8底部,8胸膜),分别。
平均结节直径毫米。直径分布的结节中使用数据库如图3。结节和nonnodule模式样本中使用数据集在图4。患者的年龄分布见图5。
(一)
(b)
从胸部CT图像数据集得到的患者通过使用“感觉16”CT扫描仪扫描(西门子医疗系统)在2010年和2012年之间在放射科,Cerrahpasa医学教师,伊斯坦布尔大学。CT扫描是在管潜在的120千伏峰值电压。所有CT图像的大小像素和存储为DICOM医学数字成像和通信格式文件,直接从CT形态。
2.2。特征提取
2.2.1。二维主成分分析(2 d-pca)
主成分分析(PCA)是定义为一个经典的降维方法,特征提取和数据表示技术广泛应用于模式识别、计算机视觉、和信号处理28]。特征值和特征向量组件是排名根据他们的方差轴和排名最贡献最少的一个。降低维度的数量是基于总结特征值的贡献超过99%。它提供了一种降维的无监督学习算法(29日]。考虑以下。
让是一个维列向量。项目形象是一个矩阵,上通过。为了确定最优投影向量,预计的总散射样品是用来衡量的最优 在哪里描述了图像协方差矩阵。
假设有训练样本和平均图像,
最优投影方向的特征向量表示对应于最大的特征值。通常一组标准正交投影方向,是选择。这些投影方向的标准正交特征向量对应于第一个最大特征值。
对于一个给定的,让。一组投影特征向量的主要组件被发现。的特征矩阵获得的是。最近的邻域分类器采用分类。两个任意特征矩阵之间的距离,和的话,是 在哪里描绘了欧几里得距离和(30.]。
一个分类的过程是一个计算机辅助检测系统的基础。分类方案提出了一个计算机辅助检测算法用于这项工作图所示6。
2.2.2。形态学图像处理
形态学是数学的基石的工具集基础技术的发展,从图像中提取意义特征(31日]。肺结节提取特征,几何特征是通过使用区域描述符的2 d模式基于基本形态形状信息。几何特征包括面积,周长,直径,坚固,怪癖,长宽比,密实度,圆度,圆,椭圆率的模式研究。
这些特性是由其定义在表1。共有10个特征中提取的特征的评估模式。从这些特性,可靠性表示像素的凸包的比例也在该地区。偏心描述了椭圆的离心率的第二时刻一样。也是焦点之间的距离比椭圆及其主轴长度。离心率的值是在0和1之间。圆度测量密实度,圆和椭圆率计算表中给出的定义1(37]。
2.3。特征选择
2.3.1。mRMR方法
mRMR(最小冗余最大相关性)方法从特征选择方法提供了更短的计算时间和更高的分类精度。mRMR方法提出了彭et al。38]。mRMR方法使用特性之间的互信息和一个类或一个功能,另一个功能。功能集的相关性为类被定义为所有个人之间互信息值的平均特性和类, 在哪里表示之间的互信息功能和类。冗余的特性集被定义为所有互信息值的平均值之间的特性和特性, 在哪里之间的互信息的特征吗和。mRMR标准,也就是说,两项措施的组合给出了(4)和(5),是由以下条款: 因此,最好的特性是通过优化表达式(4)和(5根据(同时)6)或(7)。
2.4。结节的分类
2.4.1。人工神经网络
一个人工神经网络(ANN)是一种人工智能的工具旨在模仿组织的复杂操作和人类大脑处理信息的神经元。安能识别模式关联与一组数据对应一个类的一个学习的过程,利用中间神经原连接权重来存储知识中的特定功能识别数据39]。用于减少实验工作和时间的损失。常见的安是多层感知器(MLP)算法由三层组成,如图7。安训练通过输入信息从输入层到隐层和输出层的网络40]。安是由使用反向传播算法基于Levenberg-Marquardt规则(41]。
的输出信号lth神经元的th层是由以下表达式: 在哪里表示激活函数,描述了连接权重,表示时间的指数描绘了权重。突触的重量被定义为以下表达式(): 这是修订如下: 在哪里描述了学习速率()。同样的局部误差梯度 提高利用bp算法的性能,动量词添加如下: 在哪里是在0和1之间。为输出层,定义的局部误差梯度 在哪里,描述目标输出信号并激活函数,分别。
2.4.2。随机森林
提出了随机森林Breiman于1999年(42]。这是一个新的基于树的分类器和快速发展证明是最重要的一个机器学习的算法。它被定义为树的组合预测的值取决于一个随机向量独立采样和分布相同的树在森林里。随机森林给了健壮的和改进的分类标准数据集的结果。它提供了很好的竞争神经网络和集成技术在不同的分类问题。随机森林是相关的特殊类型的乐团使用装袋和随机分割方法增加多个树(42,43]。
为随机森林方法有几个优点。特别是,随机森林分类可以预测哪些功能是重要的。它可以处理大型数据集。也可以使用一个有效的方法来估计缺失的数据。
2.4.3。装袋
小数据集装袋是不稳定的学习算法如果小训练数据的变化将产生非常不同的分类器。装袋的使用来提高性能通过利用这种效应提出了Breiman [44]。单个分类器可以有更高的测试误差。分类器的组合可以产生测试误差低于单一分类器,因为分类器的多样性通常补偿任何单个分类器的错误(45]。学习算法组合在这些小训练集的变化会导致精度相对较大的变化。
2.4.4。演算法
演算法是一种强大的模式识别方法(46]。演算法分类器首先引入了弗洛伊德和Schapire47,48)是一个许多弱分类器组成的分类器的两级分类问题。它生成强分类器与弱分类器。演算法使委员会成员弱分类器通过自适应调整权重在每个循环。而权重的弱分类器的训练模式分类正确的减少,权重的训练模式的弱分类器分类错误增加。
学习演算法显示了良好的性能影响,因为产生扩大多样性的能力。为了提高最终的整体的性能结果,学习演算法包含不同的弱分类器。特别是,促进学习演算法。M1-the首先directly-extends原学习演算法多级多两问题的情况下没有减少它。
主成分分析、mRMR方法和形态学图像处理算法通过使用Matlab代码执行。分类过程提供了通过使用数据挖掘软件叫做3.7.7 Weka工具版本是可用的http://www.cs.waikato.ac.nz/毫升/ weka。测试是在电脑上完成与英特尔酷睿i7, 1.90 GHz CPU和4.00 GB RAM。评估分类器,5倍交叉验证技术。
3所示。结果
各种分类方法是用于医疗模式识别的特征提取与选择。在这项研究中,二维主成分分析和几何特征值用于特征提取。特征选择的mRMR方法应用。整个数据集随机划分为训练集和测试集。整个数据集分为训练数据集和测试数据集50%。大约50%训练数据集包括47个肺结节和37 nonnodule模式(模式的总数是84)。测试数据集由48个肺结节和38 nonnodule模式(共计86模式)。每种方法的最佳特性是决定使用mRMR只在训练数据集特征选择。然后,分类精度的方法计算使用这些特性的测试数据集。
在这项研究中,提出了四种不同的方法。对主成分分析方法1,最大的前七值被选中第一因为方差值最高的七个主要组件。所以,一个维矩阵形成对于每个模式。然后,维特征向量。这样,至少99%的总方差值每个模式考虑。选择最好的特性,有助于训练集的分类系统的性能,mRMR方法是利用。最佳特性mRMR方法执行的数量被确定为20。
方法2的统计特性,最低(分钟)、最大(马克思)平均值,标准偏差(std),方差(var), 3日时刻值,计算训练数据集。因此,一个维特征向量。最好的功能排名第三mRMR执行的方法分钟,意思是,性病,马克斯,var。最好的数量特征与mRMR方法执行3日是第一个5特性分钟,意思是,性病,和马克斯。
方法3、几何特性的基础上,基本形态形状信息是利用2 d模式的训练数据集。几何特性包括面积、周长、直径、坚固,怪癖,长宽比,密实度,圆度,圆,椭圆率的模式。最佳特性mRMR方法执行的数量是5功能组成的密实度、纵横比,坚固和椭圆率。
介绍了一个新的混合方法分类方法4。一个新特性向量是由结合以上三种方法的最好特性,针对提出的分类方法的敏感性增加。总共30特征选择的三种方法是现在应用于测试数据集。
随机森林,人工神经网络,合奏与射频装袋,合奏装袋与安,与射频合奏演算法,合奏演算法与人工神经网络分类器分别应用在所有的方法。
分类器进行了比较,提出了分类方法的总体性能结果表2。给出了性能度量 TP、TN、FP和FN表示结节归类为真阳性的数量,真正的负面,假阳性和假阴性。玻璃钢是假阳性率/形象。
灵敏度是正确预测阳性的数量除以总数量的阳性病例。特异性是正确预测底片的数量除以总数量的负面情况。柠檬酸(总分类精度)代表的概率正确分类模式。RMSE (根均方误差),,,描述实际价值,预测价值,分别和数量的数据模式。为了测量分类系统的性能,经常使用AUROC以及敏感性和特异性(49]。AUROC代表接受者操作特征曲线下的面积。Kappa统计chance-corrected措施分类之间的协议和真正的类。如果k = 1,这表明完美的协议。如果k = 0,它代表协议的机会。
混淆矩阵的分类器提出方法见表3。
ROC曲线通常是用作技术可视化分类器的性能,比较不同分类器的性能是非常有用的在医疗决策系统。曲线表明真阳性和假阳性利率之间的权衡。
中华民国(下的面积AUROC)用在这里主要是采用代表预期的分类器的性能。分类器的AUROC相当于分类等级的概率随机选择的正面实例高于随机选择消极的实例(50]。对我们提出的方法,ROC曲线见图8。
3.1。性能比较
评估分类方法的性能,本研究的结果与先前报道的CAD系统。它是非常困难的任务比较以前公布的CAD系统由于不同的数据集,结节大小或类型和结节或nonnodule模式。它仍然是相对比较重要。很明显的性能结果表明,CAD系统可以根据这些变量显著差异。
一个2 d切片选择为每个如图3 d对象1。肺结节上观察到的几片范围的CT扫描。放射科医生检查这些片的2 d模式然后选择和标签的肺结节模式(即最大的维度。、面积、直径)。因此,当任何医生检测肺结节的CT片,他/她选择最大的2 d模式标记和使用的数据集。
最近比较分析,它是研究和报道,CAD系统利用LIDC(肺图像数据库的财团)数据库评估检测系统(32- - - - - -34]。消息和Wiemker32)利用数据集组成的93例(2 - 3毫米切片厚度)有127个结节。领域等人使用数据集有73结节结合LIDC 28的CT扫描和20扫描从另一个数据库34]。鲁宾等人使用84与143结节CT扫描的范围3-30毫米结节大小(33]。其他论文利用自己的数据库性能分析的CAD系统(35,36,51]。铃木等人使用的20 CT扫描数据集(切片厚度1.25毫米和0.6毫米像素间隔)包含195 noncalcified结节模式(3毫米)[35]。鞑靼等人利用低剂量CT扫描图像来自71个不同的患者共有121个结节(8-20毫米结节大小间隔),总计101 CT扫描(10毫米切片厚度和0.586 - -0.684像素间隔)(36]。Shiraishi等人使用数据集包含67肺结节和67 nonnodules来自46个病人在我们之前的研究51]。
在这项研究中,一个数据集包含95肺结节和75 nonnodules模式获得二维CT图像从63例患者使用。我们所有的CT扫描是由使用标准的图像扫描协议。的报道CAD系统的性能比较见表4。从表中可以看到,该分类方法实现了89.6%的敏感性和准确性90.7% 2 - 20毫米的范围大小结节。所有其他CAD系统在肺结节的分类合理的灵敏度值。是非常重要的考虑小结节大小分类的CAD系统。这增加的概率早期发现结节。考虑这些结果,可以看出,该研究代表了一个相对较高的灵敏度。此外,每个图像整体假阳性率计算为0.079使用的表达(18混合方法)。
4所示。结论
在本文中,一种新的分类方法的肺结节CT图像上的CAD系统。放射科医生所期望的CAD系统的一个重要特性是它能够检测和分类小结节的模式。我们研究的数据集是由结节与相对较小的直径(2毫米),如图3和表4。
在文献中,各种分类算法对CAD系统进行了广泛的研究。为了降低算法的复杂性和计算负载,使用更少的特性是非常重要的,同时保持一个可接受的检测性能。例如,CAD系统在Messay et al。15]使用40特性选择一组245特性的敏感性82.66%,辛苦地等。16)使用46特性的一个子集选择从一组114特性的敏感性78.1%,和受伤等。51]利用71特性的灵敏度分别为70.4%。在这项研究中,以选择最佳的一组图像特征描述模式,各种特征提取/选择方法如2 d-pca 2 d-pca的统计特性,基于几何形态学图像处理功能,mRMR特征选择方法实现的。
提议的方法的性能评估通过使用不同的分类和性能指标如准确性、敏感性,特异性,AUROC, Kappa统计和RMSE。提出的分类方法利用30特性相结合的混合方法的敏感性89.6%,精度90.7,特异性为87.5%。
考虑到测试结果表2,集成学习算法产生最好的表演中建议的方法1和3的特性。然而,尤其是在混合方法(方法4)结合三种方法的最佳特性,非线性多层安是优于其他分类器。我们的方法用更少的特性来避免使用ANN分类器泛化问题,高复杂性和计算负担,可能是由于使用的安非常大量的(可能不相关的)功能。此外,如表所示3假阳性(FP)率显示下降的混合方法通过使用更少的特性提供了更高的检测性能。
冲突的利益
作者没有利益冲突的商标包括在纸上。
承认
这项工作是支持的科研项目协调单位伊斯坦布尔大学的项目数量:24014,14381,31474,35119。