研究文章|开放获取
曹国伟Li Shuheng张、张洹贾丽芳彭日成,Kinman Lam Chun回族,苏, ”再使用的分类算法在胃癌淋巴结转移”,计算和数学方法在医学, 卷。2012年, 文章的ID876545年, 11 页面, 2012年。 https://doi.org/10.1155/2012/876545
再使用的分类算法在胃癌淋巴结转移
文摘
准确的肿瘤、节点和转移TNM分期,尤其是N分期胃癌或转移淋巴结的诊断,是一个受欢迎的问题在临床医学图像分析宝石的光谱成像(GSI)可以提供更多的信息给医生比传统计算机断层扫描(CT)。在本文中,我们应用机器学习方法GSI分析胃癌的淋巴结转移。首先,我们使用一些特征选择或度量学习方法来降低数据维数和特征空间。然后我们再使用分类器来区分从nonlymph节点转移淋巴结转移。实验涉及38个淋巴结胃癌样本,显示96.33%的整体精度。与传统的诊断方法相比,如螺旋CT(敏感性75.2%,特异性41.8%),经由电脑断层(82.09%),淋巴结转移的诊断准确性高。GSI-CT可以最优选择患者的术前诊断胃癌的N分期。
1。介绍
根据全球癌症统计2011年,估计有989600新的胃癌病例和738000例死亡发生在2008年,占总病例的8%和总死亡人数的10%。超过70%的新病例和死亡记录在发展中国家(1,2]。最常用的肿瘤分期系统是美国癌症联合委员会,节点,和转移(TNM) [3- - - - - -5]。影响生存最重要的两个因素中可切除的胃癌患者癌症的深度入侵胃壁和淋巴结的数量。地区不筛查胃癌,晚期诊断显示节点参与的高频率。即使在早期胃癌淋巴结转移的发生率超过10%。据报道,总发病率14.1%和4.8%至23.6%取决于癌症的深度(6]。淋巴结状态必须手术评估适当的治疗。然而,各种模式无法获得足够的结果。淋巴结状态是最重要的一个贫穷的生存预后指标(7,8]。
术前检查、内镜和钡餐检查通常用来评估癌症病变的腹部。腹部超音波,电脑断层扫描(CT)检查,和磁共振成像(MRI)通常用于检查入侵到其他器官的存在和转移病灶。然而,他们的诊断精度是有限的。内镜超声是最可靠的非手术方法评价原发肿瘤的65% - 77% N分期的准确性由于有限的渗透淋巴结的超声远处转移的能力。尽管较高的图像质量和动态对比增强磁共振成像只有一个N分期的准确性65%到70%。多排ct (MDCT) (9)扫描仪使薄准直和更快的扫描,这明显提高成像分辨率和支持快速图像重建的处理。此外,静脉注射丸管理对比材料允许精确评价癌增强,和冲水方法允许负反差增强胃壁。因此,MDCT N更高精度高达82%,成为胃癌术前分期的主要检查方法(10]。Fukuya et al。11)显示在他们的研究至少5毫米的淋巴结检测转移积极节点的敏感性为75.2%,特异性检测转移负面节点是41.8%。大规模的中国研究10)由瑞金医院表明整体诊断敏感性,特异性,和多层螺旋ct确定淋巴结转移的准确性为86.26%,76.17%,和82.09%,分别。然而,随着临床价值的光谱扫描协议CT成像技术,我们可以获得更多的信息与宝石光谱成像(GSI)比任何传统CT(例如,多层螺旋CT)。
在常规CT成像,我们测量x射线的衰减通过一个对象。我们一般定义x射线光束质量的公斤电压峰值(千伏峰值),表示最大的光子能量,随着x射线由x射线光子能量的混合物。助教(12与光谱CT),传统的衰减数据可能被转换为有效的材料密度、增强CT的组织特性的能力。此外,通过光谱CT的单色表示,beam-hardening工件可以大大减少,这是一个一步定量成像对考试更加一致的图像测量,患者和扫描仪。
在这篇文章中,我们打算使用机器学习的方法来处理大量信息提供的GSI和提高精度测定胃癌的淋巴结转移。
论文安排如下,部分2描述了本文中使用的方法的细节,部分3介绍了框架和实验结果,部分4总结目前的研究和讨论潜在的未来研究。
2。方法
图1显示了一个流程图说明整个框架的分类在胃癌的淋巴结转移。
2.1。预处理
GSI-CT检查患者中使用通用电气执行发现CT750高清(通用电气医疗集团)扫描仪13]。每个病人收到20毫克的肌内政府山莨菪碱减少蠕动肠道运动和喝1000到1200毫升自来水胃填满5到10分钟前扫描。患者仰卧位。获取定位器后CT射线照片(如前后和/或侧),我们捕捉到了unenhanced扫描的上腹部,然后采用增强的GSI扫描两个阶段。一个80毫升到100毫升丸非离子型碘造影剂是管理ante-cubital静脉流量的2毫升/秒到3毫升/秒通过20量度使用自动注射器针头。CT的收购进行动脉相(开始延迟40年代)和门户中静脉阶段(70秒的启动延迟)。动脉期扫描整个胃和门户静脉阶段检查从顶部的胃腹主动脉分叉平面膜片。GSI-CT扫描参数如下:扫描光谱成像模式与快速管电压切换80千伏峰值和140千伏峰值,220毫安的电流640毫安,切片厚度5毫米,旋转速度为1.6到0.8年代,和螺距比0.984:1。
2.2。特征提取
感兴趣的淋巴结区域(roi)划定由经验丰富的医生。并不是所有的淋巴结可以捕获图像,因为节点的大小或位置。图2显示淋巴结和主动脉动脉和静脉期阶段在70 keV能量单色。图上的淋巴结2 (b)因其小尺寸是很难找到。单色的值(胡)和物质基础的均值对(μ克/厘米3)计算。本文使用的特点是单色CT值(40 keV 140 keV)和物质基础对(Calcium-Iodine、Calcium-Water Iodine-Calcium, Iodine-Water, Water-Calcium, Water-Iodine,有效核电荷)。
(一)动脉相
(b)静脉的阶段
在图像采集过程中,不同注入速度、剂量的造影剂及其体内循环的患者可引起CT数值的差异。消除差异,动脉CT值相同的部分在同时被记录,然后标准化工作是由使用以下公式:
2.3。特征选择
2.3.1。mRMR算法
最大相关最小冗余(mRMR)提出的是一个特征选择方案14]mRMR使用信息理论作为标准更好的泛化和特征选择的效率和准确性。每一个功能都可以排名根据其相关性对目标变量,和排名过程考虑了冗余的这些特性。一个有效的功能是定义为一个最好的权衡之间的最小冗余的特性和最大关联到目标变量(15]。互信息(MI),衡量两个变量间的相互依赖是用来量化相关性和冗余在这个方法(16]。mRMR标准使用的两个最是互信息差异(中期)和互信息商(筛选), 在哪里之间的MI特性和分类,之间MI特性和,当前的特性集,特性集的长度。
2.3.2。SFS算法
顺序向前选择(SFS)是一种传统的启发式特征选择算法(17,18]。SFS始于一个空的特征子集。在每个迭代中只有一个特征添加到特征子集。确定哪些功能增加,算法初步将一个未经选择的特性添加到候选特征子集和测试分类器建立在初步的准确性特征子集。最后展品最高精度的功能添加到特征子集。迭代过程停止后没有功能可以添加,导致精度的改善。
2.4。度量学习算法
学习良好的距离度量特征空间是至关重要的许多机器学习工作(例如,分类)。很多现有的工作表明,设计恰当的距离度量可以大大提高资讯分类精度比标准的欧氏距离。根据训练样本的可行性,距离度量学习算法可分为两类:监督距离度量距离度量学习和无监督学习。表1显示了几个距离度量学习算法。其中,主成分分析(PCA)是最常用的算法降维的问题这样的大型数据集在人脸识别中的应用19),图像检索(20.]。
2.5。分类
再邻居(资讯)21,26)算法是最简单的机器算法之一。在该算法中,一个对象分类的多数票邻国。因此对象分配给类,其资讯中最为普遍,是一个正整数,通常是小的。如果,然后分配给类的对象仅仅是其最近的邻居。
然而,算法首先实现了通过引入一些符号,被认为是训练集,在哪里是d维特征向量,与观察到的类标签。为简单起见,我们考虑一个二进制分类。我们通常假设所有训练数据iid随机变量的样本与未知分布。
与之前标记样本训练集,然而算法构造一个当地的次区域输入空间的位于估计点。预测区域包含最近的训练点,这是写如下: 在哪里是th顺序统计量的,是距离度量。表示样品的数量,这是标记。然而算法统计为后验概率的估计的观察点: 对于一个给定的观察,这一决定制定评估的值吗并选择最高的类价值 因此,相关的后验概率最大化的决定是受雇于资讯算法。二元分类问题中,然而算法产生决策规则如下:
3所示。实验结果和讨论
3.1。实验
我们工作中使用的图像数据从通用电气医疗集团获得的设备在瑞金医院2010年4月。我们收集了38个胃淋巴结的数据集。数据中有27个淋巴结转移(正面)和11 nonlymph节点转移(负)。所有淋巴结数据后病理结果淋巴结解剖(淋巴切除术)的病人。
3.1.1。单变量分析
在这项研究中,我们通过探索变量进行单变量分析(功能)。我们分析每个特性通过计算其淋巴结转移的相关性。在这里,我们使用下面的测量:(我)双尾学习任务:双尾检验是统计检验中使用的推理,在一个给定的统计假设,H0(零假设),被拒绝当检验统计量的值足够小或足够大。(2)点二列相关系数(): 在方面,符号公式的意思是nondichotomous值与变量编码1,然后呢的意思是non-dichotomous variable-coded 0值相同。是所有non-dichotomous条目的标准差,和是二分variable-coded 1和0的比例,分别。(3)信息增益(IG):搞笑计算熵的特性,-条件熵鉴于, (iv)曲线下面积(AUC)。(v)对称的不确定性(苏)苏:是搞笑的正常化,苏的高价值显示了更高的相关性特征X和类Y(作为衡量之间的相关特性和概念目标)
单变量分析的实验结果如表所示2和3。基于表、Iodine-Water Iodine-Calcium Calcium-Iodine和有效核电荷特性显示高与淋巴结转移的相关性。在这些特性中,高与淋巴结转移的相关性被临床证实Iodine-Water和有效核电荷特性。Iodine-Water和Iodine-Calcium特性反映的浓度碘化造影剂周围组织吸收,因此它们与淋巴结转移有关。Calcium-Iodine特性表明组织钙化,很少存在于淋巴结。然而,实验结果表明,该Calcium-Iodine特性是高度与淋巴结转移有关,必须通过临床结果进一步验证。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
基于统计的结果,AUC,苏和搞笑,而单色能量高,低能耗特性有较高的相关性显示淋巴结转移的临床结果。如图3、低能图像显示淋巴结转移之间的差异(正面)和non-lymph节点转移(负面),单色能源与更高的能量,产生更少的对比材料和更多的对比度较低的能量。然而,低能耗带来更多噪音高对比度图像。因此,医生们通常选择70 keV作为临床诊断的权衡。
(一)原始数据在动脉相
(b)原始数据在静脉相
(c)在动脉相规范化数据
(d)规范化数据在静脉相
3.1.2。SFS-KNN结果
图4和表4现在资讯的分类精度(ACC)算法和不同的邻域大小SFS算法随着长度的特性集,ACC第一长度增大而增大的特性集,然后降低。SFS算法的应用程序后,功能变得更短,而精度就高而原始的特性集,解释了SFS的有效性。从表4与不同的邻域大小,我们可以检查ACC和选择功能。当,性能保持稳定之前和之后的数据标准化,规范化后,ACC达到96.58%,最后选择12(有效核电荷在动脉相),30(静脉有效核电荷的阶段),31 (Calcium-Iodine在静脉相),33 (Iodine-Calcium静脉阶段),和14 (Calcium-Water在动脉相)的特性集。这些选择特性高度相关的分类结果(淋巴结转移)。其中12个(有效核电荷在动脉相),30(静脉有效核电荷的阶段),33 (Iodine-Calcium静脉阶段)特性集符合病理理论和临床经验的医生。至于其他的特性集,需要进一步的研究验证了它们的有效性。然而,SFS-KNN算法不是全局优化的解决方案,它可能导致过度拟合问题,解释ACC的减少。在我们的实验中,样品的数量是不够的,因此,大型社区规模未能反映地方特色的资讯分类器。因此,不是选为最优规模。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
(一)原始数据
(b)规范化数据
3.1.3。mRMR-KNN结果
图5显示了两个特征选择过程与不同mRMR标准。表5和6揭示mRMR-KNN的分类性能进行筛选和中期)与不同的邻域大小(27]。我们可以看到的两个表,这两个标准进行筛选和中期获得几乎相同的性能。归一化后,与所有不同的精度高度增加,从而演示数据规范化的积极影响。特性集,从表中我们可以得出结论,15 (Iodine-Calcium在动脉相),21 (60 keV静脉阶段),30(静脉有效核电荷的阶段),和3 (60 keV在动脉相)淋巴结转移密切相关,而高度赞同病理学理论和临床经验的医生。与之前和之后,分类性能保持稳定正常化,这进一步验证最优(邻域大小)的价值。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
(一)中期
(b)进行筛选
3.1.4。度量学习的结果
图6显示二维可视化结果6个不同距离度量学习方法的验证。在二维投影空间,类是由LDA转换比其他距离度量。然而,资讯与单一的距离度量的结果不是很满意,这就是为什么我们认为组合。
(一)主成分分析
(b) LDA
(c) RCA
(d) LFDA
(e) NCA
(f) LMNN
表7显示资讯算法的分类精度与距离度量学习方法。很明显,这些结果表明,数据标准化有助于很多分类。此外,PCA是一个流行的数据降维算法和运行在一个无人管理的设置不使用的类标签训练数据获得的线性预测。然而,PCA仍然可以有用的属性作为资讯分类的线性预处理。通过结合主成分分析与其他监督距离度量学习方法(例如,LDA, RCA),我们可以得到极大地提高性能。资讯分类的准确性显著依赖于所使用的度量来计算不同样本之间的距离。
|
||||||||||||||||||||||||||||||||||||
3.2。讨论
基于实验结果,机器学习方法的使用可以改善胃癌临床淋巴结转移的准确性。在我们的研究中,我们主要使用资讯分类的算法,效率高。提高效率和分类精度,我们首先采用几个特征选择算法,如mRMR和SFS方法,既显示精度的增加。我们获得了高度相关淋巴结转移的特点符合临床病理学的验证结果。提高精度的另一种方法是使用距离度量学习从一个给定的输入空间数据的相似/不同的点的集合保存训练数据之间的距离关系,和资讯的应用算法的新数据模式。一些方案用于我们的实验的整体精度达到96.33%。
4所示。结论
我们研究的主要贡献是证明机器学习方法的可行性和有效性的计算机辅助诊断(CAD)在胃癌淋巴结转移使用临床GSI数据。在本文中,我们使用一个简单的和经典的算法称为资讯,结合几个特征选择算法和度量学习方法。实验结果表明,我们的方案优于传统诊断方法(例如,欧盟和多层螺旋ct)。
我们的研究的一个限制是临床病例数量不足。因此,在未来的工作中,我们将进行更多的临床实验数据进一步改善方案的效率和探索更有用和强大的CAD在临床的机器学习方法。
确认
这项工作是由中国国家基础研究计划(973计划,没有。2010年cb732506)和国家自然科学基金委(没有。81272746)。
引用
- a . Jemal f·布雷,m . m .中心,j . Ferlay e·沃德·d·福尔曼,“全球癌症统计数据,”CA癌症期刊对临床医师,卷61,不。2、69 - 90年,2011页。视图:出版商的网站|谷歌学术搜索
- “癌症的事实和数字,”美国癌症协会,2012。视图:谷歌学术搜索
- m·h·李,d . Choi和m . w . Lee m . j .公园“胃癌:基础上与多层螺旋ct成像和举办第七届与指南,”腹部成像,37卷,不。4、531 - 540年,2011页。视图:出版商的网站|谷歌学术搜索
- f m . m . Ozmen Ozmen b . Zulfikaroglu”在胃癌淋巴结”,肿瘤外科杂志》,卷98,不。6,476 - 481年,2008页。视图:出版商的网站|谷歌学术搜索
- p . Aurello f . D天使,美国罗西et al .,“从胃癌淋巴结转移:分类对比N-site和时系统。我们的经验和文献回顾美国外科医生,卷73,不。4、359 - 366年,2007页。视图:谷歌学术搜索
- t .船长,n .受伤,美国北野,“胃癌的淋巴结转移,”癌症,3卷,不。2、2141 - 2159年,2011页。视图:出版商的网站|谷歌学术搜索
- 研究所h .齐藤y Fukumoto, t . Osaki et al .,“预后意义转移之间的比例和解剖淋巴结(n比率)在晚期胃癌患者,”肿瘤外科杂志》,卷97,不。2、132 - 135年,2008页。视图:出版商的网站|谷歌学术搜索
- f . Espin a·比安奇s Llorca et al .,“转移性淋巴结比例和数量的转移性淋巴结胃癌的预后因素,”欧洲肿瘤外科杂志》上,38卷,第502 - 497页,2012年。视图:出版商的网站|谷歌学术搜索
- m . Karcaaltincaba和a . Aktas”与经由CT双能CT重新审视:审查原则和临床应用,”诊断和介入放射学,17卷,第194 - 181页,2011年。视图:谷歌学术搜索
- c .严李振国朱,m .严et al .,“价值应用计算机断层扫描在胃癌术前T、N分期:大规模的中国研究中,“肿瘤外科杂志》,卷100,不。3、205 - 214年,2009页。视图:出版商的网站|谷歌学术搜索
- t . Fukuya h .本田、t . Hayashi et al .,“淋巴结转移:功效的检测与螺旋CT在胃癌患者,”放射学,卷197,不。3、705 - 711年,1995页。视图:谷歌学术搜索
- n钱德拉和d . a .兰甘过世,“宝石检测器:通过快速千伏峰值切换双能量成像,”双能量CT在临床实践中,t·f·约翰逊,t . f . C, s . o .勋伯格和m . f . Reiser, Eds。施普林格,柏林,德国,2011年。视图:谷歌学术搜索
- d .张、李x和b·刘”的客观描述通用电气发现CT750高清扫描:宝石光谱成像模式,”医学物理学,38卷,不。3、1178 - 1188年,2011页。视图:出版商的网站|谷歌学术搜索
- f·h·Peng长,c .丁”的基于互信息的特征选择:标准max-dependency, max-relevance, min-redundancy,”IEEE模式分析与机器智能,27卷,不。8,1226 - 1238年,2005页。视图:出版商的网站|谷歌学术搜索
- x y Cai、黄t . l . Hu, l .谢和y,“预测mRMR赖氨酸泛素化的特征选择和分析,“氨基酸,42卷,第1395 - 1387页,2012年。视图:出版商的网站|谷歌学术搜索
- f . Amiri m . r . Yousefi c·卢卡斯,a . Shakery和n . Yazdani”共同对入侵检测系统的信息化特征选择,”网络和计算机应用》杂志上,34卷,不。4、1184 - 1199年,2011页。视图:出版商的网站|谷歌学术搜索
- d . Ververidis和c . Kotropoulos”顺序向前特征选择较低的计算成本,”学报》第八届欧洲信号处理的会议,安塔利亚,土耳其,2005。视图:谷歌学术搜索
- a . l . Wang在l·埃达,“顺序向前选择方法非唯一寡核苷酸探针的选择问题,”第三IAPR学报》国际会议模式识别在生物信息学,第275 - 262页,2008年。视图:谷歌学术搜索
- m, l . Zhang j·杨,d .张“健壮的稀疏编码的人脸识别,”《24日IEEE计算机视觉与模式识别会议(CVPR 11),第632 - 625页,2011年。视图:谷歌学术搜索
- 黄z h·t·沈j .邵鲁格,x周,”当地冷凝:一种新的降维方法的图像检索”学报》第16届ACM国际会议多媒体,08年(毫米)可以,页219 - 228年,2008年10月。视图:出版商的网站|谷歌学术搜索
- 刘洋和荣金”,距离度量学习:一个全面的调查,“技术。代表,计算机科学与工程系,密西根州立大学,2006。视图:谷歌学术搜索
- a . Bar-Hillel t·赫兹:Shental, d . Weinshall“学习使用等价关系,距离函数”20国际会议的程序机器学习2003年8月,页11到18门,。视图:谷歌学术搜索
- j . Goldberger s Roweis、g .辛顿和r . Salakhutdinov“社区成分分析,”会议的程序在神经信息处理系统(捏' 04),2004年。视图:谷歌学术搜索
- m . Sugiyama“降维的多通道带安全标签的数据时由当地fisher判别分析,“机器学习研究杂志》上,8卷,第1061 - 1027页,2007年。视图:谷歌学术搜索
- k问:温伯格和l . k .扫罗,”距离度量学习大利润最近邻分类,“机器学习研究杂志》上,10卷,第244 - 207页,2009年。视图:谷歌学术搜索
- c . m .主教模式识别和机器学习(信息科学和统计)施普林格,纽约,纽约,美国,2007年。
- c .丁和h .彭”,最低冗余特征选择从微阵列基因表达数据,”生物信息学和计算生物学》杂志上,3卷,不。2、185 - 205年,2005页。视图:出版商的网站|谷歌学术搜索
版权
版权©2012(李等。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。