文摘

快速评估的组织切片是现代组织病理学的一个关键问题。乳腺癌的诊断、细胞核的形状和组织架构模式的评价在高和低的放大,分别。在这项研究中,我们关注的发展模式分类评估乳腺癌的图像捕捉系统在低放大率(×10)。六十五个地区的利益选择从60岁乳腺癌组织的图像部分。纹理分析提供30每图像纹理特征。三种不同的模式识别算法是采用(资讯,支持向量机,并通过对图像分类为三个恶性肿瘤等次》。分类器的验证与分析(培训)和交叉验证(测试)模式。平均歧视资讯的效率,支持向量机,并通过分类器在训练模式是接近97%,95%,和97%,分别在测试模式,而平均分类精度达到86%,85%,和90%,分别。评估乳腺癌组织部分可以应用在复杂的大规模图像使用结构特性和模式分类器。该技术提供了一些好处,如速度分析和自动化,有可能取代视觉检查的艰苦的任务。

1。介绍

不包括皮肤癌、乳腺癌是女性最常见的癌症,占将近3美国女性癌症诊断。目前,一个女人生活在美国有12.15%的一生被诊断出患有乳腺癌的风险,而在1970年代这一生风险低于10%。2011年,在美国有超过200000名妇女被诊断为乳腺癌[1),导致40000人死亡。在过去的五年里,乳腺癌的诊断时年龄中位数是60年,和50%的女性患乳腺癌有60岁以下的诊断(2]。绝经后肥胖,使用结合雌激素和黄体酮更年期荷尔蒙,饮酒,缺乏身体活动的一些公认的乳腺癌危险因素美国国家癌症研究所(3]。

而临床评估线索(乳房检查或成像结果)可能强烈提示癌症诊断、乳腺组织切片的显微分析是必要的确诊的乳腺癌和确定癌症原位或入侵。微观分析可以获得通过穿刺活检或手术活检。选择类型的活组织检查是基于个人因素和可用性。大量研究试图提高癌症的诊断,基于细胞图像分析(4]。自1970年代初以来的细胞学自动化一直是主要的生物医学研究领域的应用计算机辅助图像分析。相当大的努力一直致力于细胞图像的分析,特别是在血细胞分析的应用领域(5)和细胞学检查(6]。整个工作和成功的程度限制在很大程度上由于图像本身的简单性,通常包含几个孤立的细胞在一个普通的背景下。与细胞学图像不同,组织显微切片的结构通常是密度比细胞学的一个,因为它反映了整个组织的结构,通常有各种各样令人眼花缭乱的触摸和重叠的细胞。总值的图像噪声通常是和其他结构,使标准技术,如应用细胞学领域的,无效的,因为大部分都是敏感的存在噪音,并且经常局限于细胞的几何外形。此外,细胞核通常出现的边界模糊,模糊过渡的原子核之间的边界和周围背景使得分割过程中一个具有挑战性的任务。

在过去的几十年,先进的图像分析技术和软件应用程序的可用性,主要提供面向更多的理论上的团体在计算机视觉领域,使得组织学图像分析领域的进展更迅速。早期的研究主要集中在图像分析的组织部分阈值对图像分割的应用7]。最近的研究利用获得的知识从低水平分割基于随机过程的开发更高级的算法(8),临时图像过滤器(9)和模式识别技术(10]。当之前关于属性的信息,颜色或几何,移动对象的,监督算法已经应用于图像分类,如人工神经网络、提高方法(例如,演算法(11]),决策树。例如,在[12)方法已经提出了染色体显微图像的分割使用颜色特征。在[13),一组广泛的候选特征被提取,使用颜色分析、模板匹配、纹理分析、频域技术,并为淋巴结表面建模,癌症。没有一组标签样本,无人监督的技术,如模糊c均值(14)和自组织映射(15),已应用到图像区域不同的组织学结构进行分类或识别病变组织切片图像的大小(16,17]。

Kostopoulos et al。18)表明一个重要的评分之间的相关性和雌激素受体状态。等级预测精度是92.8%依靠nuclei-to-nuclei基础分析在高放大(> 400 x),与当前的研究,揭示了分级问题从一个完全不同的角度,即从一个帧到帧结构的角度分析在低的放大(×100)。在另一项研究通过Tuczek et al。19),一个重要的之间的相关性被发现核形态特征(面积、周长、直径)和年级的每个案例 。艾伯特et al。20.)已经开发出一种图像分析系统对核评分将核划分为低,乳腺癌患者的高危人群,与精度分别为88%和83%。除了组织材料,等材料在这项研究中,一直努力预测乳腺肿瘤的年级使用细针吸细胞学(FNA)材料。这样的努力提出了Jeleńet al。21),使用支持向量机模式识别系统,这是优化的预测精度达到了94.24%。另一项研究根据Wolberg et al . (FNA)材料22)报告了97%的准确率使用一个内部10倍交叉验证方法。全面审查有关机器学习方法应用于乳腺癌的诊断可以找到Osareh和Shadgar [23]。

本研究的目的是探讨三种不同的模式识别技术的分类精度的描述乳腺癌组织部分的图像分成不同等级的恶性肿瘤(成绩》)。与大多数其他研究,分析集群基于高放大图像的细胞(18,24,25),我们采用×100放大作为派生一个诊断应用于日常临床实践成绩基于组织切片的架构。在分类之前,几个从每个组织学图像提取纹理特征基于像素相关性的统计分析。每个分类器的性能相比,另一个在推导最优组合图像的特性。最好的分类器能够生成一个总体分类精度接近90%。

本研究的主要区别和附加价值相比与之前类似的研究可以发现如下:(a)帧到帧纹理分析在低的放大(×100)研究与其他研究,关注每一个细胞核形态和结构外观18,19),(b)常规苏木精和伊红染色材料用于对比(FNA)细胞学的材料21,22],(c)预测精度得到使用外部交叉验证的方法,可以用来估计系统的泛化性能未知数据,与内部隐含的方法在其他的研究中,引入偏差分类结果(19,21- - - - - -23]。

2。材料和方法

这项研究被认为是乳腺癌活检的组织样本与苏木精和伊红染色。样本取自Elena的档案部门的病理学Venizelou医院,雅典,希腊。一名有经验的histopathologist检查组织部分描述肿瘤组织学年级(I、II、III)。至少2代表的彩色图像病变从每个样本被抓获。x10放大的图像数字化使用奥林巴斯BX40F光学显微镜配备一个奥林巴斯DP21数码相机。在此基础上放大,结构,建筑,和每个组织样本的纹理都清晰可见。

组织学数据集包括13部分来自同等数量的病人。五 感兴趣的灰度区域(ROI)提取的进一步收集典型诊断领域的每个部分。最终的图像数据集包括65 roi: 20级,20 II级,25个三级。三个组织学类的例子在图所示1

提出了图像分析系统的框图如图2。对于每个ROI,灰度强度通道被认为是进行进一步的处理和分析。从每个ROI, 30纹理特征提取,以设计和评估模式识别系统能够分类ROI,因此乳腺癌病例中,三个组织的成绩。这些特性包括:4一阶统计(平均值、标准差、偏态和峰态),16个二级结构特征的基础上,同现矩阵(26基于运行周期矩阵)和10 (27]。

乳腺癌的分类图像的三个恶性肿瘤的成绩进行使用研究过的三个分类:再(资讯)28),概率神经网络(并)29日),而支持向量机(SVM) [30.]。

特征选择是由的多元方差分析(manova)统计检验31日),以降低数据维数。特性表现出显著差异 进一步包括在模式识别系统的设计。

的组合最好的特性是由雇佣一个详尽的搜索(30.:系统培训和评估使用特征向量包含所有可能的功能组合。每一个分类器的性能是评价采用分析(厕所)方法(30.]。基于这种方法,每个分类器训练一个案例中,这被认为是未知的,分类三个类(即之一。年级》)。

看不见的数据系统的泛化性能评估是基于外部交叉验证(ECV)方法(32],三分之二的图像被用于系统设计(由厕所找到最好的特征组合方法),其余比例为系统评价。

3所示。结果与讨论

1显示了分类精度、局部和整体的分类器和相应的特性集统计特性减少后,详尽的搜索特征选择和分析评估。

歧视资讯分类器的效率,将三个邻居,因为两个二级分类错误的96.9%一级和三级。最佳组合的特性包括SREa(平均短期重点在四个方向),在GLNUa(平均灰度不均匀性在四个方向),和RLNUa RLNUr(平均运行长度不均匀性和远程在四个方向,分别地)。并通过分类器得分95.4%,分类一个二级三级的形象和两个二级三级的图像。对所测试的最佳特性的组合分类器是SREa GLNUa, RLNUa。支持向量机分类器实现最高精度(96.9%)与最小数量的特性,SREa和RLNUa。SVM分类错误的二级形象一级和三级二级的形象。

使用ECV方法,整个数据集随机分成十块(训练集和测试集)来评估分类系统的泛化性能。资讯和SVM精度平均收益率为85.5%和84.7%,分别。并通过分类器实现更高意味着总体标准差较小的准确性 。表2显示了局部和总体分类精度在10分裂的数据集和特征参与最好的特征组合的数量。

数据3(一个),3 (b),3 (c)显示框块行为,GLNU和RLNU特性的三个组织的成绩。短期重点(行为)编码核的存在和坏死。核和坏死出现时小和同质结构低放大倍数的设置工作。随着组织学分级的增加,都是需要更大的价值,因为细胞结构倾向于生长和多核出现在同一个地方。灰度不均匀性(GLNU)是衡量结构非均匀性的形象,需要更高的价值当图像中各种结构出现相似的灰色的水平。结构如肺泡结构,主要在组织学评分较低,在低放大条件下清晰可见区域与同质灰色的水平。因此,在目前的工作中,GLNU较大的值在低组织学的成绩。运行长度不均匀性(RLNU)是另一个衡量图像内的结构不均匀性,结构时,需要高值与运行存在的不均匀分布。在目前的研究中,使用低放大率,RLNU编码信息结构如坏死、炎症和条纹。这些结构是主要发生在组织学分级的增加,以及这些结构的存在RLNU更高的价值了。

良好的可分性低的组织学分级图像主要是由于这样的事实:这些图像含有丰富的多个肺泡和缺乏坏死,细胞结构,和炎症主要在高等组织学分级图像。之前的差异引发重大变化之间的图像纹理低,优质的情况下。这个材质变更被选择和结构特征可能解释我班的良好的可分性。

一般来说,小数据集的大小可能会引入偏差在一个分类系统的培训阶段,这是原因,为什么使用外部交叉验证方法。外部交叉验证适用于当样本量相对较小,使一个公平的系统的泛化性能估计未知数据。

4所示。结论

在这项研究中,确定乳腺癌组织学分级的问题组织部分基于模式分类和图像分析算法进行了研究。本研究工作的主要贡献的需求开发,传出一个健壮的组织学分级分类方法使用组织切片图像的放大倍数低。image-derived的就业结构特性描述灰度像素的空间相关性的图像被证明是一种很有前途的方法量化体系结构模式的病变,因此,识别的程度的恶性肿瘤(即。年级)的病变。图像分析和模式识别方法之前提出了乳腺癌的组织病理学分类图片,但一直相当关注结构,形态和/或建筑特征提取细胞核(16- - - - - -20.]。这些特性通常可以在×40放大。在这项研究中,较低的放大图像(×10)故意使用为了调查是否包含其他重要结构,如坏死、淋巴细胞,炎症,和腺病,可以提供有价值的信息关于恶性肿瘤的程度,基于图像分析的框架。选择了纹理特征,结合模式分类系统,为有前景的结果提供了大约90%的意思是看不见的数据分类精度不同的恶性肿瘤的成绩。未来的扩展本研究的目标是对调查相结合的特征提取和模式分类方法对乳腺癌影像在低和高的放大,以评估潜在的改善分类精度和获得更全面的描述肿瘤的恶性肿瘤。

确认

以下确认问题的工作s Kostopoulos d . Glotsos, d . Cavouras。这项研究已经被欧盟共同筹资(欧洲社会Fund-ESF)和希腊国家基金通过操作程序的“教育和终身学习”国家战略参考框架(NSRF)研究资助计划:阿基米德三世,通过欧洲社会基金投资于知识社会。