文摘

乳房x光检查通常存储的参数之一是BI-RADS密度,使乳房组织组成的一个想法。在这项工作中,我们研究BI-RADS密度的影响在我们的正在进行的项目,开发一个基于图像的CAD系统在乳房x光成像检测质量。该系统由两个阶段组成。首先,盲目进行特征提取感兴趣的区域(roi),利用独立分量分析(ICA)。接下来,在第二阶段,这些特性形成分类器的输入向量,神经网络、支持向量机分类器。训练和测试我们的系统中,数字扫描(DDSM)使用。获得的结果显示,最大的变化在我们的系统的性能考虑只有原型来自乳房x光检查的具体价值密度(培训和测试)约为7%,收益最好的密度值等于1,和最坏的密度等于4,这两个分类器。最后,与整体(即结果。,using prototypes from mammograms with all the possible values of densities), we obtained a difference in performance that is only 2% lower than the maximum, also for both classifiers.

1。介绍

有几个因素会影响乳房组织的成分。乳腺腺的增加或减少是正常的生理变化,发生在乳腺癌和同时通常发生在两个乳房。这些变化可能是由于荷尔蒙的波动(天然或合成)包括月经初潮,怀孕,哺乳,或更年期。增加glandularity还取决于女人的遗传倾向。在年轻女性,通常情况下,乳房主要由腺组织和脂肪很少。虽然这篇作文要取决于年龄,可以发现老女人非常致密的乳房,也就是说,通常由腺组织和不胖。体重增加或损失也增加或减少乳房的脂肪含量,因此也会影响乳房glandularity [1]。

乳房组织的构成是BI-RADS定义的参数称为“密度”(2),有四个可能的值(1 - 4)中解释表1

分析乳房x光检查的难度取决于乳房组织的性质,可以看到在图1。在这两个乳房x光检查,在每一个不同性质的组织主要是清晰可辨。可以看到,很容易定位病变在左边的图,它对应于一个71岁的老太太,密度等于1,而它更难以分析和定位病变在右边的乳房x光检查,对应关系女人密度等于4。这个例子表明,密度可能是一个因素限制的灵敏度可以达到在分析乳房x光检查(放射科医生或CAD系统)。几个分析可以发现显示,绝大多数的癌症病例丢弃在检查乳房x光检查对应于乳腺密度(密度等于3或4)[3- - - - - -5]。我们还可以找到在文学作品中6),BI-RADS密度对CAD系统的影响进行了研究,特别是对SecondLook CAD系统(4.0版)由公司iCAD。最后,还有一些其他的研究如(7],将该参数的发展所提供的资料他们在乳房x光成像的算法来检测质量。在这项工作中,我们研究了BI-RADS密度影响我们的质量检测系统,它由两个阶段。在第一个,一个盲人在roi进行特征提取,利用ICA的主要技术。接下来,在第二阶段,使用这些特征作为输入的神经分类器确定ROI包括质量。系统详细描述在接下来的两个部分。

我们的论文的其余部分组织如下。部分2描述的一般方法用于生成原型,特征提取,分类。接下来,节3包括系统结构的描述和操作,以及实验的设计。节4最重要的结果描述,而部分5介绍了主要结论的工作。

2。方法

在本节中,我们提出本研究中使用的技术的生成和选择原型,为特征提取的任务,和分类。我们将审查这些方法下面。

2.1。数据和创建原型

在文献中,我们可以找到各种建议关注群众在乳房x光成像的检测和分割,如了(8),但通常很难比较不同研究的结果处理质量的检测和诊断。最主要的问题是使用专有的数据库体积小,或者,如果使用一个公共数据库,选择的使用,未指明的情况。Horsch [9]分析最近的研究在乳房x光检查CAD和得出结论,针对观察变化的数据集使用,目前唯一的乳房x光检查数据库,是公众和足够大,允许有意义的和可再生的评价CAD系统是数字扫描(DDSM) [10]。

DDSM是乳腺图像分析研究社区和可用资源包含病例总数为2620例。每个案例提供了四个筛选视图:中间外侧的斜(枣疯病)和身高(CC)的预测左和右乳房。因此,数据库共有10480张图片。病例分类在四大组:正常的,癌症,良性的,良性没有回调。DDSM所有病例被报道通过有经验的放射科医生提供各种BI-RADS参数(密度、评估和微妙),病理BI-RADS异常描述和证明。为每个异常识别(包括质量),放射科医生画自由形式的数字曲线定义地面实况地区。我们认为这些区域定义平方”地区的利益”(roi)将被用作原型的质量。除了前面的数据,每个DDSM例包括一些附加信息,如病人年龄、研究中,日期和数字化或数字化仪的品牌,虽然我们没有使用过这个工作。

DDSM数据库包含2582张图片,包含一个异常确定为质量,是良性的还是恶性的。有的位于边境的乳房x光检查,不能使用(参见下面的段落,致力于roi)。因此,只有2324原型可以考虑,即那些可能被集中在一个没有拉伸的广场。一些大规模的原型的例子在图所示2

感兴趣的区域。地面实况区域异常是由链中定义的数据库代码生成一个免费的手封闭曲线。我们使用链码来确定最小的正方形的乳房x光检查,包括手动定义的区域。因此,如果质量是附近的一边乳房x光检查,这个过程可能无法获得一个平方的地区形象,和质量是丢弃的一个有效的原型。图3显示了一个示例的地面实况地区编码放射科医生(实线)和区域作为ROI(紫色框)。另一方面,正常组织的原型是随机选择从正常的乳房x光片。这个最初被发现与正常组织原型尺寸随机从最小到最大大小DDSM中发现的质量。

生成的地区有不同的大小,但所选图像特征提取器需要操作区域大小相同,所以我们需要减少所选地区常见的大小尺寸。roi的减少大量恶性肿瘤常见的大小表明保存信息(11- - - - - -13]。确定最优区域大小,我们考虑了两种尺寸的实验: , 像素。调整的过程中进行了使用双线性插值算法提供的OpenCV图书馆(14]。

2.2。特征提取

正如我们以上评论,我们用独立分量分析(ICA) [15盲目的特征提取方法。方法的目标是获得一个适当的功能基础上,来自原型ROI(包括质量和正常组织),这样我们就可以代表每个ROI的结构和特点在此基础上从乳房图片作为扩张(图4),这种膨胀系数( )分类器的输入向量(即。描述roi的“特征”)。

我们的附加值的方法,与其他方法相比,使用一些通用的功能,是我们的基础应该更具体的问题,因为它是获得使用选择的图像分类。

独立成分分析。独立分量分析(ICA)定义了一个观察到的多元数据的生成模型,通常作为一个示例数据库。在这个模型中,假定数据是一些未知的潜在变量的线性组合,组合的系统也是未知的。假设非高斯和相互独立的变量,和他们被称为独立观测数据的组件。这些独立的组件,也称为来源或因素,可以由ICA。ICA与主成分分析(PCA) (16]以来,应用ICA方法本身之前,建议降维或特征提取的原始输入向量,可以使用主成分分析来完成。ICA分析的数据可以来自许多不同类型的领域包括数字图像。在很多情况下,数据来自一组并行信号或时间序列,在这种情况下,使用术语“盲源分离(BSS)来定义这些问题。

从这个意义上说,如果我们假设n信号,目标是扩大信号由传感器(注册 )的线性组合n来源( ),原则上不为人知的如下: ICA的目标是估计混合矩阵 ,除了来源 。一个可以使用这个组件以来的特征提取技术 可以被看作是代表对象的特征(模式)15]。

2.3。分类算法

在我们的系统中,分类算法学习的任务数据。过分复杂的模型通常会导致糟糕的结果。建议使用至少两个独立的集学习过程的模式:一个培训,另一个用于测试。在目前的工作中,我们使用三个独立的模式:一个用于培训,避免过度训练(验证集),另一个用于测试(17]。的分类,我们使用多层感知器(MLP) [18和支持向量机分类器19]。我们选择这两个技巧,因为他们是广泛应用于乳腺癌的分类和检测,我们可以看到在作品中列出的一些评论9)和(20.]。另外,做更严格的研究5所示(21],我们可以测试与其他技术和其它质量指标也广泛用于分类和回归问题,尽管他们可能不是在工作上发现乳腺癌的检测和分类。

2.3.1。神经网络

我们实现延时一个隐藏层,和误差反向传播算法的变种,称为弹性反向传播(Rprop) [22调整权重。最后一个是当地自适应学习计划执行监督batch-learning多层感知器,收敛速度比标准的BP算法。Rprop的基本原则是消除负面影响的偏导数的大小在更新过程。因此,只有导数的符号是表示重量的方向更新(22]。斯图加特神经网络模拟器环境的函数库(23)是用于生成和训练神经网络分类器。在训练过程中避免局部最小值,每个设置重复了四次,随机网络的初始权值的变化。此外,隐层神经元的数量被允许50 50到650之间的不同步骤。

2.3.2。支持向量机

与中长期规划,使用支持向量机的目标是找到一个模型(基于训练原型)是能够预测的类成员测试子集的原型基于价值特征。给定一个标记训练集的形式 , 在哪里 ,支持向量机算法需要解决如下优化问题:

在这个算法中,训练向量 比原来的投射到一个更高维的空间。这个空间的成品尺寸取决于输入空间的复杂性。然后SVM发现线性分离超平面的最大(因此最佳)保证金的类之间的分离在这个高维空间。

在模型中, ( )是一个正规化或惩罚参数控制错误, 是最后的投影空间的维度, 是正常的超平面(也称为权重向量),然后呢 是偏见。的参数 介绍了允许算法一定程度的灵活性在数据拟合,然后呢 是一个内核函数输入数据投射到高维空间。我们使用了LibSVM [24]图书馆用径向基函数(RBF): )作为核函数。找到最优的配置参数的算法, 被允许不同 在步骤0.5的指数,惩罚参数 之间的 在步骤0.5的指数。

3所示。过程的概述

在本节中,我们概述我们的系统结构,描述了主要步骤需要配置系统的原型进行区别对待群众正常乳腺组织的原型。

3.1。系统描述

我们概述系统的结构,描述了配置系统所需的主要步骤是为了区分roi相应从roi质量相应的正常组织。此外,我们将设计的实验来确定这些分类器的性能是影响乳腺密度,与每一个乳房x光检查相关联,因此,每个ROI)。

更多的图形形式的主要方案,总结了各个阶段的工作在图表示5。在第一阶段,得到了群众的原型在节中已经解释过2。1。然后FastICA算法(25,26)应用于获得ICA (ICA)特征提取器),基础的日志cosh函数被用来近似neg-entropy。这些基地生成不同的配置,不同数量的组件,并使用不同尺寸的样品。第二阶段使用这个生成的基础上获得的训练集和训练并测试分类器。最后,在第三阶段,测试子集,包含输入向量中未使用的优化分类器,用于提供系统的性能结果。

3.2。系统优化

确定系统的最优配置,各种ICA基地来提取生成不同数量的特性(从10到65的步骤5)从原来的补丁,和操作在不同大小的补丁上面所提到的( 像素)。

训练过程包括两个阶段首先训练神经网络分类器,然后SVM分类器。结果因此获得测试子集在10倍交叉验证方案如图所示6。这使得我们找到最优特征提取器的配置。

所做的研究共有5052原型:1197年的恶性,良性的质量,和2722年的1133的正常组织。

我们发现最优(ica特征提取器配置为一个神经网络分类器特征提取器,操作的原型 像素,提取10组件(成功率86.33%),以及一个支持向量机分类器是一个功能器操作的原型 像素,提取15组件(成功率88.41%)。结果将在下一节中获得使用这些最佳配置。

3.3。实验

每个乳房x光检查来确定相关的密度(每个ROI),因此会影响系统的性能,我们进行了五个实验。在每个实验中我们做了相同的测试,但是有不同的原型:首先用所有可用的原型(一个实验),然后与原型来自乳房x光检查给定密度(四个实验)的价值。

对于每一个实验的,30倍交叉验证计划使用。在这个过程中,30岁的分区数据集随机生成,以及迭代,一个分区是预留给测试,其余29用于训练和验证培训和为20%(80%的原型验证)。因此我们有30性能值,可以统计研究。

最后,分析性能和比较结果,ROC曲线(27每个实验)已经生成。为此,阈值应用于分类器的输出神经元(为了确定原型分类质量或正常组织)横扫,和真和假阳性的比率计算。性能参数,使用“曲线下面积(AUC)。

关于原型,表2显示的平均数量”正常乳腺组织,”“良性的质量,”和“恶性质量”原型为每个子集(培训、验证和测试),并计算了30“训练的分类器”在30倍交叉验证方案。这些平均值显示整体实验,以及实验与给定值的密度。原型在选择的过程中,没有考虑拍摄的病理。但是,可以看到,这个选择过程收益率总是平衡分布意味着每个子集的原型。平均约73%的恶性原型包括训练集,验证集的23%,3%在测试集。良性的原型中,73%左右是包含在训练集,验证集的23%,3%在测试集。最后,在正常的原型,大约73%被包含在训练集,验证集的23%,3%在测试集。因此,如果我们只考虑总体数据,似乎没有明显的趋势表明,原型中选择任何范围的密度有或多或少被质量或正常组织的可能性。但是,当我们分析特定的密度值,数量差异是观察每个类的原型可能是重要的。

在图7可以看出,恶性和良性的群众原型的原型是完全不同于正常组织的原型的数量在某些情况下。密度值等于3,这个和总是明显低于正常组织原型的数量。例如,在训练子集之和等于475.2和正常组织原型的数量等于559.6。因此,有15%的差异。此外,这种差异更显著的密度值等于4,,对于训练子集,恶性和良性的质量之和等于187.2和正常组织原型的数量是432.9,,因此,等于57%的差异。相比之下,对于密度值等于1和2这些差异只是只有3%和4%,分别有利于大规模原型的数量。

4所示。结果

正如我们上面提到的,我们的主要兴趣在本文提出的评估依赖我们的系统与乳房组织的组成,由BI-RADS密度参数。在这项研究中,我们考虑了所有这些原型的群众DDSM广场的形状可以通过确定获得最小平方地区,包括完整的区域,放射科医生,,总是没有调整。正如我们之前说的,原型的分布如表所示2并在图7。我们必须指出,每个类的相对数量的原型非常不同取决于密度值。特别是,密度值4,质量之间的区别(恶性和良性)原型和正常组织原型高达57%。这是一个巨大的障碍的训练分类器,如下我们解释。

确定密度参数的影响在我们的系统的性能,我们首先应用一个30倍交叉验证方案培训和测试系统的成套5052原型。接下来,ROC分析在每个30测试结果,计算曲线下面积(AUC)作为参数来描述每个测试集性能。最后,30 AUC的平均值确定,给一个参数描述与原型系统的总体性能。

这个方案后来反复考虑的模型只包含一个给定值的密度参数,为了比较结果。这些研究的结果发表在表3。总体结果呈现在图8这两个分类器,和例密度等于1和4在图9神经网络分类器和图10支持向量机分类器。

正如我们所料,最好的结果一个密度值等于1(几乎很少脂肪乳与乳房组织,通常对应于老妇人),和最坏的结果密度4(非常致密的乳房,乳房组织,通常对应于年轻女性)。这些结果是一致的与其他研究的本质所丢弃的癌症病例放射科医生在更大比例3- - - - - -5]。

除此之外,重要的是评论,有非常不同的发行版的原型不同的密度值。而对于密度为1的数量几乎相同的质量和正常组织原型(3%的差异有利于质量原型)的数量,第四密度的区别是非常重要的(57%有利于正常组织原型的数量)。这种差异数量的原型的每个类引入了统计偏差可能影响分类器的训练。

5。结论

在这项工作中,我们研究了BI-RADS密度的影响参数分配给一个乳房x光检查在我们的系统的性能。结果,我们得出结论,性能参数的影响,因为ROC曲线的AUC减少从0.965到0.892(−7.56%)神经网络分类器和0.964到0.897(−6.95%)对支持向量机分类器,当我们从密度密度1到4。然而,考虑到第四密度的乳房x线照片更难以分析比密度1(密度4意味着非常致密的乳房,乳房组织,所以很难找到,而密度1意味着很少的乳房组织存在),也考虑在训练的困难由于不同数量的原型两类,我们可以得出结论,我们的系统是相当健壮和执行很好即使在最糟糕的情况。

除此之外,重要的是,AUC为全球的原型仅为2.28%和2.07%,分别对神经网络和支持向量机分类器,低于性能实现密度1,这是最有利的情况下,系统的性能与整体设置是可以接受的。

最后,随着样本数量的子集的原型与密度等于2和3是显著高于密度等于1和4的子集,我们得出这样的结论:性能由于BI-RADS密度的变化我们的系统在这两种情况下仅限于约7%。

另一方面,它值得评论的平等与两种类型的分类器性能得到测试。

利益冲突

作者宣称没有利益冲突。

作者的贡献

a·G。-Manso发达预处理系统(选择和收购roi,和获得ICA基地),集成全球系统,进行了实验,获取和分析结果,并起草。c·j·G。奥雷利亚纳发达的神经网络分类器的训练算法,帮助适应和调整的硬件模拟(两个Beowulf集群45和48个节点,分别地),一起适应软件运行的集群。r·G。卡巴雷若发达与实验相关的数据库。h·m·G。velasco负责装配和调优的集群。M . M。-Macias开发训练支持向量机分类器的算法。

确认

这部分工作是支持“军政府德埃斯特雷马杜拉”,通过项目PRI08A092菲德尔,PDT09A036 GR10018, PDT09A005。