文摘

本文探讨了减少功能属性的独立分量分析(ICA)在乳腺癌的决策支持系统。威斯康辛州诊断乳腺癌(WDBC)数据集是简化为一维特征向量计算一个独立的组件(IC)。原始数据与30特性和减少一个特性(IC)是用来评估诊断等分类的准确性k最近的邻居(k神经网络)、人工神经网络(ANN),径向基函数神经网络(时滞)大小,和支持向量机(SVM)。比较建议的分类使用IC和原始特性集还测试了在不同的验证(5/10-fold交叉验证)和分区(20% - -40%)的方法。这些分类器评价如何有效地分类为良性和恶性肿瘤的特异性、灵敏度、准确性,F得分,Youden指数、判别能力和接受者操作特征(ROC)曲线的准则值包括曲线下面积(AUC)和95%机密间隔(CI)。这是改善诊断决策支持系统,同时降低计算复杂度。

1。介绍

乳腺癌是所有癌症死亡的主要原因之一为女性(1]。癌症的早期发现和正确的诊断疾病的治疗至关重要。然而,传统的癌症诊断方法高度取决于医生的经验和他们的视觉检查。自然,人类可以犯错误由于其局限性。人类可以轻易识别模式。然而,他们失败时必须分配给观测概率(2]。尽管一些测试应用,准确诊断专家甚至可能是困难的。这就是为什么自动诊断乳腺癌的研究,许多研究人员。计算机辅助诊断工具旨在帮助医生为了提高诊断的准确性(3- - - - - -5]。

进行了一项研究来证明机器学习可以提高诊断的准确性。Brause的工作,结果表明,最有经验的医生可以诊断准确率达到了79.97%,而91.1%的帮助下正确的诊断是实现机器学习(6]。

肿瘤分为良性和恶性的。良性肿瘤不会癌变或危及生命。然而,这些会增加患乳腺癌的风险。恶性肿瘤比良性肿瘤癌变和更令人担忧。虽然重要的研究进行早期检测,大约20%的女性死于这种疾病的恶性肿瘤(7]。

为了提高母乳质量分类精度为良性和恶性,利用bp人工神经网络(ANN)的性能是评价(8]。此外,快的学习速度和径向基函数神经网络的泛化能力(时滞)大小显示,钙化灶出色的精度检测任务(9,10]。时滞是大小结构简单的优点,与非线性函数逼近性能好,收敛速度快。因此,它已广泛应用于模式识别和系统建模11,12]。另一方面,时滞增加大小的结构网络的输入维数增加时。此外,输入无关的组件将减少时滞(大小的泛化性能13]。

支持向量机(SVM)是一种有效的统计学习方法分类(14]。支持向量机是基于发现最优超平面分离不同的类将输入数据映射到高维特征空间。支持向量机快速训练技术的优势,即使有大量的输入数据(15,16]。因此它已经被用于许多识别问题,如目标识别和人脸检测17- - - - - -19]。

主成分分析(PCA)是一种技术来减少维度使用二阶统计信息(20.]。独立分量分析(ICA)是最近开发方法在模式识别和信号处理领域(21,22]。它涉及高阶统计提取独立的组件,包括比PCA更丰富的信息。培训之前ICA可以用来降低维数 nn,安,时滞,大小和支持向量机。因此可以减少分类器的复杂性;收敛速度和性能可以增加(13,23]。

该研究的目的是分析特性的影响减少使用ICA分类肿瘤是良性或恶性。因此,WDBC数据集的维数减少到只有一个使用ICA特征。减少数据分为训练数据测试和使用5/10-fold交叉验证和20%分区评价的性能 - - - - - -NN,安,时滞,大小和支持向量机。性能措施,包括准确性、特异性、敏感性, 分数、Youden指数和判别能力计算和接受者操作特征(ROC)曲线绘制比较分类器。部分2总结了数据集的背景知识,ICA, 神经网络,安,时滞,大小SVM和性能的措施。节3,本研究中部署的方法。在部分45给出了实验结果和讨论。最后是结论部分6

2。材料和方法

2.1。数据集信息

WBDC数据集包括569个实例与类的分布357个良性和212年恶性。每个样本包含ID号、诊断(B =良性,M =恶性),和30的特性。功能已经从数字化图像计算的细针吸(FNA)乳房质量如图1

十个实值特性表中给出1计算每一个细胞核,意思是,标准误差,和“坏”或最大的(意思是最大的三个值)这些特性计算每个图像,导致30特性(24]。

2.2。独立分量分析

ICA的基本模型如下。假设观察到两个独立的分布式源信号的线性组合。观察到的信号可以写成: 在哪里 是一个向量,由源信号, 是一个未知的混合矩阵组成的常量元素,然后呢 是一个向量的观测值。未知的混合矩阵, ,使用ICA估计,然后分离矩阵 计算的倒数是哪一个 。可以发现的原始信号 独立组件的计算(ICs)始于定心数据通过删除变量的平均值,如主成分分析(PCA)。美白,也称为球面数据,是下一步。数据已被增白(PCA)无关。另一方面,所有变量的方差。PCA可用于这两个计算,因为它decorrelates数据和提供信息的方差decorrelated数据在特征向量的形式25]。ICs决心通过将一个线性变换应用到不相关的数据: 在哪里 独立的组件和吗 是向量重建ic。有很多不同的方法来估计 使用一个目标函数与变量的独立性。在这项研究中,FASTICA算法被用来计算ICs,由于其灵活性和交互模式(26]。

2.3。人工神经网络

前馈神经网络(FFNN)是最受欢迎的ANN结构由于其简单性在数学分析和良好的表征能力27,28]。FFNN已被成功地用于各种应用程序,如控制、信号处理和模式分类。FFNN架构图所示2

输入模式和状态的数量 州在隐层神经元的数目。隐层神经元收到先前的加权输入层和输出转移到下一层神经元在FFNN,可以被描述为这些计算 在哪里 是偏见, 每个输入神经元的重量, 输入神经元, 由加权求和的输入, 是系统的输出, 表示非线性激活函数, 是观察到的神经网络输出值, 结果是输出值之间的误差和网络(29日]。

时滞也大小由前馈与三层架构,但是隐藏层大多采用高斯函数和被称为径向基层。每个神经元由径向基函数(RBF)集中在一个点。培训中心和利差计算。一个隐藏的神经元计算输入向量的欧氏距离和测试用例从神经元的中心点。因此,它将RBF核函数应用到传播使用的距离值。

2.4。支持向量机(SVM)

支持向量机是一种监督学习算法研究了数据分类和回归。这是波沙等人提出的。30.]和Vapnik [31日]。支持向量机算法用于寻找一个超平面,把类训练误差最小化和最大化利润为了增加发电能力。

当数据集是线性可分的,可以使用线性支持向量机算法对它们进行分类。该算法试图最大化利润。支持向量的点躺在如图的利润率3

超平面的判别函数可以由以下方程描述: 在哪里 描述数据点, 是一个系数向量, 显示抵消从原点。线性支持向量机 最接近点的一个类, 最接近点属于另一个类。保证金( )应该为更好的泛化能力最大化最小化代价函数如下: 表示类标签。

这是一个二次优化的任务对一组线性不等式约束。从Karush-Kuhn-Tucker(马)条件下的拉格朗日函数发现的 在哪里 拉格朗日乘数法, 必须最小化找到最优 b。优化方程可以写成 支持向量机的其他用法是,它可以解决非线性分类问题通过核函数的技巧。内核函数将数据点映射到一个高维空间,以构造一个超平面分离的类。这个新发现的判别函数 在哪里 代表输入向量的映射到内核空间 。因此,优化方程可以写成: 在哪里 是内核函数等于 。内核函数可以径向基函数(RBF),或任何对称多项式函数满足Mercel条件(32]。

2.5。性能的措施

有几种方法来评估分类器的性能。混淆矩阵保持正确的和不正确的分类结果来衡量分类器的质量。表2显示了二进制的混淆矩阵分类、TP、TN、FP, FN表示真阳性,真正的负面,假阳性和假阴性数量分别。

最常见的实证测量评估有效性是分类器的精度和计算 灵敏度的措施的实际比例那些正确识别并特异性采取积极措施正确识别底片的比例。这些都是由 分数是衡量测试精度。它认为精度和召回来计算。这些都是计算 在哪里 是偏见, 分数是平衡的,当 。时喜欢回忆 和支持精度。

其他两项措施用于分析在医学诊断分类器的性能判别能力(DP)和Youden指数。DP评估分类器如何区分正负样本: 在哪里 结果可以概括如下: “可怜的判别,” 然后“有限的判别,” 然后“公平判别”和其他情况下“好判别。“Youden指数评估分类器避免失败的能力(33),被描述为 Youden指数用于衡量总结接受者操作特征(ROC)曲线。的诊断性能测试或评估分类器区分病变的病例和正常情况下使用ROC曲线分析(34]。

在这项研究中,尝试评估分类器的性能计算上述措施5/10-fold交叉验证(CV)和20%的数据分区。5-CV或10-CV,数据分为5或10子集,每个子集是顺序作为测试数据,而另一些则部署部署为trainig数据。因此5或10迭代过程是评估来确定分类模型的区分能力。数据分区比简历更简单、更可靠的方法。在我们的模拟,一次20%的数据是随机选择测试数据,另一个样品用于培训。

3所示。方法

在这项研究中,最初的30 WDBC特征数据和减少使用ICA部署一个特性来评估分类器性能对乳腺癌的决定。因此,该模型如图4有30的特性和应用于WDBC数据569个实例(病人)被用来训练和测试模型。

首先,数据的维数降低使用ICA和划分为次级样本使用5/10-CV和20%分区评价分类器。顺序已使用次级样本训练和测试安,时滞,大小和支持向量机 - - - - - -神经网络。分类器的输出被评估发现性能的措施。

首先,ICA用于计算ICs。自第一集成电路有明显大的特征值在图5,它已经被选为一个特征向量。

换句话说,一个集成电路能够成功识别三十特征保留的非零特征值的98.205%。此外,集成电路的分布在图给出6表明其分辨能力。

数据分为子集使用5/10-CV和20%分区测试和训练分类器。培训过程后,测试数据是用来评估诊断分类器的性能方面的敏感性,特异性、准确性, 分数,Youden指数、DP和ROC曲线。

培训过程中, 神经网络分类器,一维欧几里得距离, 测试与训练样本(35]。的结果 神经网络分类器得到的 值从1到25,然后是性能最好的措施 值存储。安被选中作为前馈神经网络的模型与一个隐藏层。隐层神经元的数量是按顺序找到最大精度增加。此外,网络的隐层的激活函数已经被选为log-sigmoid传递函数。为了训练网络,与动量梯度下降法和自适应学习速率反向传播算法。时滞也评估大小不同的传播价值( )。SVM、线性、二次和RBF内核用于探索哪种类型的分离超平面更适合乳腺癌分类。

4所示。结果

一维特征向量WDBC数据减少使用ICA用于训练和测试分类器。的准确性、敏感性和特异性的一个维度使用5/10的简历执行技术和20%的数据作为测试数据。同时,乳腺癌分类的成功通常是评估的基础上的灵敏度值,因为分类恶性质量比良性的质量更重要。

的准确性 - - - - - -神经网络分类器已经计算了不同 值1到25之间。比较图的ICA对精度的影响 神经网络分类器如图7

时的最大精度结果与30特性是96.49%,20%的测试数据 。然而,减少一个特征向量使用ICA提供92.98%的准确性 和20%的测试数据被选中。此外,的准确性 神经网络分类器(30特性)的93.15%,下降至91.04%(1由ICA特征)当10-CV用于测试和培训。

准确性安图已经绘制不同的隐层神经元数量10/5-CV和20%的测试数据。的准确性图安图中给出了分类器8

ANN分类器几乎完美的精度值为99.12%(神经元的数量是4)当原始30特性和20%选择测试数据。ICA的影响减少到一个特点是精度值更改为91.23%,神经元数量是9。此外,精度值改变了使用10-CV从97.54%降至90.51%。

传播价值的0到60之间的时滞调整大小测试数据比和10/5-CV最大精度为20%。RBFN的准确性图如图9

指的准确性图时滞,大小最大精度,获得95.12%,传播价值48 20%测试数据。这个值是下降到90.35%时减少了ICA的一维特征向量。然而,当使用10-CV, ICA的影响增加了精度从87.18%(30功能)到90.49%(1功能减少了ICA)。

精度评价包括线性支持向量机计算了内核函数,多项式和RBF核函数参数,如RBF内核和RBFσ值多项式多项式的次数内核。支持向量机分类器的精度图呈现在图10多项式的轴度表明线性内核时,其值等于1。

一般来说,支持向量机分类器对线性内核提供了更精确的结果比多项式和RBF内核。其准确性98.25% 30特性和90.35%减少1功能当20%的数据作为测试数据。与多项式内核,ICA的增加与RBF核函数支持向量机的精度从89.47%(30特性)到91.23%(1功能)。10-CV使用时,精度从97.54%下降(30特性,线性内核)和95.25%(30特性,RBF内核)为90.33%和90.86%(减少1由ICA特征)。

nn,安,时滞,大小和支持向量机测试和训练来找出最大精度调整参数。性能措施如准确性、特异性、敏感性, 分数、Youden指数和判别分类器的力量相互比较。分类器的参数选择提供最大的精确度要比其他分类器。除了这些性能的措施,ROC曲线的三个分类器密谋提高视像的比较。

10-CV和一维特征向量减少ICA用于比较分类器的性能。在分类器的输入数据,原始类标签的测试数据比较发现TP, TN, FP和FN值。这些值给出了分类器的形式混淆矩阵表3

时滞分类使用30原始特性提供了性能比大小降低一维特征向量;参考表3。其他分类使用30功能略高于真实值相比,分类与特性减少了ICA。

性能的措施 nn,安,时滞,大小和SVM分类器如灵敏度、特异性、准确性, 分数、判别能力(DP)和Youden的索引表4比较ICA对分类的影响。

判别能力评估分类器如何区分正负样本。DP与原有30安和SVM特性不同于3这意味着良好的判别。当ICA用于减少维度,DP落在2.769(支持向量机)和2.655(安)。换句话说,判别公平。

Youden更高价值的指数显示更好的避免失败的能力。 神经网络结果Youden指数的最高价值;参考表4。Youden指数是用来绘制ROC曲线的分类器。真阳性率(灵敏度)绘制功能的假阳性率( )截止点ROC曲线。中华民国曲线可以用来计算ROC曲线下面积(AUC)和95%可信区间(CI)。AUC = 1时,所有测试数据分配给真正的类标签。更高AUC表明ROC曲线的精度95%可信区间是另一个指标,可以用来测试分类器是否能区分的类。如果它的值不是0.5,这意味着分类器可以区分类。中华民国曲线的 - - - - - -NN,安,时滞,大小和SVM分类器使用一维特征向量减少ICA和30特性呈现在图11

的准则值给出了分类器的ROC曲线表5。AUC的安(0.966)和支持向量机(0.949)导致更高的价值当30使用原始特性。然而,当分类与1功能减少了ICA是评估, 神经网络(0.897)和支持向量机(0.885)导致更高的AUC。它的意思是 - - - - - -神经网络和支持向量机分类器使用了一个特征区分样本更正确。

5显示的准确性 - - - - - -神经网络的准确性(91.03%)比安,时滞,大小和SVM(90.50%、90.49%和90.86%)。一般来说,一个特性减少了ICA的准确性降低 神经网络、安和SVM。然而,它增加的准确性时滞。大小

上述分类方法分析表中给出的计算时间6比较分类的计算复杂性与原30特性。

提出的方法相比有较低的计算时间分类的原始数据集。神经网络的分类与30特性,网络结构高度消耗更多的时间比与一个集成电路分类。测量持续时间13.9和20.03秒减少到11.12和14.9秒当安和RBFN分区部署为20%。特别是,使用集成电路功能复杂性的影响是存在当10-CV被选中。的消耗时间安和时滞是大小从118.21和129.84秒减少到76.72和90.49秒,分别。此外,ICA SVM的减少计算时间 神经网络分类,但利率低于神经网络。

5。讨论

敏感性和特异性表明实际的比例阳性/阴性那些正确认证。而使用一维特征向量减少ICA略有降低精度,它增加敏感性SVM和时滞分类器大小的值。的最大灵敏度测量属于SVM与RBF内核使用一个特性。ICA对灵敏度的影响措施的图像分类器如图12

灵敏度是指成功地识别恶性癌症分类的样本。因此,高灵敏度意味着更高的诊断恶性肿瘤的能力,它可以用来帮助医生诊断癌变质量更正确。以前的分类研究的准确性和灵敏度的措施和本研究WDBC数据集给出了表7比较使用ICA特征减少的影响。应该指出的是,研究WDBC不同于研究白细胞数据集由699实例与属性。

更多的特征用于分类乳腺癌良性和恶性resultsin略高的准确性。特性减少到一个使用ICA的准确性降低 - - - - - -神经网络、安和支持向量机。然而,它增加的准确性时滞和支持向量机的灵敏度值大小和时滞。大小

指表7的敏感性措施分类器使用一维特征向量减少ICA在这项研究中有更好的表现比其他研究。然而,拟议的分类准确率(90.53%±0.34)比以前更低(94.93%±2.07)的方法。研究WDBC数据创造者(39]设定最高精度(97.50%)使用多面方法树(MSM-T)与3选择功能。同样,比其他人更成功的混合方法。乳腺癌分类使用概率神经网络(并)和混合特性减少使用离散小波变换(DWT)和ICA (40)或使用SVM分类6-dimensional获得的特征空间 则算法(41]对10-CV准确率为96.31%和97.38%。特别是,基于支持向量机的研究36,38]30特性接近分数维的结果。

6。结论

在这项研究中,降维的效果使用独立分量分析(ICA)在乳腺癌和几个分类器决策支持系统等人工神经网络(ANN), 最近的邻居( 神经网络),径向基函数神经网络(时滞)大小,和支持向量机(SVM)是调查。威斯康辛的结果应用原始三十特性诊断乳腺癌(WDBC)相比,减少了ICA的一个维度。分类的准确率与原有三十特性除了时滞稍有大小减少97.53%,91.03%,95.25%,90.5%,91.03%,和90.86%,分别。然而,一维特征向量使时滞分类器大小更区分精度从87.17%上升到90.49%。此外,利率敏感性定义成功识别恶性样本从93.5%上升到96.63%为SVM时滞和大小从96.07%降至97.47%,而其他人则有轻微的降低率在0.96%至3.09%之间。如果目标是增加的速度成功地识别恶性乳腺癌使用时滞或减少计算复杂度的大小而不损失准确率高,功能应用ICA可以减少一个高性能的解决方案。

利益冲突

作者宣称没有利益冲突。

承认

这项工作是支持的伊斯坦布尔大学科研项目,项目编号yadop - 6987, 36196, 38262, 42330, 35830。