文摘

尽管存在许多分类技术来分析模式具有简单的特点,他们往往失败当功能模式的比例非常大。这“维度”的诅咒是特别流行在许多复杂,大量的生物数据集获得使用最新的光谱模式。为了解决这种模式分类问题,提出了一种模糊逻辑连接词的使用一种自适应网络技术结合生成的类边界的判别函数。我们经验评估这种分类方法的有效性通过比较两种传统基准的方法,这两种使用功能平均作为预处理阶段。

1。介绍

生物医学光谱模式生产信息丰富但复杂,大量的数据(1]。例如,核磁共振光谱,利用外部的磁场之间的相互作用和一个具有自旋的核,是一个可靠的和通用的光谱形态2,3]。加上健壮的多元方法的歧视,这是特别有用的解释和分类高维医学光谱(模式)的组织和biofluids [4]。然而,的数量的比例特征模式对这些数据的数量通常是非常大的;特征空间的维数是O (103-10年4的数量),而模式是O (10 - 100)。这种“诅咒维度”(5,6)是一个严重的挑战复杂的生物医学光谱的分类:多余的自由度往往导致过度拟合,大大影响选择分类器的可靠性,减少其能力来确定有效的概括。

我们提出一个模式分类技术,扩展方法中描述(7],变弱的混杂效应的诅咒维度使用一种自适应网络的模糊逻辑连接词结合的模式类判别函数的边界由集生成基于组特征地区拥有较高的歧视性的权力。我们经验评估这种分类方法的有效性通过比较两种传统基准的方法,这两种使用功能平均作为预处理阶段。

部分2提出了一个简短的讨论模式分类包括模式映射,验证、判别分析和降维方法。我们的技术细节介绍部分3。数据集、试验设计和结果讨论部分4其次是一些结束语。

2。生物医学模式分类

2.1。映射和验证

我们首先定义一些正式的符号来准确描述的模式分类问题 是模式的数量(样本向量,个人,或病例), 的数量特性(尺寸、属性或测量),然后呢 类的数量(组)。让 是一组 标签模式, 。通常情况下, ;然而,它通常是有利的(8使用1 -] 编码的类标签等迭代分类器人工神经网络(2];也就是说, 在那里, , ( )。分类器是一个系统,用来决定一个映射, 。使用 ,如果一个分类器预测类标签 ,然后一个正确的分类时发生 。它被认为是一个错误分类(分类错误)

不幸的是,许多调查涉及整个数据集模式分类是有偏见的,因为他们使用确定的映射。这种方法会导致过于乐观模式分类结果和不考虑过度拟合的可能性;即给定模式之间的映射成为一个简单的查表和类标签,从而拥有没有广义预测能力为新(看不见的)模式。为了弥补这种偏见,至关重要的是执行某种类型的验证(9,10]。例如,模式 可能是随机分配给一个设计(训练)的子集, 包含 模式,或验证(测试)的子集, 包含 模式( )。现在,一个映射决定只使用设计模式, ,但分类性能测量使用 验证模式。

分类性能测量使用 “混淆矩阵”所需的类标签与预测类标签。如果类预测 ,那么这个元素, 混淆矩阵的,增加了一个完美的精度是反映在0非对角的和非零对角)。传统的业绩衡量的比例是正确的分类模式,模式的总数, ,在那里 类的数量吗 验证模式预测,通过映射 ,属于类 。而其他措施存在,如平均来说精度,接收机工作特性曲线(ROC曲线)(11),或kappa评分(协议)的机会纠正措施12),为了清晰实验结果的讨论中,我们将使用

2.2。判别函数

线性判别分析(LDA) (13)是一种传统的分类方法,确定线性界限 类,同时考虑国米类和类内方差。如果误差分布的类是相同的(相同的协方差矩阵),LDA构造最优线性边界类。在实际情况中,这种最优很少实现自不同的类通常会导致不同的分布。

LDA分配模式, 上课, 的概率分布, 是最大的。也就是说, 是分配给类 ,如果 ,在那里 之前是类的概率(或比例)。类的判别函数 在哪里 是对类来说意味着什么 的协方差矩阵模式 。特征空间分离超平面类 从类 被定义为 。图1说明了类边界由一组线性判别函数定义为一个二维的数据集和三个类( )。就像前面提到的2。2LDA用于模式分类时,必须使用设计模式来定义判别函数, 使用验证,但验证性能模式,

支持向量机(SVM) (14,15)是一个重要的家庭的监督学习算法选择最大化模型的误差训练子集。这种方法已先后应用于广泛的数据分类问题(16]。给定一组模式属于两类之一,一个支持向量机发现模式的超平面使得最大可能分数相同的类相同的一侧而最大化两类超平面的距离。这种方法通常是作为一个约束优化问题和制定解决使用约束二次规划。虽然最初的方法(17)只能用于线性可分的问题,这可能是延长使用“内核诡计”(18),利用非线性映射的足够高维度可以项目模式的一个新的参数空间中类可分离超平面。一般来说,它不能确定一个先天,内核将有助于生产的最佳分类结果对于一个给定的数据集,和一个必须依靠启发式实验(试验和错误)。常见的内核函数 为模式 权力, ;多项式, ;乙状结肠, ;高斯,

2.3。功能降低

与任何模式分类器,LDA变得不可靠,当有大量的功能。即使使用奇异值分解等方法稳定,反转 在(1)变得不稳定,所以就必须进行预处理功能。预处理时使用的策略 是非常大的(维度)的诅咒是减少模式的特征空间的维数;我们找到一个映射(转换) 在哪里 。现在,分类映射 。一个标准的方法来减少特征空间是固定数量的连续的功能区域的平均。虽然这种类型的平均可能经常工作在衰减的影响维度的诅咒,它也有一个倾向,有时洗掉信息内容。其他功能还原方法不改变原始特征空间,而是试图找到这些功能,拥有最大的歧视性的权力(19- - - - - -22]。这种方法的一个例子是随机特征选择。

2.4。随机特征选择

随机特征选择(SFS) [23)是一种特征选择/还原预处理策略可能被用于任何同构或异构组分类器(例如,LDA、人工神经网络、支持向量机)。从本质上讲,SFS迭代礼物,在高度并行的方式,许多功能区域(连续的模式特性的子集)组分类器保留最好的组分类器/地区对。尽管SFS一组丰富的参数控制分类过程的许多不同的方面,我们目前只有这些方面相关的讨论和参考读者23这一战略的全面描述)。为一个模式 ,我们定义了一个地区的特性,是一个连续的子集 。用户指定最小和最大数量的地区选择为每个迭代分类以及功能区域的最小和最大的长度 。SFS利用的二次组合(不相交或重叠)功能区域。如果原始特征空间的意图是非线性边界类之间,新(二次)参数空间可能更线性的边界。考虑到功能区域 二次组合,SFS三类:使用原始的功能区域, ;平方的特征值 ,或者使用所有两两特征从两个区域交叉产品, ,产生结果 。适应度函数(分类性能测量) 。在这项研究中,使用LDA的唯一标识符。SFS完成时,它会返回分类器结果的最佳设置(用户指定集合的基数),每个结果包含(i)的价值 ,(ii)指数(原功能)选择功能区域的设置,和(3)判别函数为每个类由LDA使用选定的功能区域。

2.5。模糊自适应逻辑网络

我们的方法建立在模糊自适应逻辑网络(cf。24全面描述])。这种方法可以用于模式分类,结合了两种不同的子系统在其总体架构。neurocomputing子系统使用一套感知器构造类边界描述模式从不同的类。通过一组各自的权重和输入,定义为一个感知器 在哪里 是一个传递函数(任何乙状结肠功能但通常物流功能),它描述了一个 维超平面。然后这个几何信息提交给逻辑处理子系统由一层模糊连词(”和“元素)和一层模糊的析取(”或“元素)。目的是使用这些模糊逻辑连接词结合的超平面neurocomputing子系统形成凸hull-like拓扑。例如,一个凸区域划定 感知器可能是由复合逻辑谓词, 产生值接近1(这意味着它成为真正的)当所有谓词真正的(即。,the respective perceptrons produce high outputs). To capture the geometric notion of disjoint regions, one may take a union (in the set theoretic sense) of the individual regions described by the 的: 或者… 。实现这些模糊谓词,使用t-norms模型之一逻辑连接词和s-norms来建模逻辑连接词。t-norm, ,是一个函数 这是可交换的,对称的,单调,满足边界条件 虽然s-norm的边界条件, ,都是 。模糊连接词现在可能被定义为 在哪里 是输入和 相应的调整权重(连接)局限于单位时间。在的情况下 越大,权重值更相关的各自的输入(如果所有重量都是1,它变成了一个标准门)。在的情况下 权重值越大,越不相关相应的输入(如果所有重量都是0,它变成了一个标准门)。如果我们限制自己可微的t - s-norms,梯度下降策略可以用来训练模糊自适应逻辑网络(cf。24]详情)。

3所示。模糊逻辑网络与线性判别

建筑在节中描述的概念2,我们现在描述模式分类算法,FLND(模糊逻辑网络与判别)。FLND算法有四个主要步骤:(i)使用SFS找到最好的 集的特征区域使用设计模式的子集, ;(2)对于每一个功能区域,计算每个类的线性判别函数,然后计算每个设计模式判别值;(3)用遗传算法确定最优权重的模糊逻辑网络中考虑到设计模式判别值(ii);(iv)的使用模式验证子集, ,以评估的分类性能, ,使用选定的功能区域和判别函数值。图2说明了FLND系统的体系结构。

现在让我们更详细地看每个算法步骤。在实验中所描述的部分4,SFS使用LDA作为唯一标识符 性能测量。经过一系列的迭代,SFS的回报 组功能区域, 为每个类和相应的判别函数, 使用功能区域(按功能区域 )。表单的功能区域的集合 在哪里 设置区域的总数吗 是一个连续的功能区域节中描述2。4。计算使用的判别函数 而不是所有 特性。现在不再是原始输入空间 而是各自的价值特性 对于每一个类和每个功能区域设置,这是一个显著减少输入空间的维数( )。

模糊逻辑网络组件的FLND使用产品( )和概率总和( )的t - s-norms,分别 (用户选择) 连接词和 连接词。该组件有两个缺陷,不存在部分中描述的模糊自适应逻辑网络2。5。首先,虽然感知器输出映射到单位时间(由于其传递函数)的s形的性质,这对输入到模糊逻辑是必要的 从线性判别函数映射到连接,值 。这可以很容易地处理之前通过重新调节线性判别式的值表示模糊逻辑网络( ,各自的最小和最大最小和最大判别函数值)。

第二,更严重的问题是,梯度下降策略不能用于最小化网络错误(即。,optimize the weights) since the weight adjustments are now based on discrete sets of discriminant functions rather than differentiable perceptron output. We deal with this issue by using a straightforward implementation of a genetic algorithm (GA) [9,25,26执行网络的结构优化。虽然比梯度下降的方法慢得多,但仍然提供了足够的计算性能。我们实现了一个传统遗传算法中描述(27),但其他更复杂的GA变体当然可以作进一步的探讨。交叉率设置为0.10,变异率将0.007节中列出的所有实验4

最后,所有的性能结果,使用 ,是基于类的预测FLND使用模式验证子集。此外,结果也以传统LDA和SVM的应用为基准。

4所示。实验和讨论

4.1。合成数据集

我们开始我们的实验与二维异问题( )。直观地说,一个预计,LDA在这种情况下表现不佳不超平面可以作为类边界完全不同的两类模式 。使用LDA,这实际上是如此 为每个类)(一个模式错误分类。因为这是一个严格的教学实验中,我们跳过验证锻炼和不打扰SFS和直接移动到模糊逻辑网络。设置初始GA人口到200年,迭代的数量到100年,和数量 连接词,我们现在得到完美的准确性, 。两个权重 连接词是 。随后的两个的重量 连接词是

这个合成异上面描述数据集的数据集是一个变体( )。模式属于一流的,如果所有的特性是相同的;否则,它属于第二类。图3是一个阴谋的这个数据集的前两个特征。最初的GA人口是800,迭代的数量是100,和数量 连接词是10(与以前的实验中,我们不使用SFS)。在这种情况下,LDA再次执行非常差, ,而FLND产生了显著优越的分类精度, 。表1列出了混淆矩阵对LDA和FLND使用这个数据集。出于完整性的考虑,我们也列出的重量 连接词, , , , , , , , , , , 连接词, ,

4.2。核磁共振光谱

核磁共振光谱(模式)biofluid ( )被收购,用来测量的有效性FLND的分类复杂,大量的,“现实世界”的生物医学数据集。在这种情况下, 与89年光谱属于1级(“正常”)和61光谱属于二班(“不正常”)。这些光谱被随机分配给设计子集( 与40个正常光谱和40异常光谱)或验证( 其余49正常光谱和21异常光谱)的子集。

对于这个数据集,以下SFS参数用于FLND:范围的功能区域,2 - 5;特征的数量范围内,2 - 20; ;104迭代。模糊逻辑网络参数 ;交叉率,0.10;变异率,0.008;GA人口规模,1200;50个遗传算法迭代。

2列出了混淆矩阵FLND的设计模式和验证模式。设计模式, ,而 为验证模式。此外,82%的正常(1级)验证模式正确分类和86%的异常(二班)验证模式正确分类。后者的结果尤其有利,对许多生物医学数据分析确认问题,重要的是要有一个低误判率(即。对异常状况,预测应该尽可能准确)。

3列出了 最好的歧视性的功能区域,R,由FLND发现。为每一个条目,我们列出选择特定区域,这些区域是如何结合,所使用的个人特性的总数。有趣的是,超过半数的歧视性的区域选择了近似范围3050 - 3850,这可能表明,生物代谢物由光谱区尤其在区分正常和异常状态有密切关系的潜在biofluid被调查。还需要注意的是,大多数二次使用的条目的组合相应的功能区域,与三大结果使用成对交叉产品各自的区域。最后,特征空间的维数是只有4%的原始空间组合特征与4255平方(180原始光谱特性)。

4.3。基准比较

我们现在比较FLND结果部分4.2有两个分类器的标准,支持向量机和LDA。首先,我们使用所有使用SVM和LDA构造映射 特性。随后,对于每一个分类器,功能平均作为预处理技术,这是一种典型的生物医学光谱的策略,以减少分类问题的复杂性(28- - - - - -31日]。通过降低特征空间的维数,我们希望解决维数的诅咒。此外,平均有一个倾向减弱噪声的签名。在我们的特定情况下,最初的功能是连续平均使用不同窗口大小(没有重叠)生产6套851年平均尺寸的特点,185年,115年,37岁,23日分别和5。我们使用比例类概率对LDA和所有支持向量机内核中列出的部分2。2。为了清楚起见,在支持向量机的情况下,我们只报告最好的结果平均为每个特性集。表4列出了验证子集分类结果(矩阵和混乱 使用平均特征为基准)。在任何情况下比FLND基准。使用所有的原始特性,这两个基准表现不佳: 支持向量机和 LDA。对于每一个基准,最好的结果发生在185年平均特点: 支持向量机和 LDA。我们还要注意,分类结果开始降低随着窗口大小的增加(即。的平均特性降低)。这不是常见的功能均可以导致洗掉信息内容出现在生物医学光谱。

5。结论

我们有经验证明的有效性分类技术,使用一种自适应模糊逻辑网络连接词结合生成的类边界集判别函数的基于集合的特征区域拥有高歧视性的权力。使用复杂,大量的“现实世界”的生物医学数据集,FLND优于所有基准测试分类器从一个验证子集的分类模式。它实现了8%相比,分类精度提高最好的基准测试结果(0.83和0.77支持向量机使用功能平均的窗口大小23)。分类精度的增加是通过将所描述的类边界判别函数和模糊逻辑连接词的使用层结合这些边界凸、非线性边界。这个新方法也大大降低了输入空间的维数与原始的光谱特性是取而代之的是一个小得多的类判别值的集合。这是一个特别有用的特征在处理维度的诅咒(大样本比)的特性,这是一个普遍的属性很多复杂的生物医学数据集获得使用当前的光谱模式。

虽然这种分类技术证明了结合模糊逻辑连接词的效用与多元统计歧视,调查也导致未来的研究领域的识别可能提高其整体效率和计算性能。第一,而不是设置模糊的数量用户连接词先天的,这将是值得研究的级联方法确定最优的数量连接将会完全数据驱动的。第二,交替结构优化模糊逻辑网络需要检查开始用更复杂的进化计算方法或利用随机优化技术的最新进展。最后,一个更聪明的判别函数值需要重新调节战略研究。例如,这可能包括一个fuzzified(加权)距离测量基于距离(归属感)所有样本的类边界。

确认

康拉德Wiebe和亚历山大·Demko欣然承认随机特征选择算法的实现。aythors也感谢自然科学和工程研究理事会(NSERC)对其支持的调查。