文摘
看到下面成了一个支持向量机(OCSVM)是最流行的算法之一,看到下面成了一个分类问题,但是它有一个明显的缺点:它对噪声十分敏感。为了解决这个问题,将模糊隶属度引入OCSVM,使样本具有不同重要性有不同的影响分类超平面的确定和提高了鲁棒性。本文提出了一种新的隶属度的计算方法并引入模糊多个内核OCSVM (FMKOCSVM)。合并后的内核是用来测量当地的样本之间的相似度,然后,样本的重要性决定基于当地的训练样本之间的相似度,以确定隶属度和降低噪声的影响。该会员只需要积极的数据在计算过程中,这是符合OCSVM的训练集。在这种方法中,加入噪声较小值,这可以减少噪声的分类边界上的负面影响。同时,该方法计算效率较高。实验结果表明,FMKOCSVM提出基于局部相似会员是高效和更健壮的比普通的多个内核OCSVMs异常值。
1。介绍
异常检测是数据挖掘的一个重要方面。它是用来发现数据集对象,明显不同于其他数据来实现预防异常事件的目的。目前,异常检测的应用领域的医学和生物系统具有重要意义,它已成功应用于蛋白质检测,(1癌症筛查,(2和健康监测3]。异常检测的本质是一种分类算法适合处理数据极其不平衡类。复杂的生物系统通常有此功能。例如,传染病模型的数据可能包括nonpatients特征数据的患者和特征数据。但是,在现实生活中,有比病人更健康的人。传染病患者及时有效的检测是一种有效的方法来防止传染病的爆发。
支持向量机(SVM) [4,5)是一个经典分类算法,但其性能将会恶化,当处理一个看到下面成了或分布不平衡数据分类问题。在看到下面成了一个分类问题的解决方案,有密度estimation-based方法和支持基于矢量的方法。基于支持向量的方法很受欢迎,因为它的简单性和效率高。这个方法有两个模型:(1)看到下面成了一个支持向量机(OCSVM) [6];(2)支持向量数据描述(SVDD) [7]。SVDD的目标是找到一个最小超球面包含所有目标样本。OCSVM的主要思想是将特征空间的起源的代表异常数据,然后单独目标样本来源的最大利润。本文的重点是OCSVM。
像SVM, OCSVM也对噪声很敏感,这是由于假设每个样本有相同的重要性或体重在训练。引入模糊加入SVM和构造的模糊支持向量机(FSVM) [8)是一种有效的方法来解决这个问题。加入模糊的计算方法主要集中在两类分类问题(9- - - - - -11]。例如,启发式函数来自中心内核对齐是用来计算数据点之间的依赖关系及其标签计算模糊会员(9]在[10),每个样本点的隶属度是由下近似算子基于高斯模糊粗糙集的内核。所示(11),熵是用来测量样本的类坚定性。类确定性较高的样本被分配到一个更大的模糊成员。一般来说,为了提高OCSVM的鲁棒性,不同的权重分配给训练样本,称为加权看到下面成了支持向量机(WOCSVM) [12- - - - - -14]。WOCSVM减少噪音的影响通过分配权重低噪声(12]。所示(14),利用样本的先验知识来分配不同的权重,重量只有相关的知识分布的邻居,这是唯一决定的k最近的邻居的实例。近年来,有很多研究在计算样本重量在看到下面成了一个分类问题15- - - - - -18]。所示(19基于模糊粗糙集理论[],会员20.,21)被用作OCSVM重量。
上述方法在一定程度上提高了OCSVM的鲁棒性,但一些限制。例如,当数据量太大,(14)太低效在计算样本权重。作者在19)使用异常数据在计算样本的隶属度。本文提出了一种新策略解决OCSVM鲁棒性差的问题;也就是说,引入隶属度模型。不同于上面的会员计算方法,该方法只使用一个类别的数据,这充分适应OCSVM的特点。会员计算方法提出相关的局部密度数据,由当地获得相似的训练数据。我们把一个年代函数作为隶属函数基于局部密度。
OCSVM使用内核技巧解决非线性可分性问题,但它也带来了内核的选择的问题。多个内核学习方法(22- - - - - -26)是用来解决这个问题,也就是说,多个内核看到下面成了支持向量机(MKOCSVM) [27]。
本文的主要工作如下:(1)多个内核学习和隶属度引入OCSVM同时,支持向量机和模糊多个内核看到下面成了(FMKOCSVM)模型来解决核心问题的选择和噪声敏感。(2)会员的新方法计算,提出了基于局部相似。(3)我们说明图中这种隶属程度的有效性。(4)根据最大相似性结合内核和理想的内核,多个内核的权重系数确定。(5)它是通过实验证明了本文提出的方法执行比模糊的方法没有会员会员和模型。
合并后的内核更充分地描述数据比单一内核。同时使用多个内核函数可以解决的困难问题选择核函数及其参数,这种方法可以应用到不同的样本信息。
本文的其余部分组织如下:部分2介绍了OCSVM知识,MKOCSVM, FMKOCSVM。FMKOCSVM的公式和算法基于局部相似部分详细3;和部分4报告实验结果,紧随其后的是结论部分5。
2。相关信息
2.1。看到下面成了一个支持向量机
与支持向量机相比,OCSVM适合处理分类数据类别不平衡或看到下面成了一个问题。主要的思想是,首先将数据从原始空间映射到特征空间,通过非线性映射,然后以特征空间的起源为代表的异常值在特征空间找到一个最优分类超平面,正常的图像数据可以分开起源的最大利润。如图的图解1。图1(一个)显示在原始空间分类的描述。图1(b)显示在特征空间分类的描述。
(一)
(b)
该训练样本 (n的尺寸是 ),在哪里是训练样本的数量。是一个函数,将样本映射到特征空间。让 表示分类超平面的法向量和偏见词汇特征空间。分类超平面表示为 。
我们的目标是最大化分类超平面之间的距离和起源。然后,OCSVM需要解决以下凸规划(6]:
在这里,松弛变量,这就意味着离群值允许存在,然后呢 是一个参数来控制支持向量和错误点的比例。使用拉格朗日乘子法,上述优化问题的对偶问题可以写成:
因为上面的流程需要满足马(Karush-Kuhn-Tucker)条件下,
方程解(3)对应于样品 ,,总有 或 。当 ,样例没有对超平面的影响。当 , 必须是真实的。在这种情况下,这个示例称为支持向量。如果 ,然后 ;必须有 ;即样本位于最大分离边界;如果 ,然后 ;在这种情况下,当 ,样例分类错误,这被称为支持向量的边界。如图2使用不同的值时,对应的采样点的位置是不同的。
让 代表支持向量的数量和总数量的边界支持向量,分别。的最大价值是 有以下限制:
所以我们可以有以下不平等:
乘两岸的方程(5)给
它可以从方程(6)的价值决定支持向量总比例的下界和上界的边界支持向量比率:
超平面的法向量可以获得通过使用方程(7)。
让表示t支持向量位于飞机的最大间距 并根据获得的超平面的偏差项
因此,决策函数可以写成
对于一个给定的测试样本 ,后用在方程(9),当+ 1,返回示例作为一个正常的评判点;当返回−1,样品是判断为一个异常点。
2.2。多个内核看到下面成了一个支持向量机
MKOCSVM取代单一核函数在传统OCSVM内核相结合,可有效避免困难选择核函数及其参数。
组合核函数的形式包括线性和非线性组合,组合(28)表示为
在这里,是内核的重量吗米基本内核。
MKOCSVM模型可以制定
在这里, 。这个函数可以写成
寻求最优组合权重为每个内核基础上,作者在27)建议优化组合的最大kernel-target对齐值内核和理想的内核,即解决以下目标函数(29日]:
在这里,是内核矩阵。 弗罗贝尼乌斯是两个矩阵之间的内积,给出的是哪一个
唯一的解决办法方程(16)需要获得最优组合权重:
在这里,是一种正则化系数。
2.3。模糊支持向量机多个内核看到下面成了
让表示样本的隶属度 ,然后可以表示为训练集 ,在哪里 。FMKOCSVM需要解决以下最佳编程:
当 ,正常MKOCSVM FMKOCSVM退化。
引入拉格朗日乘子 ,对于每一个不等式约束,方程的拉格朗日函数(17)是
设置衍生品与尊重 , ,和为零,那么我们就可以获得
显然,唯一区别的双重问题MKOCSVM FMKOCSVM的上界 。的上限就变成了 在方程(20.)。这个函数可以写成
在FMKOCSVM,当噪声较低的会员在训练,产生的负面影响可以减少噪声的分类超平面。
3所示。培训与当地相似性FMKOCSVM会员
训练集的噪音可能不属于任何类。因此,如果这些样本不确定性分布的边缘附近的目标数据,该模型将overfit。为缓解这一现象,本文将成员赋给每个训练点,使样本在训练中发挥不同的作用,减少噪音的负面影响。在本节中,我们首先介绍会员基于局部相似度的计算方法的细节,然后提出FMKOCSVM使用会员基于局部相似度算法。
3.1。局部相似性会员
假设目标样本 。让表示定义的多个内核矩阵 ,多个核函数方程的表达式(10)。
让所有的元素的上三角多个内核进行从大到小,也就是说, ,然后把它写成一个向量 , 。
接下来,定义一个常量 ,让 ,在哪里的组成部分 。 是一个门槛。为每个样本 ,让代表的总数 。换句话说,代表样本的数量在目标样本与样本的相似性大于或等于阈值。
内核 两个目标样本之间的相似度的措施和 ,和一个大内核表示很大相似性。如果样本的隶属度到目标类较高,很明显,更多的样品类似样品在输入样本,即。,the greater the value of 。换句话说,一个示例具有更高的价值应该有一个更大贡献的分类边界,惩罚错误分类的样本更大,噪声会有较小的价值吗 。
因此,我们需要作为度量函数,该措施的重要性,目标样本的分类超平面。显然,的价值不能直接用作FMKOCSVM的隶属度。我们使用一个年代的隶属度函数将这种方法映射到单位时间间隔。同时,这个年代函数增加成员之间的差异程度的样品具有不同的重要性。隶属函数写成 在哪里 。 是一个常数。值范围是 。图3描述了成员值的分布取不同的值。根据图3,当 ,成员值的分布是最好的。算法1列表成员的详细计算过程基于局部相似。
自噪声目标类的隶属程度低,很少有类似的实例输入数据。换句话说,噪音会得到一个小成员的价值。因此,我们提出了一个方法,可以使噪音减少影响分类边界。更重要的是,因为OCSVM只包括目标的训练数据样本,计算隶属度的传统方法是不适合OCSVM。然而,我们的方法基于局部相似的会员只使用目标数据的特性和不涉及类的信息,这是非常适合看到下面成了一个分类问题。此外,该方法具有明显的效率高。
我们分析算法的计算复杂度1与符号。首先,计算多个内核矩阵的计算复杂度在步骤2中 。第二,多个内核的平均计算复杂度矩阵排序在步骤3中 。第三,它的成本计算在步骤4到12。最后,计算步骤13到16中的会员费用 。因此,总的局部相似性隶属度的计算复杂度
与分类性能相比,也是可以接受的。
3.2。FMKOCSVM基于局部相似的整体过程
FMKOCSVM基于会员的详细过程中列出的局部相似度的算法2。本文在接下来的部分中,我们使用FMKOCSVM_LS表示该算法。
在图4,MKOCSVM如图的分类性能4(a)和分类性能提出的FMKOCSVM_LS如图4(b)。合并后的七个高斯核函数由内核的宽度 。参数设置为0.02。正则化系数的值在方程(16)被设置为100。为了减少调优extraparameter的成本,我们集0.2和直接到10。显然,比MKOCSVM FMKOCSVM_LS有更严格的边界。在图4(b),被FMKOCSVM_LS一些异常值。然而,MKOCSVM并不确定任何异常值,在边界有很多差距。
(一)
(b)
添加10%的高斯噪声训练集之后,结果如图所示5。
(一)
(b)
参数设置如图5在图是一样的吗4。我们可以看到,当有声音在训练集,FMKOCSVM_LS的分类能力比MKOCSVM要好得多。在图5(一)MKOCSVM区分所有噪音作为目标数据,这使得MKOCSVM非常糟糕的性能。在图5(b),我们可以看到,大部分的噪音很小的成员值,和噪声在边界上的负面影响是虚弱的。因此,FMKOCSVM_LS可以提高MKOCSVM的鲁棒性。
在下一节中,我们将进一步通过实验证明该方法的计算成员比前面的方法。
4所示。实验
4.1。实验设置
以下4.4.1。方法
我们比较FMKOCSVM_LS用以下方法:(1)MKOCSVM:普通的多个内核看到下面成了支持向量机(27];(2)WMKOCSVM:支持向量机是由加权看到下面成了WOCSVM [14)结合多个核函数;(3)FMKOCSVM:模糊支持向量机多个内核看到下面成了,会员的计算基于粗糙集(19]。因为需要两类样本来计算会员,训练集包含负类样本。这些消极的样品只是用来计算成员。
在MKOCSVM参数是由10倍交叉验证,值范围是什么 。的基本内核多个核函数与内核七高斯核函数宽度 。的参数在多个内核学习算法是设置为100。WMKOCSVM、FMKOCSVM FMKOCSVM_LS也使用这些参数在训练。最近的邻居的数量WMKOCSVM设置为10,这是一样的(14]。为了避免增加时间的调整参数,在计算FMKOCSVM_LS成员基于局部相似,我们直接设置 和 。
4.1.2。指标
摘要不同方法的性能评价三个流行指标,即g-mean, AUC和培训时间。根据混淆矩阵表1,我们可以真正的积极率(TPR)和假阳性率(玻璃钢)。在看到下面成了一个分类问题,利用g-mean和AUC措施比使用精度更准确:
4.1.3。数据集
在本节中,我们选择了14个基准数据集,其中13来自UCI机器学习库。生物系统有三个实验。心脏数据集是一个数据集用于心脏疾病的诊断。乳房的数据集是一个数据集用于诊断乳腺癌病人的是良性的还是恶性的。生物医学数据集用于屏幕无论是航母。Creditcard_cut是一个数据集的一部分Kaggle信用卡欺诈检测。因为原来的信用卡数据集太大,我们只能随机选择729交易数据(483正常交易和249欺诈性交易)的实验。表2列出了这些数据集的详细信息。
对于每个数据集,我们使用70%的积极数据作为训练集,我们随机选择的一部分-数据作为训练集的噪声,噪声的比例是10%。其余的数据作为测试集,训练集规范化培训。测试集是根据训练集的标准处理。
4.2。结果
为了获得稳定的结果,每个方法做了20个独立的每个数据集上实验。结果用于比较20个结果的平均值。表3显示的最优值通过交叉验证的10倍。为了得到最好的结果的四个算法,在表3在每个实验中使用。
表4是g-mean的比较。表5显示了AUC值的比较。表6显示的平均培训时间MKOCSVM、WMKOCSVM FMKOCSVM, FMKOCSVM_LS图。在每个数据集6的总培训时间是14数据集的每个方法。
从表4和5,我们可以发现FMKOCSVM_LS的性能是最好的四种算法,证明了我们的成员方法可以提高MKOCSVM的鲁棒性。更重要的是,14日WMKOCSVM和FMKOCSVM只有一个最好的结果数据集,分别。然而,我们的方法有十二个最佳表演。
在虹膜、乳房和Wdbc数据集,FMKOCSVM_LS显示了巨大的优势。其g-mean高于MKOCSVM 27%∼32%,高于FMKOCSVM 10%∼18%,高于WMKOCSVM 23%∼31%。在相应的数据集,FMKOCSVM_LS的AUC值也显著增加。在日本的数据集,虽然g-mean FMKOCSVM LS低于FMKOCSVM g-mean,它仍然是10%高于g-mean MKOCSVM和4%高于g-mean WMKOCSVM。g-mean AUC值是一样的。在玻璃上的数据集,WMKOCSVM有最好的结果,其结果是高于FMKOCSVM_LS只有2%。然而,在玻璃上的数据集,结果FMKOCSVM_LS MKOCSVM高出5%,这证明我们会员计算方法可以减少噪声的影响分类的能力。在剩下的9数据,结果FMKOCSVM_LS是最好的和有明显的优势。例如,波形数据集,g-mean FMKOCSVM_LS 10%高于WMKOCSVM和FMKOCSVM高出4%。
的培训时间,尽管我们的方法不是最快的,FMKOCSVM_LS仍比WMKOCSVM快。WMKOCSVM的训练时间是1.5倍的平均FMKOCSVM_LS。而MKOCSVM的训练时间,训练时间的增加FMKOCSVM_LS是在可接受的范围之内的。
所有上述证明MKOCSVM会员更健壮。此外,我们建议的成员基于局部相似度是最好的。
5。结论
为了解决MKOCSVM鲁棒性差的问题,提出了一种模糊支持向量机基于多个内核看到下面成了当地的相似性,在会员是基于当地的训练数据的相似性。首先,样本之间的相似度是衡量结合内核矩阵。然后,根据所选阈值,确定每个样本的局部相似性。最后,一个年代当地相似性函数用于地图单位间隔,函数值是作为成员的值。实验表明,加入方法提出了可以提高MKOCSVM的鲁棒性。此外,与其他两种方法相比,我们的方法是最优的。
模糊支持向量机多个内核看到下面成了一个的困难在于如何确定有效的会员。与之前的会员计算方法相比,只需要计算目标数据成员基于本地数据的相似性,这是符合OCSVM训练集。在这种方法中,加入噪声或离群值被分配一个小值,使噪声对分类的影响最弱的边界。因此,会员方法本文有助于提高MKOCSVM的鲁棒性。在下一步中,我们将研究参数的优化方法的过程中加入计算基于局部相似。
数据可用性
基础研究的数据可以根据客户要求提供相应的作者。
的利益冲突
作者宣称没有利益冲突。
确认
这项研究得到了国家自然科学基金(62072024和62072024号),项目北京未来城市设计先进的创新中心,北京大学的土木工程和建筑(UDC2019033324号和UDC2017033322),北京大学的科学研究基础的土木工程和建筑(没有。KYJJ2017017)、广东省自然科学基金(没有。2018 a0303130026),河北省自然科学基金(没有。F2018201096)。