失:一个高斯发布出去是依靠正交分解损失分类

文摘

我们提出一个新颖的损失函数,即损失,去分类。大部分的现有方法,如中心损失和对比,动态地确定收敛方向培训过程中样品的特性。相比之下,损失收敛方向分解为两个相互正交的组件,即切向和径向方向,并分别对它们进行优化。两个组件理论上影响组内的分离和同类密实度的样本的分布特性,分别。因此,分别减少损失他们可以避免的影响优化。因此,一个稳定的收敛中心可以获得它们。此外,我们假设两个组件遵循高斯分布,这是证明了作为一个有效的方法来准确模型训练特性对提高分类效果。实验在多个分类基准,如MNIST CIFAR, ImageNet,演示的效果去损失。

1。介绍

近年来,深层神经网络都取得了极大的成功(1,2),和分类任务一直被广泛应用于各个领域3- - - - - -6]。损失函数是深度学习不可或缺的一部分;各种各样的损失函数,如MSE和公元前,可用于不同的任务,包括基于图像的目标识别(7- - - - - -9],人脸识别[10- - - - - -12),和语音识别13,14]。损失函数的性能已被广泛研究[15,16]。良好的损失函数理论上应该不同类别分开的分布特征,同时保证同一个类尽可能紧凑的特点。

在现有的损失函数,soft-max叉是最常见的(9,17- - - - - -19]。然而,soft-max只保证不同类别的可分性的特征,缺乏能够压缩特性之间的距离在同一类。因此,不同类别的特征之间的距离小于同一个类,如图1(一)。

(一)

(b)

提出了几种变异提高同类soft-max的紧密性。一些度量学习方法用于促进有效的分类(20.- - - - - -22]。这些研究试图解决这个问题通过功能正常化23,24)或添加一个额外的正则化项来构造联合监督(25- - - - - -28]。在这些研究中,随机梯度下降算法得到了广泛的应用。该算法可以确定在每个迭代收敛的方向飞,根据网络参数和训练样本。特征向量可以解耦成两个部分,即方向和规范。从理论上讲,这两个组件确定组内的分离性和同类密实度样本的分布特性,分别。因此,如果我们把这个功能作为一个整体,作为现有的工作做什么,然后两个组件的优化会交织在一起。因此,融合中心的计算必须同时考虑两个组件,会相互干扰,从而影响最终的分类效果。

在本文中,我们提出一种正交decomposition-based损失函数称为损失,收敛方向分解成两个相互正交的组件。此外,我们假设两个组件遵循高斯分布。具体来说,标准的特性在接下来的径向高斯分布,虽然之间的角度(余弦值)特性和相应的中心向量(类权向量)类的切向方向也跟随高斯分布。这种假设可以使用贝叶斯规则在损失计算,是一种有效的方式来建模培训功能。我们可以因此(1)模型的分类损失之间的交叉熵的后验概率特性和相应的类标签在切线方向,称为切向损失,和(2)计算规范之间的差异的特征分布和径向方向的假设分布使用负对数似然,称为径向损失。两个损失可以用来形成一个联合监督平衡组内的可分性和同类密实度学习培训特征空间;因此,可以保证分类精度高,如图1。

总之,论文的主要贡献是一种新型损失函数的分类,即损失,集如下:(我)策略优化损失函数通过将收敛方向分解为两个相互正交的组件并进行优化,分别。这种方法不同于大多数传统的方法主要是依靠功能正常化和添加正则化项。基本原理是避免相互影响的两个组件的优化来获得一个稳定的融合中心。(2)一个解决方案,实现了优化。该解决方案将与阶级之间的相关特性为方向和规范可分性和同类密实度,分别和两个组件进行优化与他们遵循正态分布的假设。

对各种分类任务,损失函数直接影响分类效果(29日- - - - - -31日]。在现有的方法中,度量学习是广泛应用于提高分类效果的损失函数32- - - - - -34]。的想法去损失是基于现有的损失函数。我们下面突出显示最相关的方面。

Soft-max是最常见的一个损失函数的分类。它使用了内积矩阵来实现分类函数。然而,宽松的同类特征分布在处理复杂的分类问题带来困难。许多其他指标,如欧几里得和余弦距离,被用来解决上述问题。因此,许多变体soft-max是可用的。

对比损失(25)使用一个预定义的保证金为人脸识别火车暹罗网络。它最小化之间的欧几里得距离正对和之间的欧几里得距离扩大负脸图像对。然而,图像对的组合爆炸问题的数量将大大增加迭代。

三联体损失(26)适用于欧几里得距离正则化损失优化。是在图像上进行正规化三胞胎而不是图像双对比损失达到高精度的人脸识别。然而,它也有同样的问题,对比损失的计算复杂度。

中心的损失(27)最小化每个特性之间的欧几里得距离向量和它的类中心。然而,额外的正则化项生成两个收敛的方向,不仅会增加计算的复杂性,也使不稳定在一定程度上的融合中心。

高斯混合损失(28soft-max)是一种有效的替代品。中心的损失是一个特例的可能性正规化通用损失。高斯混合问题的中心是一样的损失。因此,前者生成增加计算开销。

环损失(23利用不同的优化机制,可实现所有功能通过一个凸增大的主要损失函数。在这种情况下,所有的特性都将围绕着一个戒指。因此,所有功能都有相同的规范,因此不能用于优化。

大幅度soft-max损失(24)使用余弦距离度量来解决矛盾问题的距离测量。它引入了一个角边缘soft-max通过一个精心设计的角距离函数。主要集中在角变化而忽略重要的规范对分类效果的影响。

上述方法优化损失函数从功能的角度分布。规则提取的特征或添加正则化条件使得同一个类紧凑的特点和不同的类分离的特性。在此基础上,一些损失函数分类从重新设计的角度研究了集群(35,36),如GCPL损失(37)和支持结构损失(38]。

L2T-DLF [39),意思是“学习”教与动态损失函数,是一种新型的模型训练损失函数。通过培训过程,模型调整和改变了损失函数。训练有素的损失函数是最适合的数据集。结果,得到最佳分类结果。

Noise-robust损失(40)使用的共同监督分类熵损失和平均绝对误差优化损失函数从noise-robust的角度。当标签广泛的噪音,这个损失函数可以发挥更好的分类效果比其他损失函数,规范化的特点。

SL (41),意思是“对称熵学习”,也提出了解决noise-robust问题。它能提高noise-robust同行称为反向叉叉对称。SL克服过度拟合和学习问题的叉当标签有噪音。

最近的研究在损失函数关注损失函数的应用场景。方法研究了损失函数对数据集的特点,如噪音标签的存在。

一样现有的工作,我们也提高分类效果从同类的角度特性分布的紧凑性和阶级之间的分离。前面提到的方法把方向和规范作为一个整体优化损失。相反,损失对两个特点分别执行优化。这种方法还没有尝试过的最好的知识。一个未知的样本足够大可以近似服从高斯分布。考虑到数据集的特点,我们合理假定服从高斯分布的特性。我们使用高斯分布来指导优化过程。

3所示。问题陈述

3.1。一般考虑

几个方面应该进一步解释之前介绍的方法。

第一个方面是确定收敛方向的变化在现有的损失函数迭代和不确定的方向对分类结果的影响。损失函数,计算亲和力的分数(分对数)通常是由不同的指标,如内积和欧氏距离度量。这些指标通常直接使用计算亲和力成绩或作为流程的一部分计算亲和力的分数如果他们额外的正则化项的形式。这种方式让收敛方向取决于网络参数和训练样本,随着每次迭代变化。不定收敛方向导致难以获得一个稳定的融合中心,建立间接导致了错误的模型。

在这里,我们使用soft-max作为一个例子来说明这种效果。对于一个K分类任务,我们假设和提取的深度特征向量和类权向量类k,分别。内积矩阵的收敛方向的方向是一样的。欧几里得距离,收敛的方向,这反映的向量来 ,确定方向和规范的功能,如图2。

(一)

(b)

第二个方面是解耦的特性为方向和规范。特征向量是由两个特征,即方向和标准,自然耦合。因此尽可能完整的余弦度量当只有其中一个特征被认为是在优化过程中。现有指标总是把两个特征作为一个整体。因此,优化不可避免地涉及他们两人。这种情况可能导致相互干扰的两个特征,从而影响最终的分类效果。

3.2。方法概述

正如上面所讨论的,我们首先需要收敛方向分解为两个相互正交的方向。便于实现,我们使功能解耦的主题解耦成两个部分,即方向和准则,分别对应于切向和径向方向。这一步有两个优点。首先,我们可以单独优化两个组件,以阻止他们相互作用。第二,两个组件之间的关系可以明确确定。分解使它方便获得融合中心,因为只有一个组件(方向或规范)是纳入计算过程。

我们假设两个组件按照高斯分布来进一步提高模型的准确性。我们相信这种假设是合理的,特别是当总体分布未知和样本容量足够大。

图3显示了优化过程在一个分类任务中,在其中深提取的特征向量输入样本吗类的权向量类吗k,属于。观察到,在每个迭代收敛方向是静态的。

(一)

(b)

我们设计的损失函数切线方向进行分类。考虑到分类的核心目的是相互独立的不同的类,损失函数的切线方向主要是负责组内的分离。我们采用流行的称为交叉熵的方法来实现分类函数。

分类的能力是在切向的损失。因此,在径向损失不需要分类的能力。我们组内的分离特性分布。我们设计径向损失是主要负责组内紧性进一步提高分类效果。我们达到同类密实度降低之间的差异的实际分布特性和理想的高斯分布的特性。我们使用一个受欢迎的方法称为似然函数来衡量的差异分布。

4所示。去损失

在本节中,我们首先介绍了优化的切向和径向分量,然后给两个部分合并的方法去损失实现联合监督。

4.1。优化在切线方向

在切线方向,我们第一次提供的正式定义高斯分布。然后,我们使用贝叶斯规则计算后验概率分布。最后,我们利用交叉熵计算分类损失。

以下4.4.1。高斯分布

让高斯分布后的特性,如方程所示(1),和。类的重量吗对应,代表类的协方差k在特征空间。对未知的K分类任务中,我们假设每个类的概率是相等的,其目的是确保先验概率是恒定的。类的先验概率k是。的hyperparameterα用于控制训练过程中的困难。

我们的理想主意是保证之间的角度特性及其相应的类体重服从高斯分布。然而,高斯分布的角度太复杂的计算。我们使用归一化特性及其相应的类权向量代替夹角的余弦值来避免复杂的角度计算。根据余弦定理,可以更换的夹角的余弦特性及其相应的类中心向量。因此,方程(1)可以被理解为一个类似与角余弦高斯分布相关。它证明了替代的可行性。

4.1.2。贝叶斯规则

假设标签是一个规范化的特性。高斯分布的假设下,其条件概率分布可以写成

根据贝叶斯规则,它的后验概率分布

4.1.3。叉损失

我们终于用后验概率分布之间的交叉熵和类标签计算切线方向的损失,这是写成和定义为是一个指标函数,定义为

4.2。优化在径向方向

在径向方向上,我们首先给出高斯分布的正式定义。然后,我们使用贝叶斯规则计算后验概率分布。最后,我们使用计算损失的可能性。

4.2.1。准备高斯分布

类似于切向方向,我们假设 - - - - - -规范的功能在径向方向还符合高斯分布,即定义为在哪里 , ,和是 - - - - - -规范值类的权重向量,协方差,类的先验概率k,分别。类似于高斯分布假设在切线方向的先验概率是恒定的。因此,类的先验概率k是。

4.2.2。贝叶斯规则

假设是 - - - - - -规范功能的标签。高斯分布的假设下,其条件概率分布可以写成

根据贝叶斯规则,它的后验概率分布

4.2.3。可能的损失

为一个完整的数据集 ,可能可以表示为

负对数似然可以表示为

根据高斯分布假设,先验概率是一个常数等于为K分类问题。因此,径向上的损失,这是写成 ,可以简化为

4.3。共同监督

我们已经获得了切向和径向方向上损失函数,即和。在本节中,我们继续介绍合并的两个损失函数构建最终的损失。

假设是损失,可以组成的和 ,如方程所示(12)。自然地,只有相关特征向量夹角的余弦值及其对应的权向量,而只有相关规范的特征向量。不失一般性,和分享所有的参数:

一个hyperparameterα用于控制训练过程中的困难吗。一个非负权重系数λ是用来平衡两个损失函数。如果λ设置为0,那么只有用于优化,而和将有相同的重要性吗λ设置为1。hyperparameter的影响研究在随后的实验。

5。实验

5.1。MNIST数据集

在第一个实验中,我们比较与soft-max损失损失虽然MNIST手写数字数据集(42]。形式的分类结果,高维向量,投影到二维平面,如图1。观察到,在300单位的测量特性分配使用传统soft-max损失和3测量单元,通过使用我们的损失。我们的损失去更好的同类密实度和组内的可分性比soft-max损失。

我们训练网络与不同的损失函数,即soft-max损失,中心损失(27与soft-max[],环损失23),(LGM损失28],GCPL损失[37],SL (41]。在上述方法,中心损失,环损失,损失,和GCPL损失优化损失函数从同类的角度密实度和组内的分离特性。这些方法符合我们的目标去损失。但SL是一个流行的方法对数据集的标签噪音。我们也从新的优化角度比较。我们使用SampleNet卷积有五层,每32个维度,和一个完全连接层二维输出。对于现有的损失函数,我们试图调整hyperparameters并选择最好的结果记录。网络训练与批处理大小为128 50时代,和学习速率设置为0.1,然后除以2为每20世纪。的hyperparameterα设置为20。不同方法的分类精度如表所示1。随着观察,损失有更好的性能比其他MNIST损失函数。


方法	备注	Acc。(%)

Soft-max	- - - - - -	99.28
中心的损失(27]	λ= 0.1	99.62
环损失(23]	λ= 0.1	99.58
LGM损失(28]	α= 1	99.36
GCPL损失(37]	λ= 0.1	99.41
SL (41]		99.32
去损失		99.66 0.03

5.2。参数分析

我们也进行实验调查hyperparameter的影响α和λ的性能。我们设置α10、20、30和40岁的都有λ0.1和0.01。表2表明,损失是最高时的准确性α是20,λ是0.1。因此,我们使用这个设置为其他实验。


α	λ	Acc。(%)

		99.34
		99.27
		99.69
		99.53
		99.17
		99.08
		98.58
		98.23

我们确定切向和径向的影响损失对整个损失。我们设置λ为0,这意味着只有用于去损失切线的损失。只有径向损失不能实现分类。因此,我们组λ1,这意味着径向损失更加突出贡献比一般实验情况。形式的分类结果,高维向量,投影到二维平面,如图4。实验结果表明,特征之间的距离相同的类才会明显增大,当切向损失作为损失函数。这一结果表明,径向损失可以有效地控制同类密实度。当径向损失的比例太大,不同种类的特性会交织在一起。这种情况导致贫穷阶级之间的分离。这表明切向损失起着决定性作用的类之间的分离的性能。

(一)

(b)

功能分配在300单位的测量使用传统soft-max损失在图1(一)和2测量单元,通过使用我们的切线图4(一)。分布的形状可能是相似的。大多数现有的损失函数分布在二维空间soft-max有相似的特性。然而,讨论的原因从未被我们所知。我们分析传统soft-max利用内积空间度量,它本质上是一种线性约束。因此,功能分布是线性可分的。虽然我们的切向损失计算归一化特性,这也是与余弦根据余弦定理。余弦函数的内积归一化向量,这也是一个线性约束。因此,他们在分布的形状是相似的。欧氏距离和径向二次或双线性约束损失。 Thus, the features are different, as shown in Figure4 (b)。

5.3。Fashion-MNIST数据集

我们Fashion-MNIST数据集进行另一个实验43),其中包含70000灰度级图像的像素的分辨率28。数据集包含10个类别的时尚产品,分为60、000 10000训练样本和测试样本。我们采用与MNIST相同的网络和训练参数。分类精度如表所示3。当观察,损失也有最佳的性能在这个数据集。


方法	备注	Acc。(%)

Soft-max	- - - - - -	91.56
中心的损失		93.26
环损失		93.08
LGM损失		92.33
GCPL损失		92.65
去损失		93.40 0.02

WRN-28 [18)是证明Fashion-MNIST数据集上的最好的结果。我们试着去损失在这个网络结构。分类精度如表所示4。实验结果证明我们的损失也具有良好的性能在先进的网络结构。


方法	备注	Acc。(%)

Soft-max	- - - - - -	94.04
去损失		94.25 0.02

5.4。CIFAR-10和cifar - 100数据集

我们使用损失去实现三个更复杂的网络CIFAR-10和cifar - 100数据集(44]。每个数据集包含60000彩色图像,分为50000 10000训练图像和测试图像的像素的分辨率3232。数据集采用标准数据扩充方案,其中包括镜像和3232个随机裁剪后4像素zero-paddings两侧(9,24]。

对于CIFAR-10,我们使用ResNet [9的深度20网络结构。批处理大小设置为128,时代是300。我们将学习速率设置为0.1,这将成为原来的一半每60时代。的hyperparameterα设置为20。我们使用一个重量的衰变并与动量0.9 SGD优化算法。介绍的方法(45)是用于初始化网络权重。实验的主要目的是比较分类精度soft-max损失和损失。此外,我们比较不同的平衡参数值下的分类精度λ(0.1和0.01),它描述了损失函数的贡献程度的径向和切向方向最终损失(部分4所示。3)。实验结果如表所示5。正如预期的那样,损失可以实现更好的结果比传统soft-max损失。


方法	备注	Acc。(%)

Soft-max	- - - - - -	91.35
去损失		91.590.02
去损失		91.92 0.03

我们使用另一个网络,即DenseNet-BC [1)与12个特征图,观察到的性能损失它消除偏差的实验结果造成的网络结构。实验也进行CIFAR-10数据集。实验结果见表6表明去损失也有一个更好的性能比其他实验条件下。


方法	备注	Acc。(%)

Soft-max	- - - - - -	95.31
去损失		95.55 0.13

cifar - 100,我们使用ResNet [9的网络结构的深度50。批处理大小设置为128,时代是300。我们将学习速率设置为0.1,这将为每120除以10时代。的hyperparameterα设置为20。我们使用一个重量的衰变并与动量0.9 SGD优化算法。介绍的方法(45)是用于初始化网络权重。实验的主要目的是比较分类精度soft-max损失和损失。此外,我们比较不同的平衡参数值下的分类精度λ(0.1和0.01),它描述了损失函数的贡献程度的径向和切向方向最终损失(部分4所示。3)。实验结果见表7表明,当去损失有最好的效果。因此,切线方向,与组内的分离性比另一个方向,有一个更大的对分类精度的影响。


方法	备注	Acc。(%)

Soft-max	- - - - - -	74.35
去损失		74.750.03
去损失		75.03 0.06

我们使用另一个网络,即DenseNet-BC与12个特征图,观察去的性能损失为消除实验结果的偏差引起的网络结构。这个实验也cifar - 100数据集上执行。实验结果表8表明去损失也有一个更好的性能比其他实验条件下。


方法	备注	Acc。(%)

Soft-max	- - - - - -	77.81
去损失		78.24 0.02

5.5。ImageNet数据集

我们使用ImageNet数据集(46)与一个更大的规模去观察去损失的性能验证去损失的可伸缩性。一个更复杂的网络,即resnet - 101 (9),使用。Soft-max选为参考来比较其分类精度损失。我们使用8泰坦gpu来训练模型。批处理大小和时代将128年和120年,分别。与此同时,学习速率的衰减率为0.01初始化每40时代。我们也调查不同平衡参数的影响λ的准确性。结果见表9表明去损失也是有效的大规模数据集,将实现更大的更好的性能λ。


方法	备注	Acc。(%)

Soft-max	- - - - - -	77.29
去损失		77.45
去损失		77.89

6。结论

在本文中,我们提出一个正交decomposition-based损失分类。

我们的方法可以概括如下:(1)我们提出一种新的优化的视角。具体地说,我们认为收敛方向的角度的优化问题。(2)我们收敛方向分解为两个相互正交的组件,即切向和径向方向,分别进行优化。(3)我们分离的方向和规范功能,避免优化过程中彼此干扰。(4)我们使用的方向和规范功能与组内的可分性和同类密实度,分别。(5)我们用高斯分布来指导优化过程的方向和规范功能。

我们训练六个网络五个数据集有不同的大小来评估拟议的损失。结果显示的效果去损失。在我们未来的工作,我们计划让两个改进。首先,我们计划去损失应用于其他数据集进行彻底的评估它的性能在不同的应用场景。第二,我们将提出一个方法来定量确定hyperparameters的值,例如视觉分析(6)或自适应缩放(47]。

数据可用性

使用的数据来支持本研究的结果包括在本文中。

的利益冲突

作者声明没有关于这篇文章的出版的利益冲突。

确认

这项工作部分是国家重点支持的RD中国项目(2018 yfc0831700),中国国家自然科学基金(61972278,61972278,61572348),北京智能物流系统协同创新中心(bilscic - 2018 kf - 04),和湖南省自然科学基金,中国(2016 jj1024)。

引用

黄g . l . van der Maaten z . Liu和k·温伯格,“人口回旋的网络连接,”《IEEE计算机视觉与模式识别会议火奴鲁鲁,页4700 - 4708年,美国,2017年7月,你好。视图:出版商的网站|谷歌学术搜索
崔x, z, l .江w . Lu和j·李,“Wordlenet:可视化方法探索在文档集合的关系,“清华科技,25卷,不。3、384 - 400年,2020页。视图:出版商的网站|谷歌学术搜索
v . a . Maksimenko s a . Kurkin e . n . Pitsik et al .,“motor-related脑电图的人工神经网络分类:分类精度降低信号的复杂性的增加,“复杂性卷,2018篇文章ID 9385947, 10页,2018。视图:出版商的网站|谷歌学术搜索
崔z、x, x邵,l .崔”自动睡眠阶段基于卷积神经网络分类和细粒度段,“复杂性ID 9248410条,卷。2018年,13页,2018。视图:出版商的网站|谷歌学术搜索
z h . Kilimci和s . Akyokus“深度学习和词embedding-based异构为文本分类分级机集合体,”复杂性卷,2018篇文章ID 7130146, 10页,2018。视图:出版商的网站|谷歌学术搜索
j·李,陈,w . Chen g . Andrienko和n . Andrienko Semantics-space-time立方体。一个概念性的框架的系统分析文本在时间和空间上,“IEEE可视化和计算机图形学,p . 2018。视图:出版商的网站|谷歌学术搜索
a . Krizhevsky i Sutskever, g·e·辛顿“Imagenet分类与深卷积神经网络,”先进的神经信息处理系统f·佩雷拉,c . j . c . Burges l . Bottou和k·温伯格,Eds。,卷。25,pp. 1097–1105, Curran Associates, Inc., Red Hook, NY, USA, 2012.视图:谷歌学术搜索
约飞和c . Szegedy“批量标准化:加速深层网络训练通过减少内部协变量转变,”2015年,http://arxiv.org/abs/1502.03167。视图:谷歌学术搜索
k . x张,他任美国,j .太阳,“深残余学习图像识别,”《IEEE计算机视觉与模式识别会议(CVPR)美国拉斯维加斯,NV, 2016年6月。视图:出版商的网站|谷歌学术搜索
z h . Qi Wu, s .邓小平et al。”研究人脸识别方法,基于rnns autoassociative记忆,”复杂性卷,2018篇文章ID 8524825, 12页,2018。视图:出版商的网站|谷歌学术搜索
c, s . Bengio m·哈特·b·雷希特和o . Vinyals”理解深度学习需要反思的概括,“2016,http://arxiv.org/abs/1611.03530。视图:谷歌学术搜索
h .羌族,c .盾,f·张,“一个新颖的方法去面对验证基于二阶face-pair表示,“复杂性卷,2018篇文章ID 2861695, 10页,2018。视图:出版商的网站|谷歌学术搜索
g·e·达尔d, l·邓和a . Acero”上下文相关的pre-trained深层神经网络词汇量的语音识别,”IEEE音频、语音和语言处理,20卷,不。1,30-42,2012页。视图:出版商的网站|谷歌学术搜索
g .辛顿·l·邓,d . et al .,“深层神经网络语音识别的声学模型,”IEEE信号处理杂志卷,29号6、2012。视图:出版商的网站|谷歌学术搜索
c .崔z冯,c . Tan“Credibilistic损失厌恶纳什均衡与三角模糊回报bimatrix游戏,”复杂性卷,2018篇文章ID 7143586, 16页,2018年。视图:出版商的网站|谷歌学术搜索
和y y, z . Li乔,“潜在因素引导卷积age-invariant面孔识别的神经网络,”在院刊IEEE计算机视觉与模式识别会议(CVPR)美国拉斯维加斯,NV, 2016年6月。视图:出版商的网站|谷歌学术搜索
c . Szegedy诉文森特,美国约飞,j . Shlens z . Wojna,“重新考虑初始计算机视觉架构,”《IEEE计算机视觉与模式识别会议(CVPR)美国拉斯维加斯,NV, 2016年6月。视图:出版商的网站|谷歌学术搜索
Zagoruyko和n . Komodakis“宽残余网络,”2016年,http://arxiv.org/abs/1605.07146。视图:谷歌学术搜索
g·拉尔森,m .莫雅,g . Shakhnarovich“Fractalnet:超深神经网络没有残差,”2016年,http://arxiv.org/abs/1605.07648。视图:谷歌学术搜索
h . v .阮和l .呗,”余弦相似性度量学习面对验证,”电脑Vision-ACCV 2010施普林格,柏林,德国,2010年。视图:谷歌学术搜索
美国,z, j . Shi, y, j .彭和h·乔,”廖保护:一个内在semisupervised距离度量学习方法,“IEEE神经网络和学习系统卷,29号7,2731 - 2742年,2017页。视图:出版商的网站|谷歌学术搜索
k问:温伯格和l . k .扫罗,”距离度量学习大利润最近邻分类,“机器学习研究杂志》上,10卷,第244 - 207页,2009年。视图:谷歌学术搜索
y郑、d . k .朋友和m . Savvides“环失:凸特征归一化人脸识别,”2018年,http://arxiv.org/abs/1803.00130。视图:谷歌学术搜索
w·刘,y, z . Yu, m .杨“大幅度softmax损失卷积神经网络,”机器学习的国际会议,页507 - 516,纽约,纽约,美国,2016年。视图:谷歌学术搜索
王y, y, x, x,“联合身份认证,深度学习的脸表示”先进的神经信息处理系统z . Ghahramani m .湿润,c·科尔特斯n d·劳伦斯和k·温伯格,Eds。卷。27日,页。1988 - 1996年,柯伦Associates Inc .)、红钩,纽约,美国,2014年。视图:谷歌学术搜索
f·斯沃夫,d . Kalenichenko和j . Philbin”Facenet:统一嵌入人脸识别和聚类”《IEEE计算机视觉与模式识别会议(CVPR)美国,波士顿,MA, 2015年6月。视图:出版商的网站|谷歌学术搜索
y, k .张、李z和y乔,“学习深刻的人脸识别方法,区别的特征”电脑Vision-ECCV 2016b . Leibe, j . Matas n·m·威林,Eds。,pp. 499–515, Springer International Publishing, Cham, Switzerland, 2016.视图:谷歌学术搜索
w .广域网,y中,t·李和j·陈,“反思功能损失函数在图像分类、分布”《IEEE计算机视觉与模式识别会议(CVPR)美国盐湖城,UT, 2018年6月。视图:出版商的网站|谷歌学术搜索
h . Alaiz-Moreton j . Aveleira-Mata j . Ondicol-Garcia et al .,“多级分类过程检测攻击MQTT-IoT协议,”复杂性卷,2019篇文章ID 6516253, 11页,2019年。视图:出版商的网站|谷歌学术搜索
即美国哈克,阿明·m·汗,m . y . Lee和s . w . Baik“个性化的电影总结使用深cnn-assisted面部表情识别,”复杂性卷,2019篇文章ID 3581419, 10页,2019。视图:出版商的网站|谷歌学术搜索
h . Cai j .汉y . Chen等人”因为它使得基于脑电图的普遍方法检测的抑郁症”,复杂性ID 5238028条,卷。2018年,13页,2018。视图:出版商的网站|谷歌学术搜索
m . Guillaumin j . Verbeek c·施密德,“是你吗?脸识别、度量学习方法”学报2009年IEEE 12计算机视觉国际会议IEEE,页498 - 505年,京都,日本,2009年9月。视图:出版商的网站|谷歌学术搜索
r . w . Li赵、王x“人类reidentification转移度量学习”电脑Vision-ACCV 2012页31-44 Springer,柏林,德国,2012年。视图:谷歌学术搜索
x, z, w•庞m·李和l .吴”一种改进emd-based不同指标对无监督学习线性子空间,”复杂性卷,2018篇文章ID 8917393, 24页,2018。视图:出版商的网站|谷歌学术搜索
s . j . Li陈,k, g . Andrienko和n . Andrienko”应对:交互式探索同现模式在空间时间序列,”IEEE可视化和计算机图形学,25卷,不。8,2554 - 2567年,2019页。视图:出版商的网站|谷歌学术搜索
g . j . s . Chen Li Andrienko et al .,”之间的鸿沟支持故事合成:视觉分析和讲故事,“IEEE可视化和计算机图形学,p . 2018。视图:出版商的网站|谷歌学术搜索
小时。杨,X.-Y。张,f .阴,C.-L。刘”、健壮的分类与卷积原型学习”《IEEE计算机视觉与模式识别会议,页3474 - 3482,盐湖城犹他,美国,2018年6月。视图:出版商的网站|谷歌学术搜索
z梁、m·杨和王,“3 d图形嵌入学习支持结构损失函数的点云分割语义实例,”2019年,http://arxiv.org/abs/1902.05247。视图:谷歌学术搜索
f . l . Wu, y夏et al .,“学习教与动态损失函数,”先进的神经信息处理系统美国Bengio h .瓦拉赫,h . Larochelle k .好莱坞n . Cesa-Bianchi和r·加内特,Eds。31卷,第6477 - 6466页,柯伦Associates Inc .)、红钩,纽约,美国,2018年。视图:谷歌学术搜索
>和m . Sabuncu广义交叉熵损失与嘈杂的标签,深层神经网络训练”先进的神经信息处理系统美国Bengio h .瓦拉赫,h . Larochelle k .好莱坞n . Cesa-Bianchi和r·加内特,Eds。31卷,第8788 - 8778页,柯伦Associates Inc .)、红钩,纽约,美国,2018年。视图:谷歌学术搜索
x y . Wang,罗y, z . Chen j .易和j·贝利,“对称交叉熵的健壮的学习与嘈杂的标签,“2019年,http://arxiv.org/abs/1908.06112。视图:谷歌学术搜索
y Lecun (l . Bottou y Bengio, p . Haffner“Gradient-based学习应用于文档识别,”IEEE学报》,卷86,不。11日,第2324 - 2278页,1998年。视图:出版商的网站|谷歌学术搜索
x汉、k·拉苏尔和诉罗兰,“Fashion-MNIST:图像数据集用于基准测试的机器学习算法,”2017年,http://arxiv.org/abs/1708.07747。视图:谷歌学术搜索
a . Krizhevsky“学习多层小图像的特性,“技术。代表,多伦多大学,多伦多,加拿大,2009年,技术报告tr - 2009。视图:谷歌学术搜索
k . x张,他任美国,j .太阳”深入深入整流器:超越人类imagenet分类、性能”《IEEE计算机视觉国际会议,页1026 - 1034,圣地亚哥,智利,2015年12月。视图:出版商的网站|谷歌学术搜索
d·贾r . Socher l .菲菲w .咚,k·李,李江。李,“Imagenet:大规模的分层图像数据库”学报2009年IEEE计算机视觉与模式识别会议(CVPR),页248 - 255,迈阿密,佛罗里达,美国,2009年6月。视图:出版商的网站|谷歌学术搜索
张x r·赵y俏,x,和h·李,“Adacos:自适应缩放余弦分对数有效学习深表示,”《IEEE计算机视觉与模式识别会议,页10823 - 10832,盐湖城,UT,美国,2019年。视图:谷歌学术搜索