一种新颖的低位量化压缩深层神经网络的策略

文摘

神经网络模型的复杂性增加近年来成倍地扩大内存消耗和计算成本,从而阻碍他们的应用程序在ASIC, FPGA和其他移动设备。因此,压缩,加快神经网络是必要的。在这项研究中,我们引入一个新的策略训练低位网络权重和激活量化由几位和地址两个相应的基本问题。一是通过低位离散化近似激活减少网络计算成本和记忆点积。另一种是指定重量为离散权重量化和更新机制,避免梯度不匹配。与量化低位重量和激活,昂贵的软件不能操作将取而代之的是移位操作。我们评估该方法常见的数据,结果表明,该方法可以大大压缩轻微的神经网络精度损失。

1。介绍

深层神经网络,比如手写字符、图像识别、和许多新兴的人工智能应用,近年来取得了极大的成功(1- - - - - -3]。所有这些成就依赖于复杂的深度模型。在2012 ILSVRC竞赛,Krizhevsky构造多层网络(4]6000万参数,这个网络已经超过之前的所有方法的分类精度。然而,培训整个网络需要2到3天。深层网络引入大量层由于其复杂的结构,从而增加了模型尺寸(如50、200、250和500 MB, GoogleNet resnet - 101, AlexNet, VGG-Net,分别)(5)、计算复杂度和对能源消费的需求。因此,这些属性嵌入到移动设备是一个很大的挑战。在深层神经网络,计算成本和内存消耗主要由卷积操作,这就是体重和激活向量之间的点积。大多数现有的技术关注体重共享、修剪、量化,激活自由裁量权(6- - - - - -8]。他们还表现出大精度下降和高计算与浮动在训练和测试操作。在这项工作中,我们引入了一个方法来训练低位网络。一方面,本研究通过低位离散化近似于激活。另一方面,重量化和特别介绍了离散权重的更新机制。与量化低位网络权重和输出激活,昂贵的软件不能卷积操作将取而代之的是移位操作,精度和边际成本将略有减少。我们的方法将重要的嵌入式设备上,如ASIC或FPGA AI。

在本节中,我们讨论相关工作从以下方面:(我)修剪和分享。参数修剪和共享已经用来降低神经网络的复杂性,避免过度拟合模型。(6,9- - - - - -11]提出方法来找到并删除冗余连接用小重量值,量化权重通过重量共享。运行时内存保存和压缩的效果是非常有限的简单方法。(2)结构化的修剪和Sparsifying。一般来说,L1范数,L2范数、集团套索,和其他正规化条件是有效的学习在许多研究稀疏结构重量的方法。温家宝et al。(12)提出了结构化稀疏学习通过使用集团套索sparsify多个款结构(过滤器、通道,甚至层)。此外,作者的13- - - - - -16)也试图与稀疏的列车网络的调整,和测量通道的重要性的问题转化为优化问题。(3)特殊的神经结构。减少计算失败和加速神经网络的推理过程通过设计特殊的体系结构。相关研究包括移动网络(17,18],挤压净[19],Shuffle-Net [20.采用卷积过滤器的体积小,深度方面卷积操作。(iv)重量和激活量子化。我们提出量化方法也属于这一类。低位量子化方法意味着网络权重和激活是由离散值表示根据特殊的数学方法,它可以取代昂贵的原始浮点操作只有积累甚至二进制逻辑运算。的作者(21,22)首先约束权重的二元和三元空间。由此可见,权重和激活都映射到二元或三元空间,即、二进制神经网络(BNN) [7],XNOR-Net [8),三元神经网络(TNN) [23),直接取代multiply-accumulate操作的逻辑操作。DoReFa-Net [24不仅使量子化重量和激活,但也使量子化梯度低位宽度浮点数与离散状态向后传播。

3所示。低位神经网络

在本节中,我们专注于训练量化低位网络。具体来说,层输出的激活是量子化的,零个或两种减少存储和计算的能力。网络的权重也以同样的方式限制获得稀疏的模型。通过约束权重和激活零个或两个孩子的权力,可以取代昂贵的浮点乘法操作便宜转变操作(13]。

3.1。点积函数

深层神经网络通常由多个层,每个神经元在不同层计算激活功能: 在哪里输出激活,输入向量,权向量,是偏见,是一个非线性函数,如ReLU。鉴于卷积网络,计算复杂性主要是由卷积操作。量化的压缩硬件的关键应用程序可以概括为两个方面。一个是大内存需要存储重量和激活。另一种是所需的计算成本计算大量的点积。困难在于浮点运算,这是有限的在实际应用5),本研究中进行讨论。图1显示标准的卷积过程和方法的示意图(DST将在部分3.3)。

(一)

(b)

3.2。低位激活近似

在本节中,我们提出了一种新颖的近似策略激活量化和相应的合适的方法来保持反向传播的效率。

3.2.1之上。向前逼近过程

按照上面的讨论中,网络的激活是量子化的,零个或两个在这一节中。制定优化模型如下: 在众多的参数值在时间间隔内吗 ( )量化为一个共同的价值 ,和是我们新的离散激活函数定义。我们试图找到所有值的均方误差获取最优量化方法。因此,优化模型(2)可以转化为以下模型: 在哪里的概率密度函数是。在Cai的实现(4),我们应用批规范化的点积(1)来确定的亲密与零均值高斯分布和单位方差。因此,最优解(3)可以收购劳埃德算法(25]。因此,最好的分区在哪里表示不同的价值区间。每个区间的端点我们设置并考虑区间的对称。因此,最终的优化函数的量化器在哪里是标准正态分布的概率密度函数,是激活的比特数的函数。只有一个变量被认为是在(6)。因此,上述公式有一个理论上的解决方案。然而,实验中我们采用遗传算法分割变量限制积分求解上的困难。表1显示了不同的最优误差值。进一步细化 ,我们仍然得到同样的错误值为0.0189。


计划	= 0.0625	= 0.125	= 0.25	= 0.5	= 1

	0.4078	0.3298	0.2106	0.0825	0.0458
	0.3298	0.2103	0.0795	0.0239	0.0443
	0.2102	0.0791	0.0209	0.0223	0.0443
	0.0790	0.0205	0.0193	0.0223	0.0443
	0.0204	0.0189	0.0193	0.0223	0.0443
	0.0189	0.0189	0.0193	0.0223	0.0443

3.2.2。向后逼近过程

自后相同时间间隔内积值相等用近似法,提出零导数几乎无处不在。因此,我们在这里提出了一个更好的可能落后的解决方案,最后反向传播过程中实验结果证明其可行性。

为 ,我们近似所有值在这个间隔为零,类似于ReLU函数,它不需要更新。考虑高斯分布的点积上面所提到的,大量的激活落入间隔接近于零。我们保持这一部分的梯度。为我们的量化方法,激活时间间隔内,有很小的概率。在这种情况下,我们需要限制自己的更新,防止他们更新其他的间隔,保持网络的准确性。量化函数的导数具有以下形式:

为 ,考虑间隔对称。在最后的实验中,我们发现这种方法保持反向传播,使学习的效率稳定。

3.3。低位重量量子化

上面显示的重量量化可以解决使用各种方法,如BWN DoReFa-Net, XNOR [8,21,24]。然而,我们必须拯救不能向后计算在这些网络权重;这种方法可能会导致频繁的外部存储器和参数存储之间的数据交换(26]。在本节中,我们提出一个简单的离散函数映射两个权重为零或权力。这种方式取代了浮点操作转移操作硬件的逆向过程,避免了大量计算和内存硬件部署。

3.3.1。体重前进过程中量化

在一开始,我们已经考虑了体重在前进过程中离散化和更新在离散域的限制。然而,重量是量子化的离散序列相等的比例,这是很难在反向传播更新相应规定的量化值。离散值的非均匀分布是主要问题。类似的作品如BWN、DoReFa-Net XNOR,体重在这些方面的导数为零几乎无处不在,这显然不符合反向传播,不能和梯度计算是基于存储位置权重,和频繁的数据交换需要在培训阶段。针对这一点,我们寻求直接离散网络权重为零或权力的两个逆向过程中为了避免梯度不匹配问题,除了前进的过程。

3.3.2。体重量子化逆向过程

我们引入离散值的权重更新机制落后的过程中为了避免梯度不匹配。从之前的作品,我们发现可以限制重量值(−1,1)在我们的量化方法。在一开始,我们引入离散状态转换(DST)问题,供以后使用。我们让体重的变化,更新后的重量,是原始的重量。因此,

l的最小间隔的量化定义的重量,是吗 ,和l是。为了方便起见,七个可能的整数被认为是当我们限制重量吗。连续的重量需要映射到这些离散的整数。因此,我们采用轮操作: 轮是圆的操作在数学和在哪里是任意值在[−1,1]。不是上述定义的离散的重量。因此,我们介绍了二项分布两边跳进整数定义状态: 正面和负面的迹象都是积极或消极的同时,还有呢有一个0或1的概率(我们使用随机数 ,有同样的概率是0或1)。图2显示了上述过程。

最后,定义的体重状态需要转化成重量值:

通过这种方式,我们可以成功地连续重量转换成离散定义权重。我们将重量变化转换成定义离散状态转换。首先,我们分解为整数和小数部分的最小间隔量化重量: 在哪里代表了一轮下来,是整数的体重状态转换,是重量的调优参数的状态。因此,最终的状态转换数字在哪里提交,提交二项分布的机会是1和机会是0。被定义为微调参数 , 在哪里是一个积极的常数微调调整状态概率 ,这将在实验探索。最后,我们使用DST函数,介绍了以上,获得最终的量子化的重量:

通过这种方式,我们都约束权重。为其他值,上述理论一样适用。

4所示。结果与讨论

在本节中,我们评估我们的算法在MNIST (LeNet5) SVHN (VGG)和CIFAR10 Pytorch (ResNet-18)图像分类。大多数以前的作品并不数字转换第一个和最后一个层。在我们的方法中,我们没有数字转换第一层。此外,我们报告每个实验的平均结果超过三分,自适应估计优化器(亚当)。

4.1。探索的量化组合权重和激活

我们说明的行为的不同组合权重和激活一个标准ResNet-18 CIFAR10数据集。我们量化权重 , ,和。对于激活近似,我们使用如图1。为了方便起见,我们集定义量化组合模式,代表上面 ,和的值决定了激活近似程度。交叉组合后,我们集在这里,结果如图3。

一般来说,体重量化导致一些精度下降。图3确认精度随深程度的量化。然而,不同的近似方法激活不显著影响测试精度,但波动发生在训练。我们的方法也在其他数据集评估。表2展示了在相同条件下比较结果和结果27]。正如上面阐述的,BWN、TWN XNOR方法量化权重为1或2位的浮点每层而不是整个网络。然而,我们的方法达到2或3位定点的整个网络,可以使用移位操作在ASIC或FPGA。为了演示了该方法的有效性,我们也显示比较结果CIFAR100 (ResNet-34 ResNet-50)与更复杂的模型,如表所示3。


方法	重量(位)	激活(位)	MNIST	SVHN	CIFAR10

BNN	1	1	1.27	2.53	8.46
BWN	1	32	0.54	- - - - - -	7.25
TWN	2	32	0.65	- - - - - -	7.44
DoReFa	8	8	- - - - - -	2.30	- - - - - -
我们的	3	3	0.96	2.14	7.48


真空断路	BNN	XNOR	我们的

ResNet-34	48.81/78.32	53.28/81.29	61.33/87.22
ResNet-50	52.07/81.60	59.20/85.32	62.92/88.65

4.2。效应的变化

我们探索的影响参数在这一节中。如上所述,th调整微调重量状态概率影响最终的学习精度。图4显示了结果,这表明优秀的非线性。在这里,我们测试组合(−3,0.125)。显然,曲线的精度约为最好 ,而更大或更小的值可能会导致轻微的改善。获得相同的结果为其他组合几个实验。因此,我们采用本研究实验。

4.3。第一个和最后一个层量化的影响

第一个和最后一个层网络量化研究根据以前作品的关键。在当前的研究中,我们所有的实验不使量子化第一层。我们试图调查第一层量化的影响。结果总结在表4。我们测试的重量和激活量化组合(−3,0.125)。“+”和“−”表示有或没有重量相应层的量子化。


CIFAR10 / MNIST	BWN	BNN	我们的

+姓−	92.37/99.37	91.40/98.66	92.08/98.86
+姓+	92.21/99.41	91.30/98.52	91.96/98.55
−姓+	92.52/99.38	91.47/98.71	92.52/98.75
首先−−去年	92.75/99.46	91.54/98.73	92.12/99.04

显然,精度退化可能发生当量化第一或最后一层。我们的方法略优于BNN但并不比BWN量子化属性权重。

4.4。参数稀疏

大多数当前的人工智能应用程序是基于ResNet。因此,我们分析参数对ResNet-18稀疏。前夹大量权重的方法设置最重量的小值为零但不完全零(28]。相比之下,我们的方法可以获得精确的零值的权重。我们的方法使用组合的结果(−3、0.125)如表所示5。


层张量(重量)	完整的精度(1−稀疏)(%)	我们的方法(1−稀疏)(%)

Conv1 (64 3, 3, 3)	One hundred.	One hundred.
Conv2 (64、64、3、3)	One hundred.	85.32
Conv3 (64、64、3、3)	One hundred.	86.71
Conv4 (64、64、3、3)	One hundred.	85.84
Conv5 (64、64、3、3)	One hundred.	85.10
Conv6 (128、64、3、3)	One hundred.	86.04
Conv7 (128、128、3、3)	One hundred.	83.46
Conv8 (128、64、1、1)	One hundred.	86.52
Conv9 (128、128、3、3)	One hundred.	82.88
Conv10 (128、128、3、3)	One hundred.	80.75
Conv11 (256、128、3、3)	One hundred.	77.45
Conv12 (256、256、3、3)	One hundred.	70.23
Conv13 (256、128、1、1)	One hundred.	77.74
Conv14 (256、256、3、3)	One hundred.	59.51
Conv15 (256、256、3、3)	One hundred.	42.64
Conv16 (512、256、3、3)	One hundred.	22.16
Conv17 (512、512、3、3)	One hundred.	10.72
Conv18 (512、256、1、1)	One hundred.	41.56
Conv19 (512、512、3、3)	One hundred.	5.02
Conv20 (512、512、3、3)	One hundred.	3.46
1−稀疏	One hundred.	23.32
精度	93.74	92.52

显然,我们的方法可以获得大型稀疏卷积层参数,和几位高级层网络可能有价值的最终评价。后面比前面一层是稀疏的,这可能是修剪我们的未来的工作。作为一个尝试,我们修剪漂亮的稀疏层(conv19 conv20),发现精度下降和获得更紧凑的层。更有意义,培训和推理时间在一定程度上这可能显著降低硬件实现。

5。结论

深陷网络,计算成本和存储能力是关键因素,直接影响到学习的性能。压缩和加速网络旨在减少复杂模型的冗余。因此,我们引入了一个方法来训练网络权重和激活量子化的几位。我们发现我们的方法网络精度略有下降,而大幅减少存储和计算。有趣的是,我们的量化模型有明显稀疏,可能修剪ASIC或FPGA在未来人工智能。

数据可用性

使用的数据来支持本研究的发现是开放的数据集可以发现一般网站,和datasers也是免费的。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项研究支持部分由中国国家自然科学基金(资助号61602494),湖南省自然科学基金。

引用

g·e·辛顿,斯利瓦斯塔瓦,k . Swersky机器学习的神经网络卷。264年,多伦多大学,多伦多,加拿大,2012。
d . Bahdanau k .赵,y Bengio”神经共同学习对齐和翻译机器翻译,”2014年,http://arxiv.org/abs/1409.0473。视图:谷歌学术搜索
k . x张,他任美国,j .太阳”深入深入整流器:超越人类imagenet分类、性能”学报2015年IEEE计算机视觉国际会议(ICCV),页1026 - 1034,圣地亚哥,智利,2015年12月。视图:出版商的网站|谷歌学术搜索
a . Krizhevsky i Sutskever, g·e·辛顿“ImageNet分类与深卷积神经网络,”ACM的通信,60卷,不。6,84 - 90年,2017页。视图:出版商的网站|谷歌学术搜索
z Cai, x, j .太阳和n .塞·伐斯冈萨雷斯,他的“深度学习由半波高斯量化精度较低,”学报2017年IEEE计算机视觉与模式识别会议(CVPR)火奴鲁鲁,页5406 - 5414年,美国,2017年7月,你好。视图:出版商的网站|谷歌学术搜索
美国汉、h·毛和w·j·磨磨蹭蹭的,快“深度压缩:压缩与修剪深层神经网络,训练有素的量化和霍夫曼编码,”美国学习国际会议上表示美国,圣胡安,公关,2016年5月。视图:谷歌学术搜索
m . Courbariaux Hubara, d . Soudry r . El-Yaniv y Bengio,“关键神经网络:训练深层神经网络权重和激活约束+ 1或−1,”2016年,http://arxiv.org/abs/1602.02830。视图:谷歌学术搜索
m . Rastegari诉Ordonez j . Redmon, a·哈蒂”XNOR-Net: ImageNet分类使用二进制卷积神经网络,”2016年,http://arxiv.org/abs/1603.05279。视图:谷歌学术搜索
汉族,x Liu毛h . et al .,“易爱易。”ACM Sigarch计算机体系结构的消息,44卷,不。3、243 - 254年,2016页。视图:出版商的网站|谷歌学术搜索
h . s .汉x Liu毛et al .,“深度压缩和易爱易:高效压缩深层神经网络推理引擎,”学报2016年IEEE热芯片28研讨会(高碳钢)库比蒂诺,页1 - 6,CA,美国,2016年8月。视图:出版商的网站|谷歌学术搜索
h . m . b . Liu Wang Foroosh, m .她和m . Penksy“稀疏卷积神经网络,”学报2015年IEEE计算机视觉与模式识别会议(CVPR),页806 - 814,波士顿,MA,美国,2015年6月。视图:谷歌学术搜索
w·温,c .吴y, y . Chen和h·李,“在深层神经网络学习结构化稀疏,”2016年,http://arxiv.org/abs/1608.03665。视图:谷歌学术搜索
c .愣,h·李,美国朱,r·金”极低的神经网络:与小组ADMM榨干最后一点,”2017年,http://arxiv.org/abs/1707.09870。视图:谷歌学术搜索
t·张,你们美国,k . Zhang et al .,“系统重量修剪款框架使用乘数的交替方向方法,”电脑Vision-ECCV 2018施普林格,卷。11212年,可汗,瑞士,2018。视图:出版商的网站|谷歌学术搜索
批,p .莫尔恰诺夫表示,t。卡拉,t·艾拉和j . Kautz“修剪卷积神经网络资源有效的推理,“2017年,http://arxiv.org/abs/1611.06440。视图:谷歌学术搜索
曾长x, z本,x, y, m, d .周,“学习稀疏卷积神经网络通过量化等级较低正规化,”IEEE访问7卷,第51876 - 51866页,2019年。视图:出版商的网站|谷歌学术搜索
m·桑德勒a .霍华德·m·朱a . Zhmoginov L.-C。陈,“Mobilenetv2:倒残差和线性瓶颈,”学报2018年IEEE / CVF计算机视觉与模式识别会议,页4510 - 4520,盐湖城犹他,美国,2018年6月。视图:出版商的网站|谷歌学术搜索
a .霍华德·m·朱b . Chen等人“Mobilenets:高效移动视觉卷积神经网络应用程序,”2017年,http://arxiv.org/abs/1704.04861。视图:谷歌学术搜索
f . n . Iandola汉,m . w . Moskewicz k .阿什拉夫·w·j·磨磨蹭蹭的,快和k . Keutzer SqueezeNet: AlexNet-level准确性50 x更少的参数和< 0.5 mb的模型大小,”2016年,http://arxiv.org/abs/1602.07360。视图:谷歌学术搜索
张x, x周、m·林和j .太阳”Shufflenet:卷积神经网络在移动设备上非常有效,”学报2018年IEEE / CVF计算机视觉与模式识别会议,页6848 - 6856,盐湖城犹他,美国,2018年6月。视图:出版商的网站|谷歌学术搜索
m . Courbariaux y Bengio, j。大卫,“Binaryconnect:培训期间与二进制权重深层神经网络传播,”2015年,http://arxiv.org/abs/1511.00363。视图:谷歌学术搜索
f·李,张b, b . Liu“三元权重网络,”2016年,http://arxiv.org/abs/1605.04711。视图:谷歌学术搜索
n . Mellempudi茶室,d . Mudigere d·达斯b . Kaul Dubey p,“三元神经网络与细粒度的量子化,”2017年,http://arxiv.org/abs/1705.01462。视图:谷歌学术搜索
周,吴y、z倪周x h·温,和y .邹,“Dorefa-net:培训低进行卷积神经网络进行梯度较低,”2016年,http://arxiv.org/abs/1511.00363。视图:谷歌学术搜索
劳埃德,“最小二乘在PCM量子化,”IEEE信息理论,28卷,不。2、129 - 137年,1982页。视图:出版商的网站|谷歌学术搜索
l .邓·焦j .贝聿铭和g·李,z . Wu”Gxnor-net:培训与三元神经网络权重和激活软件不能没有内存统一离散化框架下,“神经网络卷。100年,49-58,2018页。视图:出版商的网站|谷歌学术搜索
s, g . Li f·陈,l .史”培训和推理与整数深层神经网络,”2018年,http://arxiv.org/abs/1802.04680。视图:谷歌学术搜索
a . Torfi r . a . Shirvani s Soleymani和n·m·Nasrabadi”引起引导结构化稀疏的深层神经网络,”2018年,http://arxiv.org/abs/1802.09902。视图:谷歌学术搜索

计算智能和神经科学

文摘

1。介绍

3所示。低位神经网络

3.1。点积函数

3.2。低位激活近似

3.2.1之上。向前逼近过程

3.2.2。向后逼近过程

3.3。低位重量量子化

3.3.1。体重前进过程中量化

3.3.2。体重量子化逆向过程

4所示。结果与讨论

4.1。探索的量化组合权重和激活

4.2。效应的变化

4.3。第一个和最后一个层量化的影响

4.4。参数稀疏

5。结论

数据可用性

的利益冲突

确认

引用

版权

更多相关文章

相关文章

计算智能和神经科学

一种新颖的低位量化压缩深层神经网络的策略

文摘

1。介绍

2。相关工作

3所示。低位神经网络

3.1。点积函数

3.2。低位激活近似

3.2.1之上。向前逼近过程

3.2.2。向后逼近过程

3.3。低位重量量子化

3.3.1。体重前进过程中量化

3.3.2。体重量子化逆向过程

4所示。结果与讨论

4.1。探索的量化组合权重和激活

4.2。效应的变化

4.3。第一个和最后一个层量化的影响

4.4。参数稀疏

5。结论

数据可用性

的利益冲突

确认

引用

版权

更多相关文章

相关文章