CIN 计算智能和神经科学 1687 - 5273 1687 - 5265 Hindawi 10.1155 / 2020/7839064 7839064 研究文章 一种新颖的低位量化压缩深层神经网络的策略 https://orcid.org/0000 - 0003 - 3338 - 3223 1 https://orcid.org/0000 - 0002 - 4247 - 9684 XiangRong 1 任贤齐 1 2 Dianle 3 Maojun 1 弗朗哥 莱奥纳多 1 系统工程学院 国防科技大学 长沙410073 中国 nudt.edu.cn 2 计算机学院 国防科技大学 长沙410073 中国 nudt.edu.cn 3 智能科学学院 国防科技大学 长沙410073 中国 nudt.edu.cn 2020年 18 2 2020年 2020年 01 09年 2019年 09年 01 2020年 22 01 2020年 18 2 2020年 2020年 版权©2020鑫长等。 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

神经网络模型的复杂性增加近年来成倍地扩大内存消耗和计算成本,从而阻碍他们的应用程序在ASIC, FPGA和其他移动设备。因此,压缩,加快神经网络是必要的。在这项研究中,我们引入一个新的策略训练低位网络权重和激活量化由几位和地址两个相应的基本问题。一是通过低位离散化近似激活减少网络计算成本和记忆点积。另一种是指定重量为离散权重量化和更新机制,避免梯度不匹配。与量化低位重量和激活,昂贵的软件不能操作将取而代之的是移位操作。我们评估该方法常见的数据,结果表明,该方法可以大大压缩轻微的神经网络精度损失。

中国国家自然科学基金 61602494 湖南省自然科学基金
1。介绍</t我tle> <p>深层神经网络,比如手写字符、图像识别、和许多新兴的人工智能应用,近年来取得了极大的成功(<xref ref-type="bibr" rid="B1"> 1</xref>- - - - - -<xref ref-type="bibr" rid="B3"> 3</xref>]。所有这些成就依赖于复杂的深度模型。在2012 ILSVRC竞赛,Krizhevsky构造多层网络(<xref ref-type="bibr" rid="B4"> 4</xref>]6000万参数,这个网络已经超过之前的所有方法的分类精度。然而,培训整个网络需要2到3天。深层网络引入大量层由于其复杂的结构,从而增加了模型尺寸(如50、200、250和500 MB, GoogleNet resnet - 101, AlexNet, VGG-Net,分别)(<xref ref-type="bibr" rid="B5"> 5</xref>)、计算复杂度和对能源消费的需求。因此,这些属性嵌入到移动设备是一个很大的挑战。在深层神经网络,计算成本和内存消耗主要由卷积操作,这就是体重和激活向量之间的点积。大多数现有的技术关注体重共享、修剪、量化,激活自由裁量权(<xref ref-type="bibr" rid="B6"> 6</xref>- - - - - -<xref ref-type="bibr" rid="B8"> 8</xref>]。他们还表现出大精度下降和高计算与浮动在训练和测试操作。在这项工作中,我们引入了一个方法来训练低位网络。一方面,本研究通过低位离散化近似于激活。另一方面,重量化和特别介绍了离散权重的更新机制。与量化低位网络权重和输出激活,昂贵的软件不能卷积操作将取而代之的是移位操作,精度和边际成本将略有减少。我们的方法将重要的嵌入式设备上,如ASIC或FPGA AI。</p></sec> <sec id="sec2"> <title>2。相关工作</t我tle> <p>在本节中,我们讨论相关工作从以下方面:<list> <list-item> <label>(我)</label> </list-item> </list></p> <p> <italic> 修剪和分享</我talic>。参数修剪和共享已经用来降低神经网络的复杂性,避免过度拟合模型。(<xref ref-type="bibr" rid="B6"> 6</xref>,<xref ref-type="bibr" rid="B9"> 9</xref>- - - - - -<xref ref-type="bibr" rid="B11"> 11</xref>]提出方法来找到并删除冗余连接用小重量值,量化权重通过重量共享。运行时内存保存和压缩的效果是非常有限的简单方法。</p><list-item> <label>(2)</label> <p> <italic> 结构化的修剪和Sparsifying</我talic>。一般来说,L1范数,L2范数、集团套索,和其他正规化条件是有效的学习在许多研究稀疏结构重量的方法。温家宝et al。(<xref ref-type="bibr" rid="B12"> 12</xref>)提出了结构化稀疏学习通过使用集团套索sparsify多个款结构(过滤器、通道,甚至层)。此外,作者的<xref ref-type="bibr" rid="B13"> 13</xref>- - - - - -<xref ref-type="bibr" rid="B16"> 16</xref>)也试图与稀疏的列车网络的调整,和测量通道的重要性的问题转化为优化问题。</p></list-item> <list-item> <label>(3)</label> <p> <italic> 特殊的神经结构</我talic>。减少计算失败和加速神经网络的推理过程通过设计特殊的体系结构。相关研究包括移动网络(<xref ref-type="bibr" rid="B17"> 17</xref>,<xref ref-type="bibr" rid="B18"> 18</xref>],挤压净[<xref ref-type="bibr" rid="B19"> 19</xref>],Shuffle-Net [<xref ref-type="bibr" rid="B20"> 20.</xref>采用卷积过滤器的体积小,深度方面卷积操作。</p></list-item> <list-item> <label>(iv)</label> <p> <italic> 重量和激活量子化</我talic>。我们提出量化方法也属于这一类。低位量子化方法意味着网络权重和激活是由离散值表示根据特殊的数学方法,它可以取代昂贵的原始浮点操作只有积累甚至二进制逻辑运算。的作者(<xref ref-type="bibr" rid="B21"> 21</xref>,<xref ref-type="bibr" rid="B22"> 22</xref>)首先约束权重的二元和三元空间。由此可见,权重和激活都映射到二元或三元空间,即、二进制神经网络(BNN) [<xref ref-type="bibr" rid="B7"> 7</xref>],XNOR-Net [<xref ref-type="bibr" rid="B8"> 8</xref>),三元神经网络(TNN) [<xref ref-type="bibr" rid="B23"> 23</xref>),直接取代multiply-accumulate操作的逻辑操作。DoReFa-Net [<xref ref-type="bibr" rid="B24"> 24</xref>不仅使量子化重量和激活,但也使量子化梯度低位宽度浮点数与离散状态向后传播。</p></list-item> <p></p> </sec> <sec id="sec3"> <title>3所示。低位神经网络</t我tle> <p>在本节中,我们专注于训练量化低位网络。具体来说,层输出的激活是量子化的,零个或两种减少存储和计算的能力。网络的权重也以同样的方式限制获得稀疏的模型。通过约束权重和激活零个或两个孩子的权力,可以取代昂贵的浮点乘法操作便宜转变操作(<xref ref-type="bibr" rid="B13"> 13</xref>]。</p><sec id="sec3.1"> <title>3.1。点积函数</t我tle> <p>深层神经网络通常由多个层,每个神经元在不同层计算激活功能:<d我sp-formula> <mml:math display="block" xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M1"> <mml:mtable> <mml:mlabeledtr id="EEq1"> <mml:mtd> <mml:mtext> (1)</mml:mtext> </mml:mtd> <mml:mtd> <mml:mi> z</mml:mi> <mml:mo> =</mml:mo> <mml:mi> f</mml:mi> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:msup> <mml:mrow> <mml:mi> w</mml:mi> </mml:mrow> <mml:mrow> <mml:mi> T</mml:mi> </mml:mrow> </mml:msup> <mml:mi> x</mml:mi> <mml:mo> +</mml:mo> <mml:mi> b</mml:mi> </mml:mrow> </mml:mfenced> <mml:mo> ,</mml:mo> </mml:mtd> </mml:mlabeledtr> </mml:mtable> </mml:math> </disp-formula>在哪里<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M2"> <mml:mi> z</mml:mi> </mml:math> </inline-formula>输出激活,<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M3"> <mml:mi> x</mml:mi> </mml:math> </inline-formula>输入向量,<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M4"> <mml:mi> x</mml:mi> </mml:math> </inline-formula>权向量,<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M5"> <mml:mi> b</mml:mi> </mml:math> </inline-formula>是偏见,<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M6"> <mml:mi> f</mml:mi> </mml:math> </inline-formula>是一个非线性函数,如ReLU。鉴于卷积网络,计算复杂性主要是由卷积操作。量化的压缩硬件的关键应用程序可以概括为两个方面。一个是大内存需要存储重量和激活。另一种是所需的计算成本计算大量的点积。困难在于浮点运算,这是有限的在实际应用<xref ref-type="bibr" rid="B5"> 5</xref>),本研究中进行讨论。图<xref ref-type="fig" rid="fig1"> 1</xref>显示标准的卷积过程和方法的示意图(DST将在部分<xref ref-type="sec" rid="sec3.3"> 3.3</xref>)。</p><f我g-group id="fig1"> <label>图1</label> <p>卷积操作管道。(一)一般卷积操作没有量化的重量和激活。(b)的描述方法与重量和激活量子化的低位。</p><f我g id="fig1a"> <label>(一)</label> <graphic xlink:href="//www.newsama.com/downloads/journals/cin/2020/7839064.fig.001a"></graphic> </fig> <fig id="fig1b"> <label>(b)</label> <graphic xlink:href="//www.newsama.com/downloads/journals/cin/2020/7839064.fig.001b"></graphic> </fig> </fig-group> </sec> <sec id="sec3.2"> <title>3.2。低位激活近似</t我tle> <p>在本节中,我们提出了一种新颖的近似策略激活量化和相应的合适的方法来保持反向传播的效率。</p><sec id="sec3.2.1"> <title>3.2.1之上。向前逼近过程</t我tle> <p>按照上面的讨论中,网络的激活是量子化的,零个或两个在这一节中。制定优化模型如下:<d我sp-formula> <mml:math display="block" xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M7"> <mml:mtable> <mml:mlabeledtr id="EEq2"> <mml:mtd> <mml:mtext> (2)</mml:mtext> </mml:mtd> <mml:mtd> <mml:mfenced open="{" close="" separators="|"> <mml:mrow> <mml:mtable class="cases"> <mml:mtr> <mml:mtd> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</mml:mi> <mml:mo> +</mml:mo> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msub> <mml:mo> =</mml:mo> <mml:mn> 2</mml:mn> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</mml:mi> </mml:mrow> </mml:msub> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</mml:mi> </mml:mrow> </mml:msub> <mml:mo> ≥</mml:mo> <mml:mn> 0</mml:mn> </mml:mrow> </mml:mfenced> <mml:mo> ,</mml:mo> </mml:mtd> </mml:mtr> <mml:mtr> <mml:mtd> <mml:mi> P</mml:mi> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mi> x</mml:mi> </mml:mrow> </mml:mfenced> <mml:mo> =</mml:mo> <mml:mfenced open="{" close="" separators="|"> <mml:mrow> <mml:mtable class="cases"> <mml:mtr> <mml:mtd> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</mml:mi> </mml:mrow> </mml:msub> <mml:mo> ,</mml:mo> </mml:mrow> </mml:mtd> <mml:mtd> <mml:mrow> <mml:mn> 0</mml:mn> <mml:mo> ≤</mml:mo> <mml:mi> x</mml:mi> <mml:mo> ∈</mml:mo> <mml:mfenced open="(" close="]" separators="|"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> t</mml:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</mml:mi> </mml:mrow> </mml:msub> <mml:mo> ,</mml:mo> <mml:mtext> </mml:mtext> <mml:msub> <mml:mrow> <mml:mi> t</mml:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</mml:mi> <mml:mo> +</mml:mo> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msub> </mml:mrow> </mml:mfenced> <mml:mo> ,</mml:mo> </mml:mrow> </mml:mtd> </mml:mtr> <mml:mtr> <mml:mtd> <mml:mrow> <mml:mo> −</mml:mo> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</mml:mi> </mml:mrow> </mml:msub> <mml:mo> ,</mml:mo> </mml:mrow> </mml:mtd> <mml:mtd> <mml:mrow> <mml:mn> 0</mml:mn> <mml:mo> ≥</mml:mo> <mml:mi> x</mml:mi> <mml:mo> ∈</mml:mo> <mml:mfenced open="[" close=")" separators="|"> <mml:mrow> <mml:mo> −</mml:mo> <mml:msub> <mml:mrow> <mml:mi> t</mml:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</mml:mi> <mml:mo> +</mml:mo> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msub> <mml:mo> ,</mml:mo> <mml:mtext> </mml:mtext> <mml:mo> −</mml:mo> <mml:msub> <mml:mrow> <mml:mi> t</mml:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</mml:mi> </mml:mrow> </mml:msub> </mml:mrow> </mml:mfenced> <mml:mo> ,</mml:mo> </mml:mrow> </mml:mtd> </mml:mtr> </mml:mtable> </mml:mrow> </mml:mfenced> </mml:mtd> </mml:mtr> </mml:mtable> </mml:mrow> </mml:mfenced> </mml:mtd> </mml:mlabeledtr> </mml:mtable> </mml:math> </disp-formula>在众多的参数值在时间间隔内吗<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M8"> <mml:mrow> <mml:mfenced open="(" close="]" separators="|"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> t</mml:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</mml:mi> </mml:mrow> </mml:msub> <mml:mo> ,</mml:mo> <mml:mtext> </mml:mtext> <mml:msub> <mml:mrow> <mml:mi> t</mml:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</mml:mi> <mml:mo> +</mml:mo> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msub> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>(<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M9"> <mml:mrow> <mml:mfenced open="[" close=")" separators="|"> <mml:mrow> <mml:mo> −</mml:mo> <mml:msub> <mml:mrow> <mml:mi> t</mml:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</mml:mi> <mml:mo> +</mml:mo> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msub> <mml:mo> ,</mml:mo> <mml:mtext> </mml:mtext> <mml:mo> −</mml:mo> <mml:msub> <mml:mrow> <mml:mi> t</mml:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</mml:mi> </mml:mrow> </mml:msub> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>)是量子化的到一个共同的价值<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M10"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</mml:mi> </mml:mrow> </mml:msub> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mo> −</mml:mo> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</mml:mi> </mml:mrow> </mml:msub> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>,<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M11"> <mml:mrow> <mml:mi> P</mml:mi> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mi> x</mml:mi> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>是我们新的离散激活函数定义。我们试图找到所有值的均方误差获取最优量化方法。因此,优化模型(<xref ref-type="disp-formula" rid="EEq2"> 2</xref>)可以转化为以下模型:<d我sp-formula> <mml:math display="block" xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M12"> <mml:mtable> <mml:mlabeledtr id="EEq3"> <mml:mtd> <mml:mtext> (3)</mml:mtext> </mml:mtd> <mml:mtd> <mml:mfenced open="{" close="" separators="|"> <mml:mrow> <mml:mtable class="cases"> <mml:mtr> <mml:mtd> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</mml:mi> <mml:mo> +</mml:mo> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msub> <mml:mo> =</mml:mo> <mml:mn> 2</mml:mn> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mi> 我</mml:mi> </mml:mrow> </mml:msub> <mml:mo> ,</mml:mo> </mml:mtd> </mml:mtr> <mml:mtr> <mml:mtd> <mml:msup> <mml:mrow> <mml:mi> P</mml:mi> </mml:mrow> <mml:mrow> <mml:mi> ∗</mml:mi> </mml:mrow> </mml:msup> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mi> x</mml:mi> </mml:mrow> </mml:mfenced> <mml:mo> =</mml:mo> <mml:munder> <mml:mrow> <mml:mi mathvariant="normal"> 参数</mml:mi> <mml:mi mathvariant="normal"> 最小值</mml:mi> </mml:mrow> <mml:mrow> <mml:mi> P</mml:mi> </mml:mrow> </mml:munder> <mml:msup> <mml:mrow> <mml:mstyle displaystyle="true"> <mml:mo stretchy="true"> ∫</mml:mo> </mml:mstyle> </mml:mrow> <mml:mrow> <mml:mtext></mml:mtext> </mml:mrow> </mml:msup> <mml:mi> φ</mml:mi> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mi> x</mml:mi> </mml:mrow> </mml:mfenced> <mml:msup> <mml:mrow> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mi> P</mml:mi> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mi> x</mml:mi> </mml:mrow> </mml:mfenced> <mml:mo> −</mml:mo> <mml:mi> x</mml:mi> </mml:mrow> </mml:mfenced> </mml:mrow> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msup> <mml:mtext> d</mml:mtext> <mml:mi> x</mml:mi> <mml:mo> ,</mml:mo> </mml:mtd> </mml:mtr> </mml:mtable> </mml:mrow> </mml:mfenced> </mml:mtd> </mml:mlabeledtr> </mml:mtable> </mml:math> </disp-formula>在哪里<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M13"> <mml:mrow> <mml:mi> φ</mml:mi> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mi> x</mml:mi> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>的概率密度函数是<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M14"> <mml:mi> x</mml:mi> </mml:math> </inline-formula>。在Cai的实现(<xref ref-type="bibr" rid="B4"> 4</xref>),我们应用批规范化的点积(<xref ref-type="disp-formula" rid="EEq1"> 1</xref>)来确定的亲密与零均值高斯分布和单位方差。因此,最优解(<xref ref-type="disp-formula" rid="EEq3"> 3</xref>)可以收购劳埃德算法(<xref ref-type="bibr" rid="B25"> 25</xref>]。因此,最好的分区<d我sp-formula> <mml:math display="block" xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M15"> <mml:mtable> <mml:mlabeledtr id="EEq4"> <mml:mtd> <mml:mtext> (4)</mml:mtext> </mml:mtd> <mml:mtd> <mml:mfenced open="{" close="" separators="|"> <mml:mrow> <mml:mtable class="cases"> <mml:mtr> <mml:mtd> <mml:msub> <mml:mrow> <mml:mi> P</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msub> <mml:mo> =</mml:mo> <mml:mfenced open="{" close="}" separators="|"> <mml:mrow> <mml:mi> x</mml:mi> <mml:mo> ,</mml:mo> <mml:mtext> </mml:mtext> <mml:mn> 0</mml:mn> <mml:mo> ≤</mml:mo> <mml:mi> x</mml:mi> <mml:mo> ≤</mml:mo> <mml:msub> <mml:mrow> <mml:mi> x</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msub> </mml:mrow> </mml:mfenced> <mml:mo> ,</mml:mo> </mml:mtd> </mml:mtr> <mml:mtr> <mml:mtd> <mml:msub> <mml:mrow> <mml:mi> P</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msub> <mml:mo> =</mml:mo> <mml:mfenced open="{" close="}" separators="|"> <mml:mrow> <mml:mi> x</mml:mi> <mml:mo> ,</mml:mo> <mml:mtext> </mml:mtext> <mml:msub> <mml:mrow> <mml:mi> x</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msub> <mml:mo> <</mml:mo> <mml:mi> x</mml:mi> <mml:mo> ≤</mml:mo> <mml:msub> <mml:mrow> <mml:mi> x</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msub> </mml:mrow> </mml:mfenced> <mml:mo> ,</mml:mo> </mml:mtd> </mml:mtr> <mml:mtr> <mml:mtd> <mml:mo> ⋯</mml:mo> </mml:mtd> </mml:mtr> <mml:mtr> <mml:mtd> <mml:msub> <mml:mrow> <mml:mi> P</mml:mi> </mml:mrow> <mml:mrow> <mml:mi> v</mml:mi> <mml:mo> −</mml:mo> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msub> <mml:mo> =</mml:mo> <mml:mfenced open="{" close="}" separators="|"> <mml:mrow> <mml:mi> x</mml:mi> <mml:mo> ,</mml:mo> <mml:mtext> </mml:mtext> <mml:msub> <mml:mrow> <mml:mi> x</mml:mi> </mml:mrow> <mml:mrow> <mml:mi> v</mml:mi> <mml:mo> −</mml:mo> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msub> <mml:mo> <</mml:mo> <mml:mi> x</mml:mi> <mml:mo> ≤</mml:mo> <mml:msub> <mml:mrow> <mml:mi> x</mml:mi> </mml:mrow> <mml:mrow> <mml:mi> v</mml:mi> <mml:mo> −</mml:mo> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msub> </mml:mrow> </mml:mfenced> <mml:mo> ,</mml:mo> </mml:mtd> </mml:mtr> <mml:mtr> <mml:mtd> <mml:msub> <mml:mrow> <mml:mi> P</mml:mi> </mml:mrow> <mml:mrow> <mml:mi> v</mml:mi> </mml:mrow> </mml:msub> <mml:mo> =</mml:mo> <mml:mfenced open="{" close="}" separators="|"> <mml:mrow> <mml:mi> x</mml:mi> <mml:mo> ,</mml:mo> <mml:mtext> </mml:mtext> <mml:msub> <mml:mrow> <mml:mi> x</mml:mi> </mml:mrow> <mml:mrow> <mml:mi> v</mml:mi> <mml:mo> −</mml:mo> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msub> <mml:mo> <</mml:mo> <mml:mi> x</mml:mi> <mml:mo> ≤</mml:mo> <mml:mi> ∞</mml:mi> </mml:mrow> </mml:mfenced> <mml:mo> ,</mml:mo> </mml:mtd> </mml:mtr> </mml:mtable> </mml:mrow> </mml:mfenced> </mml:mtd> </mml:mlabeledtr> </mml:mtable> </mml:math> </disp-formula>在哪里<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M16"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> P</mml:mi> </mml:mrow> <mml:mrow> <mml:mi> v</mml:mi> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>表示不同的价值区间<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M17"> <mml:mi> x</mml:mi> </mml:math> </inline-formula>。每个区间的端点<d我sp-formula> <mml:math display="block" xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M18"> <mml:mtable> <mml:mlabeledtr id="EEq5"> <mml:mtd> <mml:mtext> (5)</mml:mtext> </mml:mtd> <mml:mtd> <mml:mfenced open="{" close="" separators="|"> <mml:mrow> <mml:mtable class="cases"> <mml:mtr> <mml:mtd> <mml:msub> <mml:mrow> <mml:mi> x</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msub> <mml:mo> =</mml:mo> <mml:mfrac> <mml:mn> 1</mml:mn> <mml:mn> 2</mml:mn> </mml:mfrac> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msub> <mml:mo> +</mml:mo> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msub> </mml:mrow> </mml:mfenced> <mml:mo> ,</mml:mo> </mml:mtd> </mml:mtr> <mml:mtr> <mml:mtd> <mml:msub> <mml:mrow> <mml:mi> x</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msub> <mml:mo> =</mml:mo> <mml:mfrac> <mml:mn> 1</mml:mn> <mml:mn> 2</mml:mn> </mml:mfrac> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msub> <mml:mo> +</mml:mo> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 3</mml:mn> </mml:mrow> </mml:msub> </mml:mrow> </mml:mfenced> <mml:mo> ,</mml:mo> </mml:mtd> </mml:mtr> <mml:mtr> <mml:mtd> <mml:mo> ⋯</mml:mo> </mml:mtd> </mml:mtr> <mml:mtr> <mml:mtd> <mml:msub> <mml:mrow> <mml:mi> x</mml:mi> </mml:mrow> <mml:mrow> <mml:mi> v</mml:mi> <mml:mo> −</mml:mo> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msub> <mml:mo> =</mml:mo> <mml:mfrac> <mml:mn> 1</mml:mn> <mml:mn> 2</mml:mn> </mml:mfrac> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mi> v</mml:mi> <mml:mo> −</mml:mo> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msub> <mml:mo> +</mml:mo> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mi> v</mml:mi> </mml:mrow> </mml:msub> </mml:mrow> </mml:mfenced> <mml:mo> ,</mml:mo> </mml:mtd> </mml:mtr> <mml:mtr> <mml:mtd> <mml:msub> <mml:mrow> <mml:mi> x</mml:mi> </mml:mrow> <mml:mrow> <mml:mi> v</mml:mi> </mml:mrow> </mml:msub> <mml:mo> =</mml:mo> <mml:mfrac> <mml:mn> 1</mml:mn> <mml:mn> 2</mml:mn> </mml:mfrac> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mi> v</mml:mi> </mml:mrow> </mml:msub> <mml:mo> +</mml:mo> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mi> v</mml:mi> <mml:mo> +</mml:mo> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msub> </mml:mrow> </mml:mfenced> <mml:mo> ,</mml:mo> </mml:mtd> </mml:mtr> </mml:mtable> </mml:mrow> </mml:mfenced> </mml:mtd> </mml:mlabeledtr> </mml:mtable> </mml:math> </disp-formula>我们设置<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M19"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msub> <mml:mo> =</mml:mo> <mml:mn> 0</mml:mn> </mml:mrow> </mml:math> </inline-formula>并考虑区间的对称<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M20"> <mml:mrow> <mml:mi> x</mml:mi> <mml:mo> <</mml:mo> <mml:mn> 0</mml:mn> </mml:mrow> </mml:math> </inline-formula>。因此,最终的优化函数的量化器<d我sp-formula> <mml:math display="block" xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M21"> <mml:mtable> <mml:mlabeledtr id="EEq6"> <mml:mtd> <mml:mtext> (6)</mml:mtext> </mml:mtd> <mml:mtd> <mml:munder> <mml:mrow> <mml:mi mathvariant="normal"> 参数</mml:mi> <mml:mi mathvariant="normal"> 最小值</mml:mi> </mml:mrow> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msub> </mml:mrow> </mml:munder> <mml:mfenced open="{" close="}" separators="|"> <mml:mrow> <mml:mstyle displaystyle="true"> <mml:mrow> <mml:msubsup> <mml:mo stretchy="true"> ∫</mml:mo> <mml:mn> 0</mml:mn> <mml:mrow> <mml:mrow> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msub> </mml:mrow> <mml:mo> /</mml:mo> <mml:mn> 2</mml:mn> </mml:mrow> </mml:mrow> </mml:msubsup> <mml:mrow> <mml:mi> φ</mml:mi> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mi> x</mml:mi> </mml:mrow> </mml:mfenced> <mml:msup> <mml:mrow> <mml:mi> x</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msup> <mml:mtext> d</mml:mtext> <mml:mi> x</mml:mi> </mml:mrow> </mml:mrow> </mml:mstyle> <mml:mo> +</mml:mo> <mml:mstyle displaystyle="true"> <mml:mrow> <mml:msubsup> <mml:mo stretchy="true"> ∫</mml:mo> <mml:mrow> <mml:mrow> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msub> </mml:mrow> <mml:mo> /</mml:mo> <mml:mn> 2</mml:mn> </mml:mrow> </mml:mrow> <mml:mrow> <mml:mrow> <mml:mrow> <mml:mn> 3</mml:mn> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msub> </mml:mrow> <mml:mo> /</mml:mo> <mml:mn> 2</mml:mn> </mml:mrow> </mml:mrow> </mml:msubsup> <mml:mrow> <mml:mi> φ</mml:mi> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mi> x</mml:mi> </mml:mrow> </mml:mfenced> <mml:msup> <mml:mrow> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msub> <mml:mo> −</mml:mo> <mml:mi> x</mml:mi> </mml:mrow> </mml:mfenced> </mml:mrow> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msup> <mml:mtext> d</mml:mtext> <mml:mi> x</mml:mi> </mml:mrow> </mml:mrow> </mml:mstyle> <mml:mo> +</mml:mo> <mml:munderover> <mml:mstyle displaystyle="true"> <mml:mo stretchy="true"> ∑</mml:mo> </mml:mstyle> <mml:mrow> <mml:mi> 我</mml:mi> <mml:mo> =</mml:mo> <mml:mn> 3</mml:mn> </mml:mrow> <mml:mi> n</mml:mi> </mml:munderover> <mml:mstyle displaystyle="true"> <mml:mrow> <mml:msubsup> <mml:mo stretchy="true"> ∫</mml:mo> <mml:mrow> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mn> 3</mml:mn> <mml:mo> /</mml:mo> <mml:mn> 2</mml:mn> </mml:mrow> </mml:mfenced> <mml:msup> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> <mml:mrow> <mml:mi> 我</mml:mi> <mml:mo> −</mml:mo> <mml:mn> 3</mml:mn> </mml:mrow> </mml:msup> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msub> </mml:mrow> <mml:mrow> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mn> 3</mml:mn> <mml:mo> /</mml:mo> <mml:mn> 2</mml:mn> </mml:mrow> </mml:mfenced> <mml:msup> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> <mml:mrow> <mml:mi> 我</mml:mi> <mml:mo> −</mml:mo> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msup> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msub> </mml:mrow> </mml:msubsup> <mml:mrow> <mml:mi> φ</mml:mi> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mi> x</mml:mi> </mml:mrow> </mml:mfenced> <mml:msup> <mml:mrow> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:msup> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> <mml:mrow> <mml:mi> 我</mml:mi> <mml:mo> −</mml:mo> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msup> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msub> <mml:mo> −</mml:mo> <mml:mi> x</mml:mi> </mml:mrow> </mml:mfenced> </mml:mrow> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msup> <mml:mtext> d</mml:mtext> <mml:mi> x</mml:mi> </mml:mrow> </mml:mrow> </mml:mstyle> <mml:mo> +</mml:mo> <mml:mstyle displaystyle="true"> <mml:mrow> <mml:msubsup> <mml:mo stretchy="true"> ∫</mml:mo> <mml:mrow> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mn> 3</mml:mn> <mml:mo> /</mml:mo> <mml:mn> 2</mml:mn> </mml:mrow> </mml:mfenced> <mml:msup> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> <mml:mrow> <mml:mi> 我</mml:mi> <mml:mo> −</mml:mo> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msup> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msub> </mml:mrow> <mml:mrow> <mml:mo> +</mml:mo> <mml:mi> ∞</mml:mi> </mml:mrow> </mml:msubsup> <mml:mrow> <mml:mi> φ</mml:mi> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mi> x</mml:mi> </mml:mrow> </mml:mfenced> <mml:msup> <mml:mrow> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:msup> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> <mml:mrow> <mml:mi> n</mml:mi> <mml:mo> −</mml:mo> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msup> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msub> <mml:mo> −</mml:mo> <mml:mi> x</mml:mi> </mml:mrow> </mml:mfenced> </mml:mrow> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msup> <mml:mtext> d</mml:mtext> <mml:mi> x</mml:mi> </mml:mrow> </mml:mrow> </mml:mstyle> </mml:mrow> </mml:mfenced> <mml:mo> ,</mml:mo> </mml:mtd> </mml:mlabeledtr> </mml:mtable> </mml:math> </disp-formula>在哪里<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M22"> <mml:mrow> <mml:mi> φ</mml:mi> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mi> x</mml:mi> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>是标准正态分布的概率密度函数,<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M23"> <mml:mi> n</mml:mi> </mml:math> </inline-formula>是激活的比特数的函数。只有一个变量被认为是在(<xref ref-type="disp-formula" rid="EEq6"> 6</xref>)。因此,上述公式有一个理论上的解决方案。然而,实验中我们采用遗传算法分割变量限制积分求解上的困难。表<xref ref-type="table" rid="tab1"> 1</xref>显示了不同的最优误差<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M24"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>值。进一步细化<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M25"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>,我们仍然得到同样的错误值为0.0189。</p><table-wrap id="tab1"> <label>表1</label> <p>期望误差的不同<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M26"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>值。</p><table> <thead> <tr> <th align="left">计划</th> <th align="center"> <inline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M27"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>= 0.0625</th> <th align="center"> <inline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M28"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>= 0.125</th> <th align="center"> <inline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M29"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>= 0.25</th> <th align="center"> <inline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M30"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>= 0.5</th> <th align="center"> <inline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M31"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>= 1</th> </tr> </thead> <tbody> <tr> <td align="left"> <inline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M32"> <mml:mrow> <mml:mi> n</mml:mi> <mml:mo> =</mml:mo> <mml:mn> 3</mml:mn> </mml:mrow> </mml:math> </inline-formula></td> <td align="center">0.4078</td><tdalign="center">0.3298</td><tdalign="center">0.2106</td><tdalign="center">0.0825</td><tdalign="center">0.0458</td></tr> <tr> <td align="left"> <inline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M33"> <mml:mrow> <mml:mi> n</mml:mi> <mml:mo> =</mml:mo> <mml:mn> 4</mml:mn> </mml:mrow> </mml:math> </inline-formula></td> <td align="center">0.3298</td><tdalign="center">0.2103</td><tdalign="center">0.0795</td><tdalign="center">0.0239</td><tdalign="center">0.0443</td></tr> <tr> <td align="left"> <inline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M34"> <mml:mrow> <mml:mi> n</mml:mi> <mml:mo> =</mml:mo> <mml:mn> 5</mml:mn> </mml:mrow> </mml:math> </inline-formula></td> <td align="center">0.2102</td><tdalign="center">0.0791</td><tdalign="center">0.0209</td><tdalign="center">0.0223</td><tdalign="center">0.0443</td></tr> <tr> <td align="left"> <inline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M35"> <mml:mrow> <mml:mi> n</mml:mi> <mml:mo> =</mml:mo> <mml:mn> 6</mml:mn> </mml:mrow> </mml:math> </inline-formula></td> <td align="center">0.0790</td><tdalign="center">0.0205</td><tdalign="center">0.0193</td><tdalign="center">0.0223</td><tdalign="center">0.0443</td></tr> <tr> <td align="left"> <inline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M36"> <mml:mrow> <mml:mi> n</mml:mi> <mml:mo> =</mml:mo> <mml:mn> 7</mml:mn> </mml:mrow> </mml:math> </inline-formula></td> <td align="center">0.0204</td><tdalign="center"> <bold> 0.0189</bold></td> <td align="center">0.0193</td><tdalign="center">0.0223</td><tdalign="center">0.0443</td></tr> <tr> <td align="left"> <inline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M37"> <mml:mrow> <mml:mi> n</mml:mi> <mml:mo> =</mml:mo> <mml:mn> 8</mml:mn> </mml:mrow> </mml:math> </inline-formula></td> <td align="center"> <bold> 0.0189</bold></td> <td align="center"> <bold> 0.0189</bold></td> <td align="center">0.0193</td><tdalign="center">0.0223</td><tdalign="center">0.0443</td></tr> </tbody> </table> </table-wrap> </sec> <sec id="sec3.2.2"> <title>3.2.2。向后逼近过程</t我tle> <p>自后相同时间间隔内积值相等用近似法,提出零导数几乎无处不在。因此,我们在这里提出了一个更好的可能落后的解决方案,最后反向传播过程中实验结果证明其可行性。</p><p>为<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M38"> <mml:mrow> <mml:mn> 0</mml:mn> <mml:mo> ≤</mml:mo> <mml:mi> x</mml:mi> <mml:mo> ≤</mml:mo> <mml:msub> <mml:mrow> <mml:mi> x</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>,我们大概在这个区间内所有值为零,类似于ReLU函数,它不需要更新。考虑高斯分布的点积上面所提到的,大量的激活落入间隔接近于零。我们保持这一部分的梯度。为我们的量化方法,激活时间间隔内,<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M39"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> P</mml:mi> </mml:mrow> <mml:mrow> <mml:mi> v</mml:mi> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>有很小的概率。在这种情况下,我们需要限制自己的更新,防止他们更新其他的间隔,保持网络的准确性。量化函数的导数具有以下形式:<d我sp-formula> <mml:math display="block" xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M40"> <mml:mtable> <mml:mlabeledtr id="EEq7"> <mml:mtd> <mml:mtext> (7)</mml:mtext> </mml:mtd> <mml:mtd> <mml:mfrac> <mml:mrow> <mml:mo> ∂</mml:mo> <mml:mi> C</mml:mi> </mml:mrow> <mml:mrow> <mml:mo> ∂</mml:mo> <mml:mi> P</mml:mi> </mml:mrow> </mml:mfrac> <mml:mo> =</mml:mo> <mml:mfenced open="{" close="" separators="|"> <mml:mrow> <mml:mtable class="cases"> <mml:mtr columnalign="left"> <mml:mtd columnalign="left"> <mml:mrow> <mml:mn> 0</mml:mn> <mml:mo> ,</mml:mo> </mml:mrow> </mml:mtd> <mml:mtd columnalign="left"> <mml:mrow> <mml:mn> 0</mml:mn> <mml:mo> ≤</mml:mo> <mml:mi> x</mml:mi> <mml:mo> ≤</mml:mo> <mml:msub> <mml:mrow> <mml:mi> x</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msub> <mml:mo> ,</mml:mo> </mml:mrow> </mml:mtd> </mml:mtr> <mml:mtr columnalign="left"> <mml:mtd columnalign="left"> <mml:mrow> <mml:mn> 1</mml:mn> <mml:mo> ,</mml:mo> </mml:mrow> </mml:mtd> <mml:mtd columnalign="left"> <mml:mrow> <mml:mi> x</mml:mi> <mml:mo> ∈</mml:mo> <mml:mfenced open="(" close="]" separators="|"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> x</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msub> <mml:mo> ,</mml:mo> <mml:msub> <mml:mrow> <mml:mi> x</mml:mi> </mml:mrow> <mml:mrow> <mml:mi> v</mml:mi> <mml:mo> −</mml:mo> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msub> </mml:mrow> </mml:mfenced> <mml:mo> ,</mml:mo> </mml:mrow> </mml:mtd> </mml:mtr> <mml:mtr columnalign="left"> <mml:mtd columnalign="left"> <mml:mrow> <mml:mfrac> <mml:mn> 1</mml:mn> <mml:mrow> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mi> x</mml:mi> <mml:mo> −</mml:mo> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> x</mml:mi> </mml:mrow> <mml:mrow> <mml:mi> v</mml:mi> <mml:mo> −</mml:mo> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msub> <mml:mo> −</mml:mo> <mml:mn> 1</mml:mn> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:mfrac> <mml:mo> ,</mml:mo> </mml:mrow> </mml:mtd> <mml:mtd columnalign="left"> <mml:mrow> <mml:mi> x</mml:mi> <mml:mo> ></mml:mo> <mml:msub> <mml:mrow> <mml:mi> x</mml:mi> </mml:mrow> <mml:mrow> <mml:mi> v</mml:mi> <mml:mo> −</mml:mo> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msub> <mml:mo> 。</mml:mo> </mml:mrow> </mml:mtd> </mml:mtr> </mml:mtable> </mml:mrow> </mml:mfenced> </mml:mtd> </mml:mlabeledtr> </mml:mtable> </mml:math> </disp-formula></p> <p>为<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M41"> <mml:mrow> <mml:mi> x</mml:mi> <mml:mo> <</mml:mo> <mml:mn> 0</mml:mn> </mml:mrow> </mml:math> </inline-formula>,考虑间隔对称。在最后的实验中,我们发现这种方法保持反向传播,使学习的效率稳定。</p></sec> </sec> <sec id="sec3.3"> <title>3.3。低位重量量子化</t我tle> <p>上面显示的重量量化可以解决使用各种方法,如BWN DoReFa-Net, XNOR [<xref ref-type="bibr" rid="B8"> 8</xref>,<xref ref-type="bibr" rid="B21"> 21</xref>,<xref ref-type="bibr" rid="B24"> 24</xref>]。然而,我们必须拯救不能向后计算在这些网络权重;这种方法可能会导致频繁的外部存储器和参数存储之间的数据交换(<xref ref-type="bibr" rid="B26"> 26</xref>]。在本节中,我们提出一个简单的离散函数映射两个权重为零或权力。这种方式取代了浮点操作转移操作硬件的逆向过程,避免了大量计算和内存硬件部署。</p><sec id="sec3.3.1"> <title>3.3.1。体重前进过程中量化</t我tle> <p>在一开始,我们已经考虑了体重在前进过程中离散化和更新在离散域的限制。然而,重量是量子化的离散序列相等的比例,这是很难在反向传播更新相应规定的量化值。离散值的非均匀分布是主要问题。类似的作品如BWN、DoReFa-Net XNOR,体重在这些方面的导数为零几乎无处不在,这显然不符合反向传播,不能和梯度计算是基于存储位置权重,和频繁的数据交换需要在培训阶段。针对这一点,我们寻求直接离散网络权重为零或权力的两个逆向过程中为了避免梯度不匹配问题,除了前进的过程。</p></sec> <sec id="sec3.3.2"> <title>3.3.2。体重量子化逆向过程</t我tle> <p>我们引入离散值的权重更新机制落后的过程中为了避免梯度不匹配。从之前的作品,我们发现可以限制重量值(−1,1)在我们的量化方法。在一开始,我们引入离散状态转换(DST)问题,供以后使用。我们让<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M42"> <mml:mrow> <mml:mi> Δ</mml:mi> <mml:mi> w</mml:mi> </mml:mrow> </mml:math> </inline-formula>体重的变化,<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M43"> <mml:mi> w</mml:mi> </mml:math> </inline-formula>更新后的重量,<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M44"> <mml:msup> <mml:mrow> <mml:mi> w</mml:mi> </mml:mrow> <mml:mrow> <mml:mo> ′</mml:mo> </mml:mrow> </mml:msup> </mml:math> </inline-formula>是原始的重量。因此,<d我sp-formula> <mml:math display="block" xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M45"> <mml:mtable> <mml:mlabeledtr id="EEq8"> <mml:mtd> <mml:mtext> (8)</mml:mtext> </mml:mtd> <mml:mtd> <mml:mi> Δ</mml:mi> <mml:mi> w</mml:mi> <mml:mo> =</mml:mo> <mml:mi> w</mml:mi> <mml:mo> −</mml:mo> <mml:msup> <mml:mrow> <mml:mi> w</mml:mi> </mml:mrow> <mml:mrow> <mml:mo> ′</mml:mo> </mml:mrow> </mml:msup> <mml:mo> 。</mml:mo> </mml:mtd> </mml:mlabeledtr> </mml:mtable> </mml:math> </disp-formula></p> <p> <italic> l</我talic>的最小间隔的量化定义的重量,是吗<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M46"> <mml:mrow> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mn> 0</mml:mn> <mml:mo> ,</mml:mo> <mml:mo> ±</mml:mo> <mml:msup> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> <mml:mrow> <mml:mo> −</mml:mo> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msup> <mml:mo> ,</mml:mo> <mml:mo> ±</mml:mo> <mml:msup> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> <mml:mrow> <mml:mo> −</mml:mo> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msup> <mml:mo> ,</mml:mo> <mml:mo> ±</mml:mo> <mml:msup> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> <mml:mrow> <mml:mn> 0</mml:mn> </mml:mrow> </mml:msup> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>,<我talic> l</我talic>是<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M47"> <mml:mrow> <mml:msup> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> <mml:mrow> <mml:mo> −</mml:mo> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msup> </mml:mrow> </mml:math> </inline-formula>。为了方便起见,七个可能的整数<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M48"> <mml:mrow> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mn> 0</mml:mn> <mml:mo> ,</mml:mo> <mml:mo> ±</mml:mo> <mml:mn> 1</mml:mn> <mml:mo> ,</mml:mo> <mml:mo> ±</mml:mo> <mml:mn> 2</mml:mn> <mml:mo> ,</mml:mo> <mml:mo> ±</mml:mo> <mml:mn> 4</mml:mn> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>被认为是当我们限制重量吗<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M49"> <mml:mrow> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mn> 0</mml:mn> <mml:mo> ,</mml:mo> <mml:mo> ±</mml:mo> <mml:msup> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> <mml:mrow> <mml:mo> −</mml:mo> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msup> <mml:mo> ,</mml:mo> <mml:mo> ±</mml:mo> <mml:msup> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> <mml:mrow> <mml:mo> −</mml:mo> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msup> <mml:mo> ,</mml:mo> <mml:mo> ±</mml:mo> <mml:msup> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> <mml:mrow> <mml:mn> 0</mml:mn> </mml:mrow> </mml:msup> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>。连续的重量需要映射到这些离散的整数。因此,我们采用轮操作:<d我sp-formula> <mml:math display="block" xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M50"> <mml:mtable> <mml:mlabeledtr id="EEq9"> <mml:mtd> <mml:mtext> (9)</mml:mtext> </mml:mtd> <mml:mtd> <mml:mi> w</mml:mi> <mml:mtext> _state</mml:mtext> <mml:mo> =</mml:mo> <mml:mtext> 轮</mml:mtext> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mfrac> <mml:mi> x</mml:mi> <mml:mrow> <mml:msup> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> <mml:mrow> <mml:mo> −</mml:mo> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msup> </mml:mrow> </mml:mfrac> </mml:mrow> </mml:mfenced> <mml:mo> ,</mml:mo> </mml:mtd> </mml:mlabeledtr> </mml:mtable> </mml:math> </disp-formula>轮是圆的操作在数学和在哪里<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M51"> <mml:mi> x</mml:mi> </mml:math> </inline-formula>是任意值在[−1,1]。<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M52"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> w</mml:mi> </mml:mrow> <mml:mrow> <mml:mtext> 状态</mml:mtext> </mml:mrow> </mml:msub> <mml:mo> =</mml:mo> <mml:mo> ±</mml:mo> <mml:mn> 3</mml:mn> </mml:mrow> </mml:math> </inline-formula>不是上述定义的离散的重量。因此,我们介绍了二项分布两边跳进整数定义状态:<d我sp-formula> <mml:math display="block" xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M53"> <mml:mtable> <mml:mlabeledtr id="EEq10"> <mml:mtd> <mml:mtext> (10)</mml:mtext> </mml:mtd> <mml:mtd> <mml:msubsup> <mml:mi> w</mml:mi> <mml:mrow> <mml:mtext> 状态</mml:mtext> </mml:mrow> <mml:mrow> <mml:mo> ′</mml:mo> </mml:mrow> </mml:msubsup> <mml:mo> =</mml:mo> <mml:mi> p</mml:mi> <mml:mo> ×</mml:mo> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mo> ±</mml:mo> <mml:msup> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> <mml:mrow> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msup> </mml:mrow> </mml:mfenced> <mml:mo> +</mml:mo> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mn> 1</mml:mn> <mml:mo> −</mml:mo> <mml:mi> p</mml:mi> </mml:mrow> </mml:mfenced> <mml:mo> ×</mml:mo> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mo> ±</mml:mo> <mml:msup> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msup> </mml:mrow> </mml:mfenced> <mml:mo> ,</mml:mo> </mml:mtd> </mml:mlabeledtr> </mml:mtable> </mml:math> </disp-formula>正面和负面的迹象都是积极或消极的同时,还有呢<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M54"> <mml:mi> p</mml:mi> </mml:math> </inline-formula>有一个0或1的概率(我们使用随机数<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M55"> <mml:mi> p</mml:mi> </mml:math> </inline-formula>,等概率是0或1)。图<xref ref-type="fig" rid="fig2"> 2</xref>显示了上述过程。</p><f我g id="fig2"> <label>图2</label> <p>二名式命名法的选择未定义的状态<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M56"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> w</mml:mi> </mml:mrow> <mml:mrow> <mml:mtext> 状态</mml:mtext> </mml:mrow> </mml:msub> <mml:mo> =</mml:mo> <mml:mo> ±</mml:mo> <mml:mn> 3</mml:mn> </mml:mrow> </mml:math> </inline-formula>。</p><graphic xlink:href="//www.newsama.com/downloads/journals/cin/2020/7839064.fig.002"></graphic> </fig> <p>最后,定义的体重状态需要转化成重量值:<d我sp-formula> <mml:math display="block" xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M57"> <mml:mtable> <mml:mlabeledtr id="EEq11"> <mml:mtd> <mml:mtext> (11)</mml:mtext> </mml:mtd> <mml:mtd> <mml:mi> w</mml:mi> <mml:mo> =</mml:mo> <mml:mi> w</mml:mi> <mml:mtext> _state</mml:mtext> <mml:mo> ×</mml:mo> <mml:msup> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> <mml:mrow> <mml:mo> −</mml:mo> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msup> <mml:mo> 。</mml:mo> </mml:mtd> </mml:mlabeledtr> </mml:mtable> </mml:math> </disp-formula></p> <p>通过这种方式,我们可以成功地连续重量转换成离散定义权重。我们将重量变化转换成定义离散状态转换。首先,我们分解<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M58"> <mml:mrow> <mml:mi> Δ</mml:mi> <mml:mi> w</mml:mi> </mml:mrow> </mml:math> </inline-formula>为整数和小数部分的最小间隔量化重量:<d我sp-formula> <mml:math display="block" xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M59"> <mml:mtable> <mml:mlabeledtr id="EEq12"> <mml:mtd rowspan="2"> <mml:mtext> (12)</mml:mtext> </mml:mtd> <mml:mtd> <mml:mi> k</mml:mi> <mml:mo> =</mml:mo> <mml:mtext> 标志</mml:mtext> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mi> Δ</mml:mi> <mml:mi> w</mml:mi> </mml:mrow> </mml:mfenced> <mml:mo> ×</mml:mo> <mml:mtext> 地板上</mml:mtext> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mfrac> <mml:mrow> <mml:mfenced open="|" close="|" separators="|"> <mml:mrow> <mml:mi> Δ</mml:mi> <mml:mi> w</mml:mi> </mml:mrow> </mml:mfenced> </mml:mrow> <mml:mi> l</mml:mi> </mml:mfrac> </mml:mrow> </mml:mfenced> <mml:mo> ,</mml:mo> </mml:mtd> </mml:mlabeledtr> <mml:mtr> <mml:mtd> <mml:mi> v</mml:mi> <mml:mo> =</mml:mo> <mml:mi> Δ</mml:mi> <mml:mi> w</mml:mi> <mml:mo> −</mml:mo> <mml:mi> k</mml:mi> <mml:mo> ×</mml:mo> <mml:mi> l</mml:mi> <mml:mo> ,</mml:mo> </mml:mtd> </mml:mtr> </mml:mtable> </mml:math> </disp-formula>在哪里<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M60"> <mml:mrow> <mml:mtext> 地板上</mml:mtext> </mml:mrow> </mml:math> </inline-formula>代表了一轮下来,<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M61"> <mml:mi> k</mml:mi> </mml:math> </inline-formula>是整数的体重状态转换,<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M62"> <mml:mi> v</mml:mi> </mml:math> </inline-formula>是重量的调优参数的状态。因此,最终的状态转换数字<d我sp-formula> <mml:math display="block" xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M63"> <mml:mtable> <mml:mlabeledtr id="EEq13"> <mml:mtd> <mml:mtext> (13)</mml:mtext> </mml:mtd> <mml:mtd> <mml:mi> Δ</mml:mi> <mml:msup> <mml:mrow> <mml:mi> w</mml:mi> </mml:mrow> <mml:mrow> <mml:mo> ′</mml:mo> </mml:mrow> </mml:msup> <mml:mo> =</mml:mo> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mtext> 标志</mml:mtext> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mi> Δ</mml:mi> <mml:mi> w</mml:mi> </mml:mrow> </mml:mfenced> <mml:mo> ×</mml:mo> <mml:mtext> 门</mml:mtext> <mml:mo> +</mml:mo> <mml:mi> k</mml:mi> </mml:mrow> </mml:mfenced> <mml:mo> ×</mml:mo> <mml:mi> l</mml:mi> <mml:mo> ,</mml:mo> </mml:mtd> </mml:mlabeledtr> </mml:mtable> </mml:math> </disp-formula>在哪里<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M64"> <mml:mrow> <mml:mtext> 门</mml:mtext> </mml:mrow> </mml:math> </inline-formula>提交,提交二项分布的机会<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M65"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> p</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>是1和机会<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M66"> <mml:mrow> <mml:mn> 1</mml:mn> <mml:mo> −</mml:mo> <mml:msub> <mml:mrow> <mml:mi> p</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>是0。<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M67"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> p</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>被定义为微调参数<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M68"> <mml:mi> v</mml:mi> </mml:math> </inline-formula>,<d我sp-formula> <mml:math display="block" xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M69"> <mml:mtable> <mml:mlabeledtr id="EEq14"> <mml:mtd> <mml:mtext> (14)</mml:mtext> </mml:mtd> <mml:mtd> <mml:msub> <mml:mrow> <mml:mi> p</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msub> <mml:mo> =</mml:mo> <mml:mi mathvariant="normal"> 双曲正切</mml:mi> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mtext> th</mml:mtext> <mml:mo> ×</mml:mo> <mml:mfenced open="|" close="|" separators="|"> <mml:mrow> <mml:mi> v</mml:mi> <mml:mo> /</mml:mo> <mml:mi> l</mml:mi> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:mfenced> <mml:mo> 。</mml:mo> </mml:mtd> </mml:mlabeledtr> </mml:mtable> </mml:math> </disp-formula>在哪里<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M70"> <mml:mrow> <mml:mtext> th</mml:mtext> </mml:mrow> </mml:math> </inline-formula>是一个积极的常数微调调整状态概率<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M71"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> p</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>,这将在实验探索。最后,我们使用DST函数,介绍了以上,获得最终的量子化的重量:<d我sp-formula> <mml:math display="block" xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M72"> <mml:mtable> <mml:mlabeledtr id="EEq15"> <mml:mtd> <mml:mtext> (15)</mml:mtext> </mml:mtd> <mml:mtd> <mml:mi> w</mml:mi> <mml:mtext> _new</mml:mtext> <mml:mo> =</mml:mo> <mml:mtext> DST</mml:mtext> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:msup> <mml:mrow> <mml:mi> w</mml:mi> </mml:mrow> <mml:mrow> <mml:mo> ′</mml:mo> </mml:mrow> </mml:msup> <mml:mo> +</mml:mo> <mml:mi> Δ</mml:mi> <mml:msup> <mml:mrow> <mml:mi> w</mml:mi> </mml:mrow> <mml:mrow> <mml:mo> ′</mml:mo> </mml:mrow> </mml:msup> </mml:mrow> </mml:mfenced> <mml:mo> 。</mml:mo> </mml:mtd> </mml:mlabeledtr> </mml:mtable> </mml:math> </disp-formula></p> <p>通过这种方式,我们都约束权重<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M73"> <mml:mrow> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mn> 0</mml:mn> <mml:mo> ,</mml:mo> <mml:mo> ±</mml:mo> <mml:msup> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> <mml:mrow> <mml:mo> −</mml:mo> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msup> <mml:mo> ,</mml:mo> <mml:mo> ±</mml:mo> <mml:msup> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> <mml:mrow> <mml:mo> −</mml:mo> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msup> <mml:mo> ,</mml:mo> <mml:mo> ±</mml:mo> <mml:msup> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> <mml:mrow> <mml:mn> 0</mml:mn> </mml:mrow> </mml:msup> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>。为其他值,上述理论一样适用。</p></sec> </sec> </sec> <sec id="sec4"> <title>4所示。结果与讨论</t我tle> <p>在本节中,我们评估我们的算法在MNIST (LeNet5) SVHN (VGG)和CIFAR10 Pytorch (ResNet-18)图像分类。大多数以前的作品并不数字转换第一个和最后一个层。在我们的方法中,我们没有数字转换第一层。此外,我们报告每个实验的平均结果超过三分,自适应估计优化器(亚当)。</p><sec id="sec4.1"> <title>4.1。探索的量化组合权重和激活</t我tle> <p>我们说明的行为的不同组合权重和激活一个标准ResNet-18 CIFAR10数据集。我们量化权重<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M74"> <mml:mrow> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mn> 0</mml:mn> <mml:mo> ,</mml:mo> <mml:mo> ±</mml:mo> <mml:msup> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> <mml:mrow> <mml:mn> 0</mml:mn> </mml:mrow> </mml:msup> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>,<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M75"> <mml:mrow> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mn> 0</mml:mn> <mml:mo> ,</mml:mo> <mml:mo> ±</mml:mo> <mml:msup> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> <mml:mrow> <mml:mo> −</mml:mo> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msup> <mml:mo> ,</mml:mo> <mml:mo> ±</mml:mo> <mml:msup> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> <mml:mrow> <mml:mn> 0</mml:mn> </mml:mrow> </mml:msup> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>,<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M76"> <mml:mrow> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mn> 0</mml:mn> <mml:mo> ,</mml:mo> <mml:mo> ±</mml:mo> <mml:msup> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> <mml:mrow> <mml:mo> −</mml:mo> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msup> <mml:mo> ,</mml:mo> <mml:mo> ±</mml:mo> <mml:msup> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> <mml:mrow> <mml:mo> −</mml:mo> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msup> <mml:mo> ,</mml:mo> <mml:mo> ±</mml:mo> <mml:msup> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> <mml:mrow> <mml:mn> 0</mml:mn> </mml:mrow> </mml:msup> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>。对于激活近似,我们使用<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M77"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msub> <mml:mo> =</mml:mo> <mml:mn> 0.125</mml:mn> <mml:mo> ,</mml:mo> <mml:mtext> </mml:mtext> <mml:mn> 0.25</mml:mn> <mml:mo> ,</mml:mo> <mml:mtext> </mml:mtext> <mml:mn> 0.5</mml:mn> <mml:mtext> </mml:mtext> <mml:mi> 和</mml:mi> <mml:mtext> </mml:mtext> <mml:mn> 1</mml:mn> </mml:mrow> </mml:math> </inline-formula>如图<xref ref-type="fig" rid="fig1"> 1</xref>。为了方便起见,我们集<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M78"> <mml:mrow> <mml:mfenced open="[" close="]" separators="|"> <mml:mrow> <mml:mi> p</mml:mi> <mml:mo> ,</mml:mo> <mml:mtext> </mml:mtext> <mml:mtext> </mml:mtext> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msub> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>定义量化组合模式,<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M79"> <mml:mrow> <mml:mi> p</mml:mi> <mml:mo> =</mml:mo> <mml:mo> −</mml:mo> <mml:mn> 2</mml:mn> </mml:mrow> </mml:math> </inline-formula>代表上面<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M80"> <mml:mrow> <mml:mfenced open="(" close=")" separators="|"> <mml:mrow> <mml:mn> 0</mml:mn> <mml:mo> ,</mml:mo> <mml:mo> ±</mml:mo> <mml:msup> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> <mml:mrow> <mml:mo> −</mml:mo> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msup> <mml:mo> ,</mml:mo> <mml:mo> ±</mml:mo> <mml:msup> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> <mml:mrow> <mml:mo> −</mml:mo> <mml:mn> 1</mml:mn> </mml:mrow> </mml:msup> <mml:mo> ,</mml:mo> <mml:mo> ±</mml:mo> <mml:msup> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> <mml:mrow> <mml:mn> 0</mml:mn> </mml:mrow> </mml:msup> </mml:mrow> </mml:mfenced> </mml:mrow> </mml:math> </inline-formula>和的值<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M81"> <mml:mrow> <mml:msub> <mml:mrow> <mml:mi> 问</mml:mi> </mml:mrow> <mml:mrow> <mml:mn> 2</mml:mn> </mml:mrow> </mml:msub> </mml:mrow> </mml:math> </inline-formula>决定了激活近似程度。交叉组合后,我们集<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M82"> <mml:mrow> <mml:mtext> th</mml:mtext> <mml:mo> =</mml:mo> <mml:mn> 0.5</mml:mn> </mml:mrow> </mml:math> </inline-formula>在这里,结果如图<xref ref-type="fig" rid="fig3"> 3</xref>。</p><f我g id="fig3"> <label>图3</label> <p>比较准确量化权重的不同组合和激活。横轴表示激活近似的量化比特位,纵轴代表网络的重量。</p><graphic xlink:href="//www.newsama.com/downloads/journals/cin/2020/7839064.fig.003"></graphic> </fig> <p>一般来说,体重量化导致一些精度下降。图<xref ref-type="fig" rid="fig3"> 3</xref>确认精度随深程度的量化。然而,不同的近似方法激活不显著影响测试精度,但波动发生在训练。我们的方法也在其他数据集评估。表<xref ref-type="table" rid="tab2"> 2</xref>展示了在相同条件下比较结果和结果<xref ref-type="bibr" rid="B27"> 27</xref>]。正如上面阐述的,BWN、TWN XNOR方法量化权重为1或2位的浮点每层而不是整个网络。然而,我们的方法达到2或3位定点的整个网络,可以使用移位操作在ASIC或FPGA。为了演示了该方法的有效性,我们也显示比较结果CIFAR100 (ResNet-34 ResNet-50)与更复杂的模型,如表所示<xref ref-type="table" rid="tab3"> 3</xref>。</p><table-wrap id="tab2"> <label>表2</label> <p>测试误差比较在多个数据集。</p><table> <thead> <tr> <th align="left">方法</th> <th align="center">重量(位)</th> <th align="center">激活(位)</th> <th align="center">MNIST</th> <th align="center">SVHN</th> <th align="center">CIFAR10</th> </tr> </thead> <tbody> <tr> <td align="left">BNN</td><tdalign="center">1</td><tdalign="center">1</td><tdalign="center">1.27</td><tdalign="center">2.53</td><tdalign="center">8.46</td></tr> <tr> <td align="left">BWN</td><tdalign="center">1</td><tdalign="center">32</td><tdalign="center">0.54</td><tdalign="center">- - - - - -</td><tdalign="center">7.25</td></tr> <tr> <td align="left">TWN</td><tdalign="center">2</td><tdalign="center">32</td><tdalign="center">0.65</td><tdalign="center">- - - - - -</td><tdalign="center">7.44</td></tr> <tr> <td align="left">DoReFa</td><tdalign="center">8</td><tdalign="center">8</td><tdalign="center">- - - - - -</td><tdalign="center">2.30</td><tdalign="center">- - - - - -</td></tr> <tr> <td align="left">我们的</td><tdalign="center">3</td><tdalign="center">3</td><tdalign="center">0.96</td><tdalign="center">2.14</td><tdalign="center">7.48</td></tr> </tbody> </table> </table-wrap> <table-wrap id="tab3"> <label>表3</label> <p>CIFAR100精度比较。</p><table> <thead> <tr> <th align="left">真空断路</th> <th align="center">BNN</th> <th align="center">XNOR</th> <th align="center">我们的</th> </tr> </thead> <tbody> <tr> <td align="left">ResNet-34</td><tdalign="center">48.81/78.32</td><tdalign="center">53.28/81.29</td><tdalign="center">61.33/87.22</td></tr> <tr> <td align="left">ResNet-50</td><tdalign="center">52.07/81.60</td><tdalign="center">59.20/85.32</td><tdalign="center">62.92/88.65</td></tr> </tbody> </table> </table-wrap> </sec> <sec id="sec4.2"> <title>4.2。效果的变化< inline-formula > < mml:数学xmlns: mml = " http://www.w3.org/1998/Math/MathML " id = "它" > < mml: mrow > < mml:多行文字> th < / mml:多行文字> < / mml: mrow > < / mml:数学> < / inline-formula ></t我tle> <p>我们探索的影响参数<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M84"> <mml:mrow> <mml:mtext> th</mml:mtext> </mml:mrow> </mml:math> </inline-formula>在这一节中。如上所述,th调整微调重量状态概率影响最终的学习精度。图<xref ref-type="fig" rid="fig4"> 4</xref>显示了结果,这表明优秀的非线性。在这里,我们测试组合(−3,0.125)。显然,曲线的精度约为最好<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M85"> <mml:mrow> <mml:mtext> th</mml:mtext> <mml:mo> =</mml:mo> <mml:mn> 0.5</mml:mn> </mml:mrow> </mml:math> </inline-formula>,而更大或更小的值可能会导致轻微的改善。获得相同的结果为其他组合几个实验。因此,我们采用<我nline-formula> <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML" id="M86"> <mml:mrow> <mml:mtext> th</mml:mtext> <mml:mo> =</mml:mo> <mml:mn> 0.5</mml:mn> </mml:mrow> </mml:math> </inline-formula>本研究实验。</p><f我g id="fig4"> <label>图4</label> <p>比较准确量化权重的不同组合和激活。横轴表示激活近似的量化比特位,纵轴代表网络的重量。</p><graphic xlink:href="//www.newsama.com/downloads/journals/cin/2020/7839064.fig.004"></graphic> </fig> </sec> <sec id="sec4.3"> <title>4.3。第一个和最后一个层量化的影响</t我tle> <p>第一个和最后一个层网络量化研究根据以前作品的关键。在当前的研究中,我们所有的实验不使量子化第一层。我们试图调查第一层量化的影响。结果总结在表<xref ref-type="table" rid="tab4"> 4</xref>。我们测试的重量和激活量化组合(−3,0.125)。“+”和“−”表示有或没有重量相应层的量子化。</p><table-wrap id="tab4"> <label>表4</label> <p>精度比较量化的姓或卷积层。</p><table> <thead> <tr> <th align="left">CIFAR10 / MNIST</th> <th align="center">BWN</th> <th align="center">BNN</th> <th align="center">我们的</th> </tr> </thead> <tbody> <tr> <td align="left">+姓−</td><tdalign="center">92.37/99.37</td><tdalign="center">91.40/98.66</td><tdalign="center">92.08/98.86</td></tr> <tr> <td align="left">+姓+</td><tdalign="center">92.21/99.41</td><tdalign="center">91.30/98.52</td><tdalign="center">91.96/98.55</td></tr> <tr> <td align="left">−姓+</td><tdalign="center">92.52/99.38</td><tdalign="center">91.47/98.71</td><tdalign="center">92.52/98.75</td></tr> <tr> <td align="left">首先−−去年</td><tdalign="center">92.75/99.46</td><tdalign="center">91.54/98.73</td><tdalign="center">92.12/99.04</td></tr> </tbody> </table> </table-wrap> <p>显然,精度退化可能发生当量化第一或最后一层。我们的方法略优于BNN但并不比BWN量子化属性权重。</p></sec> <sec id="sec4.4"> <title>4.4。参数稀疏</t我tle> <p>大多数当前的人工智能应用程序是基于ResNet。因此,我们分析参数对ResNet-18稀疏。前夹大量权重的方法设置最重量的小值为零但不完全零(<xref ref-type="bibr" rid="B28"> 28</xref>]。相比之下,我们的方法可以获得精确的零值的权重。我们的方法使用组合的结果(−3、0.125)如表所示<xref ref-type="table" rid="tab5"> 5</xref>。</p><table-wrap id="tab5"> <label>表5</label> <p>稀疏ResNet-18 CIFAR10。</p><table> <thead> <tr> <th align="left">层张量(重量)</th> <th align="center">完整的精度(1−稀疏)(%)</th> <th align="center">我们的方法(1−稀疏)(%)</th> </tr> </thead> <tbody> <tr> <td align="left">Conv1 (64 3, 3, 3)</td><tdalign="center">One hundred.</td><tdalign="center">One hundred.</td></tr> <tr> <td align="left">Conv2 (64、64、3、3)</td><tdalign="center">One hundred.</td><tdalign="center">85.32</td></tr> <tr> <td align="left">Conv3 (64、64、3、3)</td><tdalign="center">One hundred.</td><tdalign="center">86.71</td></tr> <tr> <td align="left">Conv4 (64、64、3、3)</td><tdalign="center">One hundred.</td><tdalign="center">85.84</td></tr> <tr> <td align="left">Conv5 (64、64、3、3)</td><tdalign="center">One hundred.</td><tdalign="center">85.10</td></tr> <tr> <td align="left">Conv6 (128、64、3、3)</td><tdalign="center">One hundred.</td><tdalign="center">86.04</td></tr> <tr> <td align="left">Conv7 (128、128、3、3)</td><tdalign="center">One hundred.</td><tdalign="center">83.46</td></tr> <tr> <td align="left">Conv8 (128、64、1、1)</td><tdalign="center">One hundred.</td><tdalign="center">86.52</td></tr> <tr> <td align="left">Conv9 (128、128、3、3)</td><tdalign="center">One hundred.</td><tdalign="center">82.88</td></tr> <tr> <td align="left">Conv10 (128、128、3、3)</td><tdalign="center">One hundred.</td><tdalign="center">80.75</td></tr> <tr> <td align="left">Conv11 (256、128、3、3)</td><tdalign="center">One hundred.</td><tdalign="center">77.45</td></tr> <tr> <td align="left">Conv12 (256、256、3、3)</td><tdalign="center">One hundred.</td><tdalign="center">70.23</td></tr> <tr> <td align="left">Conv13 (256、128、1、1)</td><tdalign="center">One hundred.</td><tdalign="center">77.74</td></tr> <tr> <td align="left">Conv14 (256、256、3、3)</td><tdalign="center">One hundred.</td><tdalign="center">59.51</td></tr> <tr> <td align="left">Conv15 (256、256、3、3)</td><tdalign="center">One hundred.</td><tdalign="center">42.64</td></tr> <tr> <td align="left">Conv16 (512、256、3、3)</td><tdalign="center">One hundred.</td><tdalign="center">22.16</td></tr> <tr> <td align="left">Conv17 (512、512、3、3)</td><tdalign="center">One hundred.</td><tdalign="center">10.72</td></tr> <tr> <td align="left">Conv18 (512、256、1、1)</td><tdalign="center">One hundred.</td><tdalign="center">41.56</td></tr> <tr> <td align="left">Conv19 (512、512、3、3)</td><tdalign="center">One hundred.</td><tdalign="center">5.02</td></tr> <tr> <td align="left">Conv20 (512、512、3、3)</td><tdalign="center">One hundred.</td><tdalign="center">3.46</td></tr> <tr> <td align="left">1−稀疏</td><tdalign="center">One hundred.</td><tdalign="center">23.32</td></tr> <tr> <td align="left">精度</td><tdalign="center">93.74</td><tdalign="center">92.52</td></tr> </tbody> </table> </table-wrap> <p>显然,我们的方法可以获得大型稀疏卷积层参数,和几位高级层网络可能有价值的最终评价。后面比前面一层是稀疏的,这可能是修剪我们的未来的工作。作为一个尝试,我们修剪漂亮的稀疏层(conv19 conv20),发现精度下降和获得更紧凑的层。更有意义,培训和推理时间在一定程度上这可能显著降低硬件实现。</p></sec> </sec> <sec id="sec5"> <title>5。结论</t我tle> <p>深陷网络,计算成本和存储能力是关键因素,直接影响到学习的性能。压缩和加速网络旨在减少复杂模型的冗余。因此,我们引入了一个方法来训练网络权重和激活量子化的几位。我们发现我们的方法网络精度略有下降,而大幅减少存储和计算。有趣的是,我们的量化模型有明显稀疏,可能修剪ASIC或FPGA在未来人工智能。</p></sec> <back> <sec sec-type="data-availability"> <title>数据可用性</t我tle> <p>使用的数据来支持本研究的发现是开放的数据集可以发现一般网站,和datasers也是免费的。</p></sec> <sec sec-type="COI-statement"> <title>的利益冲突</t我tle> <p>作者宣称没有利益冲突有关的出版。</p></sec> <ack> <title>确认</t我tle> <p>这项研究支持部分由中国国家自然科学基金(资助号61602494),湖南省自然科学基金。</p></ack> <ref-list> <ref id="B1" content-type="book"> <label>1</label> <element-citation publication-type="book"> <person-group person-group-type="author"> <name> <surname> 辛顿</surname> <given-names> g . E。</given-names> </name> <name> <surname> 斯利瓦斯塔瓦</surname> <given-names> N。</given-names> </name> <name> <surname> Swersky</surname> <given-names> K。</given-names> </name> </person-group> <source> <italic> 机器学习的神经网络</我talic> <year> 2012年</year> <volume> 264年</volume> <publisher-loc> 加拿大多伦多</publisher-loc> <publisher-name> 多伦多大学</publisher-name> </element-citation> </ref> <ref id="B2" content-type="misc"> <label>2</label> <element-citation publication-type="other"> <person-group person-group-type="author"> <name> <surname> Bahdanau</surname> <given-names> D。</given-names> </name> <name> <surname> 赵</surname> <given-names> K。</given-names> </name> <name> <surname> Bengio</surname> <given-names> Y。</given-names> </name> </person-group> <article-title> 神经机器翻译的共同学习和翻译一致</article-title> <year> 2014年</year> <comment> <ext-link ext-link-type="uri" xlink:href="http://arxiv.org/abs/1409.0473"> http://arxiv.org/abs/1409.0473</ext-link> </comment> </element-citation> </ref> <ref id="B3" content-type="inproceedings"> <label>3</label> <element-citation publication-type="confproc"> <person-group person-group-type="author"> <name> <surname> 他</surname> <given-names> K。</given-names> </name> <name> <surname> 张</surname> <given-names> X。</given-names> </name> <name> <surname> 任</surname> <given-names> 年代。</given-names> </name> <name> <surname> 太阳</surname> <given-names> J。</given-names> </name> </person-group> <article-title> 深入深入整流器:超越人类表现imagenet分类</article-title> <conf-name> 学报2015年IEEE计算机视觉国际会议(ICCV)</conf-name> <conf-date> 2015年12月</conf-date> <conf-loc> 圣地亚哥,智利</conf-loc> <fpage> 1026年</fpage> <lpage> 1034年</lpage> <pub-id pub-id-type="doi"> 10.1109 / ICCV.2015.123</pub-id> <pub-id pub-id-type="other"> 2 - s2.0 - 84973911419</pub-id> </element-citation> </ref> <ref id="B4" content-type="article"> <label>4</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> Krizhevsky</surname> <given-names> 一个。</given-names> </name> <name> <surname> Sutskever</surname> <given-names> 我。</given-names> </name> <name> <surname> 辛顿</surname> <given-names> g . E。</given-names> </name> </person-group> <article-title> ImageNet与深卷积神经网络分类</article-title> <source> <italic> ACM的通信</我talic> <year> 2017年</year> <volume> 60</volume> <issue> 6</我ssue> <fpage> 84年</fpage> <lpage> 90年</lpage> <pub-id pub-id-type="doi"> 10.1145 / 3065386</pub-id> <pub-id pub-id-type="other"> 2 - s2.0 - 85020126914</pub-id> </element-citation> </ref> <ref id="B5" content-type="inproceedings"> <label>5</label> <element-citation publication-type="confproc"> <person-group person-group-type="author"> <name> <surname> 蔡</surname> <given-names> Z。</given-names> </name> <name> <surname> 他</surname> <given-names> X。</given-names> </name> <name> <surname> 太阳</surname> <given-names> J。</given-names> </name> <name> <surname> Vasconcelos</surname> <given-names> N。</given-names> </name> </person-group> <article-title> 深度学习半波高斯量化精度较低</article-title> <conf-name> 学报2017年IEEE计算机视觉与模式识别会议(CVPR)</conf-name> <conf-date> 2017年7月</conf-date> <conf-loc> 美国檀香山,嗨</conf-loc> <fpage> 5406年</fpage> <lpage> 5414年</lpage> <pub-id pub-id-type="doi"> 10.1109 / CVPR.2017.574</pub-id> <pub-id pub-id-type="other"> 2 - s2.0 - 85044235972</pub-id> </element-citation> </ref> <ref id="B6" content-type="inproceedings"> <label>6</label> <element-citation publication-type="confproc"> <person-group person-group-type="author"> <name> <surname> 汉</surname> <given-names> 年代。</given-names> </name> <name> <surname> 毛</surname> <given-names> H。</given-names> </name> <name> <surname> 轻率地对待</surname> <given-names> w·J。</given-names> </name> </person-group> <article-title> 深度压缩:压缩与修剪深层神经网络,训练有素的量化和霍夫曼编码</article-title> <conf-name> 美国学习国际会议上表示</conf-name> <conf-date> 2016年5月</conf-date> <conf-loc> 美国圣胡安,公关</conf-loc> </element-citation> </ref> <ref id="B7" content-type="misc"> <label>7</label> <element-citation publication-type="other"> <person-group person-group-type="author"> <name> <surname> Courbariaux</surname> <given-names> M。</given-names> </name> <name> <surname> Hubara</surname> <given-names> 我。</given-names> </name> <name> <surname> Soudry</surname> <given-names> D。</given-names> </name> <name> <surname> El-Yaniv</surname> <given-names> R。</given-names> </name> <name> <surname> Bengio</surname> <given-names> Y。</given-names> </name> </person-group> <article-title> 训练神经网络的关键:深层神经网络权重和激活约束+ 1或−1</article-title> <year> 2016年</year> <comment> <ext-link ext-link-type="uri" xlink:href="http://arxiv.org/abs/1602.02830"> http://arxiv.org/abs/1602.02830</ext-link> </comment> </element-citation> </ref> <ref id="B8" content-type="misc"> <label>8</label> <element-citation publication-type="other"> <person-group person-group-type="author"> <name> <surname> Rastegari</surname> <given-names> M。</given-names> </name> <name> <surname> 德</surname> <given-names> V。</given-names> </name> <name> <surname> Redmon</surname> <given-names> J。</given-names> </name> <name> <surname> 哈蒂</surname> <given-names> 一个。</given-names> </name> </person-group> <article-title> XNOR-Net: ImageNet使用二进制卷积神经网络分类</article-title> <year> 2016年</year> <comment> <ext-link ext-link-type="uri" xlink:href="http://arxiv.org/abs/1603.05279"> http://arxiv.org/abs/1603.05279</ext-link> </comment> </element-citation> </ref> <ref id="B9" content-type="article"> <label>9</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> 汉</surname> <given-names> 年代。</given-names> </name> <name> <surname> 刘</surname> <given-names> X。</given-names> </name> <name> <surname> 毛</surname> <given-names> H。</given-names> </name> <etal></etal> </person-group> <article-title> 易爱易</article-title> <source> <italic> ACM Sigarch计算机体系结构的消息</我talic> <year> 2016年</year> <volume> 44</volume> <issue> 3</我ssue> <fpage> 243年</fpage> <lpage> 254年</lpage> <pub-id pub-id-type="doi"> 10.1145/3007787.3001163</pub-id> </element-citation> </ref> <ref id="B10" content-type="inproceedings"> <label>10</label> <element-citation publication-type="confproc"> <person-group person-group-type="author"> <name> <surname> 汉</surname> <given-names> 年代。</given-names> </name> <name> <surname> 刘</surname> <given-names> X。</given-names> </name> <name> <surname> 毛</surname> <given-names> H。</given-names> </name> <etal></etal> </person-group> <article-title> 深度压缩和易爱易:高效压缩深层神经网络推理引擎</article-title> <conf-name> 学报2016年IEEE热芯片28研讨会(高碳钢)</conf-name> <conf-date> 2016年8月</conf-date> <conf-loc> 美国加利福尼亚州库比蒂诺</conf-loc> <fpage> 1</fpage> <lpage> 6</lpage> <pub-id pub-id-type="doi"> 10.1109 / HOTCHIPS.2016.7936226</pub-id> <pub-id pub-id-type="other"> 2 - s2.0 - 85025814294</pub-id> </element-citation> </ref> <ref id="B11" content-type="inproceedings"> <label>11</label> <element-citation publication-type="confproc"> <person-group person-group-type="author"> <name> <surname> 刘</surname> <given-names> B。</given-names> </name> <name> <surname> 王</surname> <given-names> M。</given-names> </name> <name> <surname> Foroosh</surname> <given-names> H。</given-names> </name> <name> <surname> 她</surname> <given-names> M。</given-names> </name> <name> <surname> Penksy</surname> <given-names> M。</given-names> </name> </person-group> <article-title> 稀疏的卷积神经网络</article-title> <conf-name> 学报2015年IEEE计算机视觉与模式识别会议(CVPR)</conf-name> <conf-date> 2015年6月</conf-date> <conf-loc> 波士顿,美国</conf-loc> <fpage> 806年</fpage> <lpage> 814年</lpage> </element-citation> </ref> <ref id="B12" content-type="misc"> <label>12</label> <element-citation publication-type="other"> <person-group person-group-type="author"> <name> <surname> 温</surname> <given-names> W。</given-names> </name> <name> <surname> 吴</surname> <given-names> C。</given-names> </name> <name> <surname> 王</surname> <given-names> Y。</given-names> </name> <name> <surname> 陈</surname> <given-names> Y。</given-names> </name> <name> <surname> 李</surname> <given-names> H。</given-names> </name> </person-group> <article-title> 在深层神经网络学习结构化稀疏</article-title> <year> 2016年</year> <comment> <ext-link ext-link-type="uri" xlink:href="http://arxiv.org/abs/1608.03665"> http://arxiv.org/abs/1608.03665</ext-link> </comment> </element-citation> </ref> <ref id="B13" content-type="misc"> <label>13</label> <element-citation publication-type="other"> <person-group person-group-type="author"> <name> <surname> 愣</surname> <given-names> C。</given-names> </name> <name> <surname> 李</surname> <given-names> H。</given-names> </name> <name> <surname> 朱</surname> <given-names> 年代。</given-names> </name> <name> <surname> 金</surname> <given-names> R。</given-names> </name> </person-group> <article-title> 极低的神经网络:与小组ADMM榨干最后一点</article-title> <year> 2017年</year> <comment> <ext-link ext-link-type="uri" xlink:href="http://arxiv.org/abs/1707.09870"> http://arxiv.org/abs/1707.09870</ext-link> </comment> </element-citation> </ref> <ref id="B14" content-type="book"> <label>14</label> <element-citation publication-type="book"> <person-group person-group-type="author"> <name> <surname> 张</surname> <given-names> T。</given-names> </name> <name> <surname> 叶</surname> <given-names> 年代。</given-names> </name> <name> <surname> 张</surname> <given-names> K。</given-names> </name> <etal></etal> </person-group> <article-title> 系统重修剪款框架使用乘数的交替方向方法</article-title> <source> <italic> 电脑Vision-ECCV 2018</我talic> <year> 2018年</year> <volume> 11212年</volume> <publisher-loc> 可汗、瑞士</publisher-loc> <publisher-name> 施普林格</publisher-name> <fpage> 191年</fpage> <lpage> 207年</lpage> <pub-id pub-id-type="doi"> 10.1007 / 978 - 3 - 030 - 01237 - 3 _12</pub-id> <pub-id pub-id-type="other"> 2 - s2.0 - 85055423106</pub-id> </element-citation> </ref> <ref id="B15" content-type="misc"> <label>15</label> <element-citation publication-type="other"> <person-group person-group-type="author"> <name> <surname> Molchanov</surname> <given-names> P。</given-names> </name> <name> <surname> 批</surname> <given-names> 年代。</given-names> </name> <name> <surname> 。卡拉</surname> <given-names> T。</given-names> </name> <name> <surname> 艾拉</surname> <given-names> T。</given-names> </name> <name> <surname> Kautz</surname> <given-names> J。</given-names> </name> </person-group> <article-title> 修剪卷积神经网络资源有效的推理</article-title> <year> 2017年</year> <comment> <ext-link ext-link-type="uri" xlink:href="http://arxiv.org/abs/1611.06440"> http://arxiv.org/abs/1611.06440</ext-link> </comment> </element-citation> </ref> <ref id="B16" content-type="article"> <label>16</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> 长</surname> <given-names> X。</given-names> </name> <name> <surname> 本</surname> <given-names> Z。</given-names> </name> <name> <surname> 曾</surname> <given-names> X。</given-names> </name> <name> <surname> 刘</surname> <given-names> Y。</given-names> </name> <name> <surname> 张</surname> <given-names> M。</given-names> </name> <name> <surname> 周</surname> <given-names> D。</given-names> </name> </person-group> <article-title> 学习稀疏卷积神经网络通过量化等级较低正规化</article-title> <source> <italic> IEEE访问</我talic> <year> 2019年</year> <volume> 7</volume> <fpage> 51866年</fpage> <lpage> 51876年</lpage> <pub-id pub-id-type="doi"> 10.1109 / ACCESS.2019.2911536</pub-id> <pub-id pub-id-type="other"> 2 - s2.0 - 85067101725</pub-id> </element-citation> </ref> <ref id="B17" content-type="inproceedings"> <label>17</label> <element-citation publication-type="confproc"> <person-group person-group-type="author"> <name> <surname> 桑德勒</surname> <given-names> M。</given-names> </name> <name> <surname> 霍华德</surname> <given-names> 一个。</given-names> </name> <name> <surname> 朱</surname> <given-names> M。</given-names> </name> <name> <surname> Zhmoginov</surname> <given-names> 一个。</given-names> </name> <name> <surname> 陈</surname> <given-names> L.-C。</given-names> </name> </person-group> <article-title> Mobilenetv2:倒残差和线性瓶颈</article-title> <conf-name> 学报2018年IEEE / CVF计算机视觉与模式识别会议</conf-name> <conf-date> 2018年6月</conf-date> <conf-loc> 美国犹他盐湖城</conf-loc> <fpage> 4510年</fpage> <lpage> 4520年</lpage> <pub-id pub-id-type="doi"> 10.1109 / CVPR.2018.00474</pub-id> <pub-id pub-id-type="other"> 2 - s2.0 - 85062799511</pub-id> </element-citation> </ref> <ref id="B18" content-type="misc"> <label>18</label> <element-citation publication-type="other"> <person-group person-group-type="author"> <name> <surname> 霍华德</surname> <given-names> 一个。</given-names> </name> <name> <surname> 朱</surname> <given-names> M。</given-names> </name> <name> <surname> 陈</surname> <given-names> B。</given-names> </name> <etal></etal> </person-group> <article-title> Mobilenets:高效的移动视觉应用卷积神经网络</article-title> <year> 2017年</year> <comment> <ext-link ext-link-type="uri" xlink:href="http://arxiv.org/abs/1704.04861"> http://arxiv.org/abs/1704.04861</ext-link> </comment> </element-citation> </ref> <ref id="B19" content-type="misc"> <label>19</label> <element-citation publication-type="other"> <person-group person-group-type="author"> <name> <surname> Iandola</surname> <given-names> f . N。</given-names> </name> <name> <surname> 汉</surname> <given-names> 年代。</given-names> </name> <name> <surname> Moskewicz</surname> <given-names> m·W。</given-names> </name> <name> <surname> 阿什拉夫</surname> <given-names> K。</given-names> </name> <name> <surname> 轻率地对待</surname> <given-names> w·J。</given-names> </name> <name> <surname> Keutzer</surname> <given-names> K。</given-names> </name> </person-group> <article-title> SqueezeNet: AlexNet-level准确性少50 x < 0.5 mb的模型参数和尺寸</article-title> <year> 2016年</year> <comment> <ext-link ext-link-type="uri" xlink:href="http://arxiv.org/abs/1602.07360"> http://arxiv.org/abs/1602.07360</ext-link> </comment> </element-citation> </ref> <ref id="B20" content-type="inproceedings"> <label>20.</label> <element-citation publication-type="confproc"> <person-group person-group-type="author"> <name> <surname> 张</surname> <given-names> X。</given-names> </name> <name> <surname> 周</surname> <given-names> X。</given-names> </name> <name> <surname> 林</surname> <given-names> M。</given-names> </name> <name> <surname> 太阳</surname> <given-names> J。</given-names> </name> </person-group> <article-title> Shufflenet:一个非常高效的卷积神经网络移动设备</article-title> <conf-name> 学报2018年IEEE / CVF计算机视觉与模式识别会议</conf-name> <conf-date> 2018年6月</conf-date> <conf-loc> 美国犹他盐湖城</conf-loc> <fpage> 6848年</fpage> <lpage> 6856年</lpage> <pub-id pub-id-type="doi"> 10.1109 / CVPR.2018.00716</pub-id> <pub-id pub-id-type="other"> 2 - s2.0 - 85061081999</pub-id> </element-citation> </ref> <ref id="B21" content-type="misc"> <label>21</label> <element-citation publication-type="other"> <person-group person-group-type="author"> <name> <surname> Courbariaux</surname> <given-names> M。</given-names> </name> <name> <surname> Bengio</surname> <given-names> Y。</given-names> </name> <name> <surname> 大卫</surname> <given-names> j。</given-names> </name> </person-group> <article-title> Binaryconnect:培训期间与二进制权重深层神经网络传播</article-title> <year> 2015年</year> <comment> <ext-link ext-link-type="uri" xlink:href="http://arxiv.org/abs/1511.00363"> http://arxiv.org/abs/1511.00363</ext-link> </comment> </element-citation> </ref> <ref id="B22" content-type="misc"> <label>22</label> <element-citation publication-type="other"> <person-group person-group-type="author"> <name> <surname> 李</surname> <given-names> F。</given-names> </name> <name> <surname> 张</surname> <given-names> B。</given-names> </name> <name> <surname> 刘</surname> <given-names> B。</given-names> </name> </person-group> <article-title> 三元权重网络</article-title> <year> 2016年</year> <comment> <ext-link ext-link-type="uri" xlink:href="http://arxiv.org/abs/1605.04711"> http://arxiv.org/abs/1605.04711</ext-link> </comment> </element-citation> </ref> <ref id="B23" content-type="misc"> <label>23</label> <element-citation publication-type="other"> <person-group person-group-type="author"> <name> <surname> Mellempudi</surname> <given-names> N。</given-names> </name> <name> <surname> 茶室</surname> <given-names> 一个。</given-names> </name> <name> <surname> Mudigere</surname> <given-names> D。</given-names> </name> <name> <surname> 达斯</surname> <given-names> D。</given-names> </name> <name> <surname> 科尔在</surname> <given-names> B。</given-names> </name> <name> <surname> Dubey</surname> <given-names> P。</given-names> </name> </person-group> <article-title> 三元神经网络与细粒度的量子化</article-title> <year> 2017年</year> <comment> <ext-link ext-link-type="uri" xlink:href="http://arxiv.org/abs/1705.01462"> http://arxiv.org/abs/1705.01462</ext-link> </comment> </element-citation> </ref> <ref id="B24" content-type="misc"> <label>24</label> <element-citation publication-type="other"> <person-group person-group-type="author"> <name> <surname> 周</surname> <given-names> 年代。</given-names> </name> <name> <surname> 吴</surname> <given-names> Y。</given-names> </name> <name> <surname> 倪</surname> <given-names> Z。</given-names> </name> <name> <surname> 周</surname> <given-names> X。</given-names> </name> <name> <surname> 温</surname> <given-names> H。</given-names> </name> <name> <surname> 邹</surname> <given-names> Y。</given-names> </name> </person-group> <article-title> Dorefa-net:培训低进行卷积神经网络进行梯度较低</article-title> <year> 2016年</year> <comment> <ext-link ext-link-type="uri" xlink:href="http://arxiv.org/abs/1511.00363"> http://arxiv.org/abs/1511.00363</ext-link> </comment> </element-citation> </ref> <ref id="B25" content-type="article"> <label>25</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> 劳埃德</surname> <given-names> 年代。</given-names> </name> </person-group> <article-title> 最小二乘法在PCM量子化</article-title> <source> <italic> IEEE信息理论</我talic> <year> 1982年</year> <volume> 28</volume> <issue> 2</我ssue> <fpage> 129年</fpage> <lpage> 137年</lpage> <pub-id pub-id-type="doi"> 10.1109 / TIT.1982.1056489</pub-id> <pub-id pub-id-type="other"> 2 - s2.0 - 0020102027</pub-id> </element-citation> </ref> <ref id="B26" content-type="article"> <label>26</label> <element-citation publication-type="journal"> <person-group person-group-type="author"> <name> <surname> 邓</surname> <given-names> l</given-names> </name> <name> <surname> 焦</surname> <given-names> P。</given-names> </name> <name> <surname> 裴</surname> <given-names> J。</given-names> </name> <name> <surname> 吴</surname> <given-names> Z。</given-names> </name> <name> <surname> 李</surname> <given-names> G。</given-names> </name> </person-group> <article-title> Gxnor-net:深层神经网络训练与三元权重和激活不能没有一个统一的离散化框架下记忆</article-title> <source> <italic> 神经网络</我talic> <year> 2018年</year> <volume> One hundred.</volume> <fpage> 49</fpage> <lpage> 58</lpage> <pub-id pub-id-type="doi"> 10.1016 / j.neunet.2018.01.010</pub-id> <pub-id pub-id-type="other"> 2 - s2.0 - 85042186296</pub-id> </element-citation> </ref> <ref id="B27" content-type="misc"> <label>27</label> <element-citation publication-type="other"> <person-group person-group-type="author"> <name> <surname> 吴</surname> <given-names> 年代。</given-names> </name> <name> <surname> 李</surname> <given-names> G。</given-names> </name> <name> <surname> 陈</surname> <given-names> F。</given-names> </name> <name> <surname> 史</surname> <given-names> l</given-names> </name> </person-group> <article-title> 培训与整数深层神经网络推理</article-title> <year> 2018年</year> <comment> <ext-link ext-link-type="uri" xlink:href="http://arxiv.org/abs/1802.04680"> http://arxiv.org/abs/1802.04680</ext-link> </comment> </element-citation> </ref> <ref id="B28" content-type="misc"> <label>28</label> <element-citation publication-type="other"> <person-group person-group-type="author"> <name> <surname> Torfi</surname> <given-names> 一个。</given-names> </name> <name> <surname> Shirvani</surname> <given-names> r。</given-names> </name> <name> <surname> Soleymani</surname> <given-names> 年代。</given-names> </name> <name> <surname> Nasrabadi</surname> <given-names> n·M。</given-names> </name> </person-group> <article-title> 以引导深层神经网络的结构化稀疏</article-title> <year> 2018年</year> <comment> <ext-link ext-link-type="uri" xlink:href="http://arxiv.org/abs/1802.09902"> http://arxiv.org/abs/1802.09902</ext-link> </comment> </element-citation> </ref> </ref-list> </back> </article> </body> </html>