1。介绍gydF4y2Ba
过去十年目睹了令人兴奋的深度学习(DL)技术的发展,致使对信号和戏剧性的进展包括物联网和智能传感信息处理应用程序。深层神经网络(款)由多个神经元层组织为层次结构。每一层的参数可以通过迭代学习培训。一个训练有素的款可以从原始数据提取有用的特性。所有的训练样本都是手动标记。在一层,输入数据可以映射到低维空间中通过特征提取。随后,当前层的输出特性导出到下一层。输出的最后一层意味着学会了标签。一款可以通过最小化之间的误差调整手动标签和学到的标签(gydF4y2Ba
1gydF4y2Ba ]。gydF4y2Ba
深度学习有着显著的优势,超过传统机器学习(gydF4y2Ba
2gydF4y2Ba ,gydF4y2Ba
3gydF4y2Ba ]。首先,深度学习可以实现更高的性能,当数据量是巨大的。这意味着深度学习可以充分受益于大量的物联网采集的数据。传统的机器学习技术是更可取的,当数据量很小。然而,性能显著降低,当数据量非常大。相比之下,深度学习展品与大规模数据有利的可伸缩性。第二,深度学习工程更少依赖特性。物联网可以收集多种类别的数据,在本质上是不同的。手动提取特性的异构数据是一项艰巨的任务。传统的机器学习需要领域专家来提取特征。 The manually identified features expose underlying patterns to algorithms. Nevertheless, deep learning autonomously extract features in a layer-wise manner to represent input samples with a nested hierarchy of features. Every layer defines higher-level features based on lower-level features extracted by the previous layer. Third, deep learning techniques can outperform traditional ones in terms of various smart-sensing-related tasks, such as computer vision, speech recognition, and human behavior understanding.
与传统机器学习解决方案,深度学习技术正在快速发展。深度学习的应用涉及信息检索(gydF4y2Ba
4gydF4y2Ba ),自然语言处理(gydF4y2Ba
5gydF4y2Ba ),人类语音识别(gydF4y2Ba
6gydF4y2Ba ,计算机视觉gydF4y2Ba
7gydF4y2Ba ),异常检测(gydF4y2Ba
8gydF4y2Ba ),推荐系统(gydF4y2Ba
9gydF4y2Ba ,生物信息学gydF4y2Ba
10gydF4y2Ba )、医药(gydF4y2Ba
11gydF4y2Ba ,gydF4y2Ba
12gydF4y2Ba ),作物科学(gydF4y2Ba
13gydF4y2Ba ),地球科学(gydF4y2Ba
14gydF4y2Ba ,机器人gydF4y2Ba
15gydF4y2Ba - - - - - -gydF4y2Ba
18gydF4y2Ba ),交通运输工程(gydF4y2Ba
19gydF4y2Ba ),通信技术(gydF4y2Ba
20.gydF4y2Ba - - - - - -gydF4y2Ba
22gydF4y2Ba ),和系统仿真gydF4y2Ba
23gydF4y2Ba ,gydF4y2Ba
24gydF4y2Ba ]。gydF4y2Ba
深度学习渗透到人类社会的多样化方面,提出迫切需求DL-powered无处不在的部署的应用程序。换句话说,深度学习需要适应资源有限的智能手机平台或可穿戴设备。然而,匹配DL和资源有限的平台是一个具有挑战性的任务。推论与DL非常耗费资源(处理器、内存、能源等)虽然可以将更多的资源培训阶段转移到high-performance-computing-powered大型机。我们在典型调查资源有限的DL推论解决方案通过分类和讨论问题的解决方案。本文的其余部分组织如下。部分gydF4y2Ba
2gydF4y2Ba 阐明发展中资源有限的DL的动力。代表章节中讨论解决方案gydF4y2Ba
3gydF4y2Ba 。部分gydF4y2Ba
4gydF4y2Ba 指出了需要解决的挑战。部分gydF4y2Ba
5gydF4y2Ba 总结我们的工作。gydF4y2Ba
3所示。调查现有解决方案gydF4y2Ba
3.1。款计算的困境:基本原则的观点gydF4y2Ba
款的分类是一个典型的应用场景。在这种情况下,目标是建立一个从输入样本映射到相应的标签。下面的概念是利用的基础款的学习和推理:假设空间,能力,随机梯度下降法和概括gydF4y2Ba
38gydF4y2Ba ]。gydF4y2Ba
假设空间的所有功能集由一个神经网络。一个函数是拟合得到的参数的神经网络的一部分,可以均匀样本映射到相同的标签。训练一个神经网络来搜索最优函数的假设空间,从而建立映射关系指定的训练数据(换句话说,最小化训练错误)。因此,假设空间的大小决定了神经网络的潜在能力来找到最优的功能。gydF4y2Ba
能力的神经网络反映了假设空间的大小,以及适应能力函数的上界。最优函数可能假设之外的空间,如果没有足够大的能力。在这种情况下,神经网络只能在有限的假设空间搜索和找到近似最优的函数功能最好的努力。因此,underfitting是不可避免的。gydF4y2Ba
训练神经网络将正确地预测前所未有的样本的标签。概括反映了这种能力。低泛化误差就意味着更高的泛化能力。Underfitting在训练阶段可以导致大的泛化误差的推理阶段。gydF4y2Ba
能力集拟合能力的极限,而泛化可以测量比例与未知样品的能力。神经网络的另一个重要问题是搜索机制的假设空间在训练阶段。一般来说,搜索是被随机梯度下降法;搜索总是训练误差下降最快的方向。梯度从最深的backpropagated层第一层更新权重layer-wise的方式。反向传播时收敛的区别之间的火车错误连续两个迭代小于一个阈值。然而,随机梯度下降法一般不能进入全球最适条件。尽管低误差算法的解决方案通常是足够的训练神经网络,这种方法通常需要很长时间才能收敛。此外,像步长参数应该精心挑选,以避免波动的梯度。gydF4y2Ba
从基本原则的角度,款的计算困境是由于以下原因。gydF4y2Ba
第一个是内存开销。超大号的网络是一个常规的方法来实现低泛化误差。大容量并不一定导致低泛化误差。然而,一个大假设空间提高泛化能力的上限,从而增加达到低误差的可能性,特别是当目标函数不过分复杂。gydF4y2Ba
第二个是时间和精力的开销。反向传播本质上是迭代和耗时。计算梯度通过最小化训练误差。训练误差权重和其他参数的函数。数量巨大的重量导致收敛速度慢。此外,这些权重需要频繁处理单元之间的传播和记忆。因此,长期密集计算和内存操作提高处理能力的高需求和能源持续时间。此外,通过微调hyperparameters通常是选择的值,这增加的时间开销。gydF4y2Ba
第三维度的诅咒。高维度的数据加剧了计算资源消耗。款通常需要大量的训练数据,以保证训练网络的泛化能力。更高的维度需要密集的样本。如果gydF4y2Ba
一个gydF4y2Ba
1gydF4y2Ba
是必要的培训数据点的数量在一维样本空间,然后训练数据点的数量gydF4y2Ba
一个gydF4y2Ba
1gydF4y2Ba
ngydF4y2Ba
在gydF4y2Ba
ngydF4y2Ba 维样本空间(gydF4y2Ba
38gydF4y2Ba ]。更多的培训数据点更高的维度不可避免地加剧的内存开销,时间,和精力。gydF4y2Ba
3.2。挑战调查gydF4y2Ba
深度学习目前更多的艺术而非科学。神经网络本质上是近似模型和通常可以简化(gydF4y2Ba
39gydF4y2Ba ]。gydF4y2Ba
尽管戏剧性的学习深度学习的力量,计算成本阻碍了它们的可移植性资源有限的平台(gydF4y2Ba
40gydF4y2Ba ]。DL算法面临三种优化计算性能障碍。gydF4y2Ba
第一个障碍gydF4y2Ba 是DL的耗费资源的迭代特性训练。此外,经验自然加剧这种迭代的成本。到目前为止,深度学习的成功主要依靠经验设计和实验评估。理论原则仍有待开发。结果,优化深度学习的性能需要实施和执行各种可能的模型在计算资源约束经验识别最优一(gydF4y2Ba
41gydF4y2Ba ]。从一个输入样本中提取有意义的知识需要巨大的MAC操作。MAC操作的数量可以达到十亿的大小(gydF4y2Ba
42gydF4y2Ba ]。此外,一个深度学习网络可以包含一百万多个参数(gydF4y2Ba
43gydF4y2Ba ]。因此,深度学习提出了高要求加工能力,记忆能力,和能源效率。这是一个至关重要的问题来优化深度学习网络通过消除无效的MAC操作和参数(gydF4y2Ba
42gydF4y2Ba ]。gydF4y2Ba
第二个障碍gydF4y2Ba 配件款成多元化的现代硬件平台。不同的硬件平台可以不同的时钟频率而言,内存访问延迟,intercore通信延迟和并行模式。设计师DL模型可以分为两种不同的类型:数据科学家和计算机工程师。数据科学家主要集中在优化培训和推理精度通过数据和神经网络技术。然而,他们很少甚至没有关注计算成本。努力提升准确度不一定导致较小的网络规模和更高的速度。计算机工程师专注于加速基于硬件平台的深度学习。他们甚至调整或改革款匹配模型来设计要求为资源受限的应用程序。gydF4y2Ba
第三个障碍gydF4y2Ba 是缺乏专用硬件。传统的通用数字计算机硬件如CPU、GPU, FPGA深度学习的忽视一些独特的特征。例如,深度学习只涉及有限种类的计算操作。此外,深度学习明显宽容的噪音和不确定性。专用硬件可能权衡普遍性的性能(gydF4y2Ba
44gydF4y2Ba - - - - - -gydF4y2Ba
48gydF4y2Ba ]。gydF4y2Ba
云端DL一直是一个活跃的研究领域。这种解决方案可以卸下沉重的云计算到远程主机。这样的方法组装移动或嵌入式设备的数据,将数据转移到云,并执行深度学习算法(包括培训和推论)云。用户面临的隐私泄露的风险,由于通过计算机网络数据传输,特别是如果包含敏感信息的数据。此外,基于云计算的深度学习的可靠性可能会受到网络包丢失,甚至网络故障。gydF4y2Ba
在本文中,我们关注三个问题:第一,神经网络之间的平衡能力和泛化误差使用算法设计;通过计算第二,配件款成数字硬件设计;第三,新一代硬件处理款的计算困境。gydF4y2Ba 我们将现有的解决方案分为三层:算法,计算和硬件层。gydF4y2Ba
图gydF4y2Ba
3gydF4y2Ba 总结了典型的解决方案。一个实际的方法可能不止一个集成的解决方案。gydF4y2Ba
图3gydF4y2Ba
分类现有资源有限的DL的解决方案:从培训和推论。gydF4y2Ba
3.3。算法设计gydF4y2Ba
通过数学算法设计集中在减少资源消耗调整或改革款模型和算法。典型的简化技术包括切除分离卷积,矩阵分解,sparsification权重矩阵,权重矩阵压缩,数据降维,和数学优化。gydF4y2Ba
霍华德等人设计了一系列神经网络模型(MobileNets)来促进机器视觉应用程序在移动平台(gydF4y2Ba
49gydF4y2Ba ]。MobileNets代表一种轻量级的深层神经网络基于切除可分离旋转。MobileNets的主要目标是构建实时和low-space-complexity模型满足移动机器视觉应用程序提出的要求。的贡献MobileNets总结如下。首先,核心层MobileNets来自切除可分离卷积。切除分离卷积的核心概念是因式分解传统卷积成切除卷积分离层和一层逐点的卷积gydF4y2Ba
50gydF4y2Ba ]。MobileNets采用这个核心概念来减少模型大小,以及乘法和加法操作的总数。第二,逐点的占总数的95%计算,通过卷积im2col重新排序优化是不必要的点态分布(gydF4y2Ba
51gydF4y2Ba ]。因此,MobileNets避免大规模计算im2col重新排序。第三,因为MobileNets生成相对较小的模型,需要相对较少的参数,常规anti-overfitting措施调整。例如,少使用正则化和数据增大。此外,最小重量衰变(L2正规化)采用切除过滤器。第四,两个hyperparameters称为宽度乘数和解决应用乘数模型的尺寸进一步缩小。gydF4y2Ba
的核心概念gydF4y2Ba
49gydF4y2Ba )都是一个传统的卷积来降低计算的复杂性。这种分解不影响推理精度,因此是一种无损的简化方法。然而,有损的简化是必要的,如果上级简化效果要求。Samraph等人定制DL网络与FPGA平台(gydF4y2Ba
39gydF4y2Ba ]。这种方法简化了通过聚类权重矩阵和编码。此外,矩阵向量乘法操作降低计算复杂度的映像。首先,权重矩阵的元素都聚集gydF4y2Ba
kgydF4y2Ba 则成gydF4y2Ba
KgydF4y2Ba 集群。因此,每一个元素是附属于一个集群,每个集群的中心意思的附属元素。因此,权重矩阵中的每个元素被替换为相应的中心。换句话说,每个重量是近似和其附属的中心集群。第二,近似权重编码有点宽的日志gydF4y2Ba
KgydF4y2Ba 。和所有集群中心形成一个字典向量。因此,编码可以显著降低内存开销。第三,由于矩阵向量乘法可以映像编码矩阵有丰富的重复元素。因此,浮点乘法运算的数量急剧减少,这意味着更低的计算复杂度。除了上述的三个基本步骤,该方法面临另一个问题:更换权重与集群中心不可避免地导致数值误差DL网络。这个错误会影响推理精度。的方法(gydF4y2Ba
39gydF4y2Ba 采用两种解决方案来处理这个错误。一个是增加字典向量的长度(换句话说,指定一个更大的gydF4y2Ba
KgydF4y2Ba 来gydF4y2Ba
kgydF4y2Ba 则)。另一种方法是迭代集群和权重进行再教育。的方法(gydF4y2Ba
39gydF4y2Ba )关注压缩已经训练权重矩阵。相比之下,像套索正规化可以sparsify权重矩阵方法在训练(gydF4y2Ba
52gydF4y2Ba ]。gydF4y2Ba
巷等人提出一个软件框架gydF4y2Ba
DgydF4y2Ba
egydF4y2Ba
egydF4y2Ba
pgydF4y2Ba
XgydF4y2Ba
重塑款参考模型在有限的资源约束下(gydF4y2Ba
53gydF4y2Ba ]。相比之下的聚类方法(gydF4y2Ba
39gydF4y2Ba ),gydF4y2Ba
DgydF4y2Ba
egydF4y2Ba
egydF4y2Ba
pgydF4y2Ba
XgydF4y2Ba
利用奇异值分解分解和重建误差最小化压缩款模型。在第一个层面上,他们采用奇异值分解分解重构,每款层近似的权重矩阵。因此,gydF4y2Ba
DgydF4y2Ba
egydF4y2Ba
egydF4y2Ba
pgydF4y2Ba
XgydF4y2Ba
可以大大减少款参数在每一层。此外,这种近似的精度测量和调整按照重建误差。因此,这种重建方法避免了再培训的困境。在第二个层面上,gydF4y2Ba
DgydF4y2Ba
egydF4y2Ba
egydF4y2Ba
pgydF4y2Ba
XgydF4y2Ba
数字转换每个神经元的计算负荷和正式工作负载调度作为一个约束的动态规划问题。通过这种方式,计算负载可以自动调度到处理器来满足能量和时间约束。gydF4y2Ba
修剪或压缩受良好训练款可能导致大的近似误差(gydF4y2Ba
54gydF4y2Ba - - - - - -gydF4y2Ba
57gydF4y2Ba ]。另一个选择是火车稀疏款。林等人提出一个名为结构化稀疏正则化方法(SSR)实现权重矩阵sparsification在训练(gydF4y2Ba
58gydF4y2Ba ]。它们引入了两个截然不同的structured-sparsity regularizers sparsification重量目标函数的矩阵。这两个regularizers可以限制款滤波器矩阵是稀疏的中间状态。随后,他们采用另一种更新的拉格朗日乘数法(AULM)计划或者优化sparsification目标函数和识别损失最小化。SSR方法享有显著降低时间和内存开销比最先进的权重矩阵的修剪方法。Nazemi等人提出了一款训练方法去除冗余内存访问操作。该方法利用布尔逻辑最小化(gydF4y2Ba
59gydF4y2Ba ]。在培训过程中,gydF4y2Ba
年代gydF4y2Ba
我gydF4y2Ba
ggydF4y2Ba
ngydF4y2Ba
函数作为激活。因此,激活局限于二进制值。款的每一层(第一层和最后一层除外)被建模为一个多输入multioutput布尔函数。在推理过程中,输出的是款通过合成一个布尔表达式除了计算输入的点积和重量。换句话说,避免巨大的内存访问操作,消除了大量内存访问延迟和能源消耗。gydF4y2Ba
上述算法的解决方案专注于简化模型,以减少款MAC操作和内存消耗。然而,物理耐久性,特别是能源效率,仍是一个艰巨的障碍通过深度学习各种实际应用中受益。gydF4y2Ba
高兴的是gydF4y2Ba 是一个低开销的框架,使能够有效执行培训和低能量约束下的深层神经网络(gydF4y2Ba
60gydF4y2Ba ]。作者的gydF4y2Ba
60gydF4y2Ba 抑制DL网络大小通过能源特性依照相关的物理资源。他们设计一个自动定制方法自适应地适应特定的硬件而诱导款最低学习精度的恶化。的核心概念gydF4y2Ba
高兴的是gydF4y2Ba 是项目数据的低维嵌入context-and-resource-aware方式(子空间)。因此,洞察数据样本可以通过大幅减少神经元。此外,训练模型在每个嵌入集成来提高学习精度。gydF4y2Ba
的核心概念gydF4y2Ba
DgydF4y2Ba
egydF4y2Ba
lgydF4y2Ba
我gydF4y2Ba
ggydF4y2Ba
hgydF4y2Ba
tgydF4y2Ba
细粒度的能耗控制基于数据降维。该框架gydF4y2Ba
HgydF4y2Ba
ygydF4y2Ba
pgydF4y2Ba
egydF4y2Ba
rgydF4y2Ba
PgydF4y2Ba
ogydF4y2Ba
wgydF4y2Ba
egydF4y2Ba
rgydF4y2Ba
提出约束能量和内存消耗从hyperparameter优化(gydF4y2Ba
41gydF4y2Ba ]。这是一个hyperparameter优化框架基于高斯过程(GP)和贝叶斯优化[gydF4y2Ba
61年gydF4y2Ba ,gydF4y2Ba
62年gydF4y2Ba ]。这个框架表示测试误差函数gydF4y2Ba
fgydF4y2Ba
xgydF4y2Ba
,在那里gydF4y2Ba
xgydF4y2Ba 是一个数据点hyperparameters的设计空间。此外,权力和内存开销是表示一个函数gydF4y2Ba
ggydF4y2Ba
xgydF4y2Ba
。随后,hyperparameter调优是正式作为一个优化问题:最小化gydF4y2Ba
fgydF4y2Ba
xgydF4y2Ba
的约束下gydF4y2Ba
ggydF4y2Ba
xgydF4y2Ba
低于一个阈值。最小化gydF4y2Ba
fgydF4y2Ba
xgydF4y2Ba
成本是由于这一事实吗gydF4y2Ba
fgydF4y2Ba
xgydF4y2Ba
没有亲密的形式。因此,gydF4y2Ba
HgydF4y2Ba
ygydF4y2Ba
pgydF4y2Ba
egydF4y2Ba
rgydF4y2Ba
PgydF4y2Ba
ogydF4y2Ba
wgydF4y2Ba
egydF4y2Ba
rgydF4y2Ba
采用GP的近似分布gydF4y2Ba
fgydF4y2Ba
xgydF4y2Ba
。此外,该框架利用贝叶斯优化迭代选择最佳hyperparameters和更新的分布gydF4y2Ba
fgydF4y2Ba
xgydF4y2Ba
。gydF4y2Ba
fgydF4y2Ba
xgydF4y2Ba
假定服从高斯分布。让gydF4y2Ba
ygydF4y2Ba 表示的观察gydF4y2Ba
fgydF4y2Ba
xgydF4y2Ba
。在刚开始的时候,一个初始近似的gydF4y2Ba
fgydF4y2Ba
xgydF4y2Ba
可以解决gydF4y2Ba
pgydF4y2Ba
米gydF4y2Ba
ygydF4y2Ba
xgydF4y2Ba
基于假设和一组已知的gydF4y2Ba
xgydF4y2Ba
,gydF4y2Ba
ygydF4y2Ba
值(高斯过程回归)。每次迭代中包括以下操作。的主要任务是选择一个最优值gydF4y2Ba
xgydF4y2Ba 从设计完善的空间gydF4y2Ba
pgydF4y2Ba
米gydF4y2Ba
ygydF4y2Ba
xgydF4y2Ba
。和所选gydF4y2Ba
xgydF4y2Ba 应该把gydF4y2Ba
fgydF4y2Ba
xgydF4y2Ba
沿着一个方向减少价值。这个值的gydF4y2Ba
xgydF4y2Ba 是通过最大化expectation-improvement-based收购确定函数。此外,收购函数包含约束函数使用一个指标。指标函数等于1是否满意和零如果没有约束。第二,神经网络配置按照新的设计参数(新发现的gydF4y2Ba
xgydF4y2Ba )和训练获得的测试误差(一个新值gydF4y2Ba
ygydF4y2Ba )。第三,均值和协方差更新使用新的gydF4y2Ba
xgydF4y2Ba
,gydF4y2Ba
ygydF4y2Ba
,因此,gydF4y2Ba
pgydF4y2Ba
米gydF4y2Ba
ygydF4y2Ba
xgydF4y2Ba
是更新的gydF4y2Ba
pgydF4y2Ba
米gydF4y2Ba
ygydF4y2Ba
。gydF4y2Ba
3.4。计算优化gydF4y2Ba
计算优化依赖重建算法实现按照一个特定的硬件架构。一些传统优化技术代码并行,微调并行代码,数据缓存和细粒度的内存利用率。gydF4y2Ba
黄齐等人开发了一个工具gydF4y2Ba
DgydF4y2Ba
egydF4y2Ba
egydF4y2Ba
pgydF4y2Ba
米gydF4y2Ba
ogydF4y2Ba
ngydF4y2Ba
连续的视觉基于商品移动gpu的应用程序gydF4y2Ba
37gydF4y2Ba ]。大型深层神经网络(款)由商品移动GPU通常不能达到严格的实时性能由于有限的计算资源。然而,可以低帧率(一到两帧每秒)在某些用例,如说话人识别和护理老人。这些应用场景提出对实时性能要求相对较低。gydF4y2Ba
DgydF4y2Ba
egydF4y2Ba
egydF4y2Ba
pgydF4y2Ba
米gydF4y2Ba
ogydF4y2Ba
ngydF4y2Ba
实现大型款这样的应用程序基于商品移动gpu和达到接近实时的性能。在上述应用中,first-person-view图片不容易表现出显著变化在很短的时间跨度。gydF4y2Ba
DgydF4y2Ba
egydF4y2Ba
egydF4y2Ba
pgydF4y2Ba
米gydF4y2Ba
ogydF4y2Ba
ngydF4y2Ba
只有将每一帧的图像划分为块。gydF4y2Ba
DgydF4y2Ba
egydF4y2Ba
egydF4y2Ba
pgydF4y2Ba
米gydF4y2Ba
ogydF4y2Ba
ngydF4y2Ba
缓存每个块的中间结果在计算一帧的卷积。随后,类似块识别这个框架与下一帧。因此,缓存的结果可以直接用来计算卷积的下一帧。此外,缓存的结果一定时间后过期。两幅图像之间的相似性识别基于颜色分布直方图和卡方距离度量。除了这个缓存机制,gydF4y2Ba
DgydF4y2Ba
egydF4y2Ba
egydF4y2Ba
pgydF4y2Ba
米gydF4y2Ba
ogydF4y2Ba
ngydF4y2Ba
利用卷积Tucker-2分解层(gydF4y2Ba
63年gydF4y2Ba )因式分解一层传统卷积成几个小褶积层。因此,计算卷积是降低成本。最后,gydF4y2Ba
DgydF4y2Ba
egydF4y2Ba
egydF4y2Ba
pgydF4y2Ba
米gydF4y2Ba
ogydF4y2Ba
ngydF4y2Ba
曲调GPU代码在各种主流商品移动GPU。调整和优化GPU代码为每个GPU封装成独立的内核模式。作为一个结果,gydF4y2Ba
DgydF4y2Ba
egydF4y2Ba
egydF4y2Ba
pgydF4y2Ba
米gydF4y2Ba
ogydF4y2Ba
ngydF4y2Ba
可以自适应地采用适当的内核在运行时,以适应特定的GPU,尽了最大努力。gydF4y2Ba
的主要思想gydF4y2Ba
DgydF4y2Ba
egydF4y2Ba
egydF4y2Ba
pgydF4y2Ba
米gydF4y2Ba
ogydF4y2Ba
ngydF4y2Ba
缓存中间结果来消除冗余计算。另一个典型的技术是GPGPU加速度。曹等人提出了一个GPGPU-powered RNN模型,执行本地移动设备上(gydF4y2Ba
64年gydF4y2Ba ]。递归神经网络(RNN)可以得到广泛应用,如语音识别和机器人聊天。传统的移动应用程序RNN一般出售的主要计算到云上。然而,基于云计算的实现产生安全性和效率问题。曹等人指出,现有GPGPU-accelerated卷积神经网络(CNN)的方法不能直接移植到mobile-device-based RNN。一方面,RNN本身包含许多顺序操作,这限制了RNN的并行性。另一方面,现有GPGPU-powered RNN桌面gpgpu的方法是专门设计的。这些方法不能直接融入移动GPGPU因为移动GPGPU拥有更少内存容量和处理核心。RNN,避免相邻细胞之间的依赖性大大增加细胞之间的难以利用并行性。然而,操作在一个细胞仍然表现出相当大的并行性。 In the work of [
64年gydF4y2Ba ),计算细胞的映像在细粒度和优雅融入移动GPGPU。gydF4y2Ba
自适应平台DL框架gydF4y2Ba
DgydF4y2Ba
egydF4y2Ba
egydF4y2Ba
pgydF4y2Ba
3gydF4y2Ba
仍然采用GPGPU-powered计算的概念。然而,gydF4y2Ba
DgydF4y2Ba
egydF4y2Ba
egydF4y2Ba
pgydF4y2Ba
3gydF4y2Ba
利用并行性的三个层次:数据、网络和硬件。的最终目标gydF4y2Ba
DgydF4y2Ba
egydF4y2Ba
egydF4y2Ba
pgydF4y2Ba
3gydF4y2Ba
是之间的桥梁数据科学角度设计深度学习和计算机工程角度优化深度学习。首先是硬件并行性。gydF4y2Ba
DgydF4y2Ba
egydF4y2Ba
egydF4y2Ba
pgydF4y2Ba
3gydF4y2Ba
提取基本操作(层)的深度学习网络,包括卷积,最大池,池,矩阵乘法和非线性。优化的实现的基本操作可以显著不同的关于硬件平台。例如,通过改变矩阵的维数,我们可以观察到矩阵乘法计算密集型、数据密集型特定平台。gydF4y2Ba
DgydF4y2Ba
egydF4y2Ba
egydF4y2Ba
pgydF4y2Ba
3gydF4y2Ba
使用子例程来执行硬件配置。每个子程序运行一个特定的操作不同大小在不同的平台上,分别。通过这种方式,gydF4y2Ba
DgydF4y2Ba
egydF4y2Ba
egydF4y2Ba
pgydF4y2Ba
3gydF4y2Ba
识别特定操作的最优规模目标平台。这些最优尺寸是至关重要的指令将整个深学习网络子网,调整计算,目标平台的内存和带宽资源。二是网络的并行性。gydF4y2Ba
DgydF4y2Ba
egydF4y2Ba
egydF4y2Ba
pgydF4y2Ba
3gydF4y2Ba
将整个深度学习网络分解成重叠子网使用深度优先的方法。每个子网都有相同的深度与原始网络边缘明显减少。每个子网都可以独立地更新等地方收集的定期更新参数协调优化整个网络。第三是数据并行性。gydF4y2Ba
DgydF4y2Ba
egydF4y2Ba
egydF4y2Ba
pgydF4y2Ba
3gydF4y2Ba
高维输入数据分解成多个低维子空间,通过字典学习。字典学习可以通过机器学习算法有效地执行像谱聚类gydF4y2Ba
65年gydF4y2Ba - - - - - -gydF4y2Ba
67年gydF4y2Ba ]。随后,每个子网致力于处理一个特定的子空间和不同的子空间是并行处理。gydF4y2Ba
吴等人利用移动的关节角度深度学习软件和硬件体系结构。他们提出一个平台gydF4y2Ba
DgydF4y2Ba
egydF4y2Ba
egydF4y2Ba
pgydF4y2Ba
年代gydF4y2Ba
hgydF4y2Ba
一个gydF4y2Ba
rgydF4y2Ba
kgydF4y2Ba
以使能够商用现货(COTS)移动设备自适应资源调度的能力(gydF4y2Ba
68年gydF4y2Ba ]。方法如gydF4y2Ba
DgydF4y2Ba
egydF4y2Ba
egydF4y2Ba
pgydF4y2Ba
XgydF4y2Ba
尽量压缩深度模型。相比之下,gydF4y2Ba
DgydF4y2Ba
egydF4y2Ba
egydF4y2Ba
pgydF4y2Ba
年代gydF4y2Ba
hgydF4y2Ba
一个gydF4y2Ba
rgydF4y2Ba
kgydF4y2Ba
寻求响应速度和内存消耗之间的权衡。它分裂pretrained款到代码块和逐步运行块芯片系统(SoC)完成推理。因此,gydF4y2Ba
DgydF4y2Ba
egydF4y2Ba
egydF4y2Ba
pgydF4y2Ba
年代gydF4y2Ba
hgydF4y2Ba
一个gydF4y2Ba
rgydF4y2Ba
kgydF4y2Ba
只需要从外部存储器加载当前必需的数据到内存中,而不是在内存中保存所有数据在整个执行周期。因此,gydF4y2Ba
DgydF4y2Ba
egydF4y2Ba
egydF4y2Ba
pgydF4y2Ba
年代gydF4y2Ba
hgydF4y2Ba
一个gydF4y2Ba
rgydF4y2Ba
kgydF4y2Ba
显著降低内存消耗。此外,gydF4y2Ba
DgydF4y2Ba
egydF4y2Ba
egydF4y2Ba
pgydF4y2Ba
年代gydF4y2Ba
hgydF4y2Ba
一个gydF4y2Ba
rgydF4y2Ba
kgydF4y2Ba
导致没有精度损失模型压缩或近似的缺失。此外,隐私风险是避免因为user-relevant所有数据在本地处理。最终,gydF4y2Ba
DgydF4y2Ba
egydF4y2Ba
egydF4y2Ba
pgydF4y2Ba
年代gydF4y2Ba
hgydF4y2Ba
一个gydF4y2Ba
rgydF4y2Ba
kgydF4y2Ba
深度学习开发者来说是透明的。它重载默认系统功能TensorFlow和咖啡。开发人员可以调用gydF4y2Ba
DgydF4y2Ba
egydF4y2Ba
egydF4y2Ba
pgydF4y2Ba
年代gydF4y2Ba
hgydF4y2Ba
一个gydF4y2Ba
rgydF4y2Ba
kgydF4y2Ba
api相同的方式调用TensorFlow或咖啡api。相比之下,的工作gydF4y2Ba
59gydF4y2Ba 消除冗余内存操作在一个算法的方式。gydF4y2Ba
3.5。硬件革命gydF4y2Ba
Haensch等人指出,愿望DL应用于日常生活的各个领域的inheritage普适计算。然而,学术界和产业界面临的挑战规模壁垒DL DL适合普遍的应用程序(gydF4y2Ba
69年gydF4y2Ba ]。开销是一个至关重要的问题关于普遍应用DL,开销是指时间和所需计算资源构造,火车,和运行模式。现有技术研究工作表明,gpu进一步走向普及DL,而它是确认定制硬件致力于DL可以超越通用的gpu。gydF4y2Ba
汉等人设计的专用处理器DNN-based实时跟踪(gydF4y2Ba
70年gydF4y2Ba ]。这个处理器通过DNN-specific达到低功耗处理器架构和专门的算法。然而,这种专用处理器仍然依赖于数字计算。gydF4y2Ba
DL网络只需要有限种类的数学运算(例如,矩阵乘法)。这样的行动经常重新出现在模型训练或推理。这两个特征使高效的执行不仅DL算法在gpu也模拟计算电路。此外,DL算法非常宽容的噪音和不确定性,将贸易数值精度算法精度的一种方法。模拟计算了Haensch et al。gydF4y2Ba
69年gydF4y2Ba )是一个扩展的内存计算。现有技术非易失存储器材料不能有效地适应模拟内存计算。再造工程记忆材料是一项非常具有挑战性的任务。新一代的DL加速硬件已经进入了学术界和产业界的愿景。这种硬件行业通用性低开销。然而,构造的复杂性和训练DL模型超出任何一种硬件的能力。因此,研究人员需要考虑以系统的观点和解决方案将几种加速器聚合成一个完美的系统。活力的新加速器很大程度取决于这个问题。此外,Haensch等人宣布模拟加速器不会完全取代数字的。这两个数字和模拟加速器应不断开发的最大可能的程度。 The analog accelerators should be capable of seamless integration into digital ones.
模拟计算可以实现基于电化学反应。这种机制已经研究建立硬件基础DL-related问题。例如,神经形态计算可以绕过传统的计算通过并行处理和内在性能瓶颈crossbar-memory-enabled数据访问。福勒等人链接一个氧化还原晶体管conductive-bridge内存(CBM),从而建立一个离子浮栅存储器(IFG)数组(gydF4y2Ba
71年gydF4y2Ba ]。氧化还原晶体管的工作寿命可以达到十亿多“读写”操作。此外,数据访问频率可以实现多个兆赫。这IFG-based神经形态系统显示内存中学习和推理可以有效地执行基于低压电化学系统。IFG希望能先锋神经形态的自适应电特性的计算机可以在功率效率明显优于传统的数字计算机。这样的神经形态模拟计算机可以调整深度学习限制功率情况下,甚至使能够持久的产品的终身学习。另一个electrochemistry-based硬件原型提出了(gydF4y2Ba
72年gydF4y2Ba ]。Tsushiya等人设计一个固态离子设备解决决策问题像multiarmed土匪问题(MBPs)。这个设备实现决策打开方式通过离子的运动,这可能导致移动人工芯片和发现各种应用程序包括深度学习。gydF4y2Ba
除了模拟计算、光子(光)计算也是一个很有前途的硬件解决方案。目前,主流光子计算机用光子代替电子数字计算机的组件,可以获得更高的速度和带宽。一些开拓性的研究工作采用了光子计算支持DL-related计算。里奥斯等人通过结合实现all-photonic内存计算集成光学集中的数据存储和处理(gydF4y2Ba
73年gydF4y2Ba ]。他们制造非易失存储器使用相变材料gydF4y2Ba
通用电气gydF4y2Ba
2gydF4y2Ba
某人gydF4y2Ba
2gydF4y2Ba
TegydF4y2Ba
5gydF4y2Ba
和执行直接标量和矩阵向量乘法基于该非易失性光子的记忆。计算结果为输出脉冲。这个光子计算系统提供了一个有前途的转向高速和大带宽芯片上的光子计算,而绕开光电转换。这样一个系统可以是纯粹的光子计算机的基石。Feldmann等人指出,传统的计算架构区分真正的神经组织的物理分离数据内存和处理的功能gydF4y2Ba
74年gydF4y2Ba ]。这种分离设计的地方一个令人生畏的障碍实现高速和低功耗计算系统就像人类的大脑。一个有前途的解决方案来克服这个障碍是精心设计的小说硬件模拟人类大脑的神经元和突触。因此,他们调查波分多路复用技术来实现一个光子神经网络基于一个可伸缩的电路,它可以模拟neurosynaptic系统以一种方式。这种电路保持内在的高速和大带宽特性的光学系统,使能够有效的机器学习算法执行。gydF4y2Ba
量子计算是另一个潜在的解决方案来支持DL。高等人采用量子衍生模型设计量子算法的机器学习。这个模型优越的能力代表概率分布在传统的生成模型。此外,该模型可以实现指数级的速度至少在某些应用场景,量子计算机不能完全模拟通过传统的数字计算范例。的工作(gydF4y2Ba
75年gydF4y2Ba 打开一个量子机器学习方法和演示了一个戏剧性的例子,一个量子算法的理论和实践价值指数可以达到更高的性能与传统算法。gydF4y2Ba
小说硬件模式像离子记忆,光子计算和量子计算可以为资源有限的深度学习不可或缺的阶段。尽管这些硬件进化可能最初出于促进深度学习的应用,新一代硬件将来能找到更广泛的应用。gydF4y2Ba
3.6。讨论gydF4y2Ba
表gydF4y2Ba
1gydF4y2Ba 总结代表工作基本原则的角度来看,占款计算的困境。现有研究工作通常旨在处理一个或多个计算困境的原因。gydF4y2Ba
表1gydF4y2Ba
代表性研究工作基本原则的角度。gydF4y2Ba
代表性研究工作gydF4y2Ba
技术gydF4y2Ba
引起的内存开销过大的网络gydF4y2Ba
(gydF4y2Ba
39gydF4y2Ba ]gydF4y2Ba
通过聚类权重矩阵压缩pretrained网络:在假设空间合并类似的功能gydF4y2Ba
(gydF4y2Ba
56gydF4y2Ba ]gydF4y2Ba
重修剪pretrained网络:删除贡献小的权重在假设空间拟合函数gydF4y2Ba
(gydF4y2Ba
39gydF4y2Ba ,gydF4y2Ba
58gydF4y2Ba ]gydF4y2Ba
稀疏的培训:套索正则化、结构化稀疏正则化gydF4y2Ba
(gydF4y2Ba
68年gydF4y2Ba ]gydF4y2Ba
在数字计算机计算优化:细粒度的利用内存gydF4y2Ba
时间和精力开销引起的反向传播,内存操作,hyperparameter调优gydF4y2Ba
(gydF4y2Ba
37gydF4y2Ba ,gydF4y2Ba
39gydF4y2Ba ,gydF4y2Ba
49gydF4y2Ba ]gydF4y2Ba
算法设计,避免计算冗余:深度分离卷积,避免im2col重新排序,映像矩阵向量乘法基于奇异值分解和Tucker-2gydF4y2Ba
(gydF4y2Ba
37gydF4y2Ba ]gydF4y2Ba
数字计算机的高速缓存:重用卷积,以避免冗余计算的中间结果gydF4y2Ba
(gydF4y2Ba
39gydF4y2Ba ,gydF4y2Ba
40gydF4y2Ba ]gydF4y2Ba
数字处理器上的并行化:FPGA, GPGPUgydF4y2Ba
(gydF4y2Ba
37gydF4y2Ba ,gydF4y2Ba
40gydF4y2Ba ,gydF4y2Ba
53gydF4y2Ba ]gydF4y2Ba
充分利用数字处理器:分析和微调的CPU或GPGPU代码gydF4y2Ba
(gydF4y2Ba
59gydF4y2Ba ]gydF4y2Ba
避免频繁通过布尔逻辑最小化内存操作gydF4y2Ba
(gydF4y2Ba
41gydF4y2Ba ]gydF4y2Ba
Hyperparameter使用高斯过程调优gydF4y2Ba
诅咒的维度gydF4y2Ba
(gydF4y2Ba
53gydF4y2Ba ]gydF4y2Ba
计算权重矩阵的分解gydF4y2Ba
(gydF4y2Ba
60gydF4y2Ba ]gydF4y2Ba
数据嵌入gydF4y2Ba
第一个是超大型网络引起的内存开销。早期的算法解决方案倾向于压缩或删除的权重矩阵pretrained款。压缩或修剪是一个之间的权衡的能力(或泛化能力)和记忆效率。然而,直接修改pretrained网络不可避免地导致unexceptable错误。尽管再培训是一种选择,它会引起显著的额外的时间开销。gydF4y2Ba
因此,最近的算法提出实现稀疏网络通过培训解决方案。核心理念是精心选择误差函数的正则化项,这迫使网络形成稀疏矩阵在很少或甚至没有重量损失在泛化能力。除了算法解决方案,数字计算机还可以赋予权力大pretrained网络推理阶段通过细粒度的利用内存。gydF4y2Ba
第二个是时间和精力开销引起的反向传播,内存操作,hyperparameter调优。从算法的角度来看,戏剧可以消除冗余计算,特别是矩阵与矩阵和矩阵向量乘法。在这种方式中,时间开销以及能源消耗降低。时间效率还可以促进重用中间结果的卷积,并行数字处理器,和代码数字处理器上的微调。与开销引起的运算处理,时间消耗引起的内存操作是很难处理的。原因是传统的数字计算机采用冯诺依曼体系结构,从而有独立处理和内存单元。由于款的统计和近似性质,布尔逻辑最小化可有助于降低内存的操作,以及能源消耗。这个解决方案实现高效的性能在手写数字识别。然而,它限制激活功能gydF4y2Ba
年代gydF4y2Ba
我gydF4y2Ba
ggydF4y2Ba
ngydF4y2Ba
功能,这限制了泛化能力。关于能源hyperparameter调优,数学方法如高斯过程可以指出一个更高效的搜索路径在参数空间中,除了仅仅依靠人类经验甚至随机搜索。gydF4y2Ba
能源消耗主要是由算术处理和内存操作引起的。因此,后两个是关键问题。关于时间开销,大多数现有的解决方案关注外围冗余计算等问题。然而,在随机梯度下降问题的根源。培训时间将会大幅下降如果我们能制造一种改进的梯度,从而更快地收敛。对内存操作的开销,这是冯·诺依曼体系结构的一个固有的问题。解决这个问题需要新的内存计算等计算范例。gydF4y2Ba
第三维度的诅咒。传统解决方案权重矩阵分解和数据嵌入可以降低特征维度。据我们所知,有有限的特征降维的研究工作computational-resource-limited上下文。相关话题进行调查。gydF4y2Ba
应该指出的是,上述讨论方面不是孤立的。一种系统化的观点可能意味着一个更高效的解决方案。例如,pretrained稀疏的网络无疑要求推理时间小于一个密集的网络。另一个实例,读/写重量会产生更少的时间和能源消耗,如果权重矩阵是稀疏的。表gydF4y2Ba
1gydF4y2Ba 不包括创新的模拟计算和量子计算等计算范例。稍后我们将详细讨论这些计算范例。gydF4y2Ba
表gydF4y2Ba
2gydF4y2Ba 代表性研究工作提供更多的细节。三种解决方案都在快速发展。整体动机是有效地应用DL移动/嵌入式上下文。算法解决方案核心地位是由于他们直接处理业务逻辑的应用程序,旨在减少时间和内存复杂性数学逻辑层。现有的解决方案主要集中在简化matrix-and-vector操作、数据/网络嵌入hyperparameter调优,并通过正规化sparsification。仍需要进一步的研究来探索减少计算开销通过激活函数。gydF4y2Ba
表2gydF4y2Ba
代表性研究工作的细节。gydF4y2Ba
日期gydF4y2Ba
名称(引用。)gydF4y2Ba
资源gydF4y2Ba
具有代表性的方法gydF4y2Ba
机器学习的神经网络或主题的体系结构gydF4y2Ba
应用场景gydF4y2Ba
数据集gydF4y2Ba
算法gydF4y2Ba
2016-4-11gydF4y2Ba
DgydF4y2Ba
egydF4y2Ba
egydF4y2Ba
pgydF4y2Ba
XgydF4y2Ba
(gydF4y2Ba
53gydF4y2Ba ]gydF4y2Ba
内存容量、电力gydF4y2Ba
推理阶段:圣言decomposition-based权重矩阵压缩,细粒度任务调度处理器gydF4y2Ba
AlexNet [gydF4y2Ba
76年gydF4y2Ba ),2-hidden层SpeakerID款,SVHN CNN, 2-hidden层款音频的场景gydF4y2Ba
识别的对象,人的声音、音频环境gydF4y2Ba
ImageNet [gydF4y2Ba
76年gydF4y2Ba ),议长验证欺骗,挑战和对策数据集(gydF4y2Ba
77年gydF4y2Ba ],SVHN数据集[gydF4y2Ba
78年gydF4y2Ba )、音频场景数据集(gydF4y2Ba
79年gydF4y2Ba ]gydF4y2Ba
2016-8-8gydF4y2Ba
DgydF4y2Ba
egydF4y2Ba
lgydF4y2Ba
我gydF4y2Ba
ggydF4y2Ba
hgydF4y2Ba
tgydF4y2Ba
(gydF4y2Ba
60gydF4y2Ba ]gydF4y2Ba
权力gydF4y2Ba
训练阶段:数据projectionunder能源约束gydF4y2Ba
层款gydF4y2Ba
成像、智能传感、语音识别gydF4y2Ba
高光谱遥感场景(gydF4y2Ba
80年gydF4y2Ba ),UCI日常和体育活动gydF4y2Ba
81年gydF4y2Ba ],UCI ISOLET [gydF4y2Ba
82年gydF4y2Ba ]gydF4y2Ba
2017-4-17gydF4y2Ba
米gydF4y2Ba
ogydF4y2Ba
bgydF4y2Ba
我gydF4y2Ba
lgydF4y2Ba
egydF4y2Ba
NgydF4y2Ba
egydF4y2Ba
tgydF4y2Ba
年代gydF4y2Ba
(gydF4y2Ba
49gydF4y2Ba ]gydF4y2Ba
内存容量gydF4y2Ba
训练阶段:切除分离卷积,避免im2col重新排序,hyperparameter调优gydF4y2Ba
28-layer卷积神经网络,PlatNetgydF4y2Ba
87年gydF4y2Ba ,gydF4y2Ba
88年gydF4y2Ba ],FaceNet [gydF4y2Ba
89年gydF4y2Ba ,gydF4y2Ba
90年gydF4y2Ba ]gydF4y2Ba
大规模的地理位置,细粒度图像识别,人脸识别,目标检测gydF4y2Ba
ImageNet,定位gydF4y2Ba
83年gydF4y2Ba ],斯坦福大学狗[gydF4y2Ba
84年gydF4y2Ba ],YFCC100M [gydF4y2Ba
85年gydF4y2Ba ],可可[gydF4y2Ba
86年gydF4y2Ba ]gydF4y2Ba
2017-4-30gydF4y2Ba
(gydF4y2Ba
39gydF4y2Ba ]gydF4y2Ba
内存容量gydF4y2Ba
推理阶段:重编码、重量共享、分解向量矩阵乘法gydF4y2Ba
2-Hidden层款gydF4y2Ba
语音识别、室内定位、人类活动识别、手写数字识别gydF4y2Ba
UCI ISOLET, UCI UJIIndoorLoc [gydF4y2Ba
87年gydF4y2Ba ),UCI日常体育活动,MNIST [gydF4y2Ba
88年gydF4y2Ba ]gydF4y2Ba
2018-3-19gydF4y2Ba
HgydF4y2Ba
ygydF4y2Ba
pgydF4y2Ba
egydF4y2Ba
rgydF4y2Ba
PgydF4y2Ba
ogydF4y2Ba
wgydF4y2Ba
egydF4y2Ba
rgydF4y2Ba
(gydF4y2Ba
41gydF4y2Ba ]gydF4y2Ba
权力gydF4y2Ba
训练阶段:hyperparameter调优,GP-Bayesian优化gydF4y2Ba
变异的AlexNet MNIST CIFAR-10gydF4y2Ba
手写数字识别,图像分类gydF4y2Ba
MNIST, CIFAR-10 [gydF4y2Ba
89年gydF4y2Ba ]gydF4y2Ba
2019-1-21gydF4y2Ba
(gydF4y2Ba
59gydF4y2Ba ]gydF4y2Ba
内存访问延迟、权力gydF4y2Ba
训练阶段:实现款问题转换成一个布尔逻辑优化问题,布尔逻辑最小化gydF4y2Ba
多层感知(gydF4y2Ba
92年gydF4y2Ba ),美国有线电视新闻网gydF4y2Ba
手写数字识别gydF4y2Ba
MNISTgydF4y2Ba
2019-2-28gydF4y2Ba
(gydF4y2Ba
52gydF4y2Ba ]gydF4y2Ba
内存容量gydF4y2Ba
训练阶段:集团套索正规化、群际套索正规化gydF4y2Ba
与7卷积完全卷积网络层初始化pretrained VGG16gydF4y2Ba
人脸识别gydF4y2Ba
LFW面临数据集(gydF4y2Ba
93年gydF4y2Ba ]gydF4y2Ba
2019-4-12gydF4y2Ba
(gydF4y2Ba
58gydF4y2Ba ]gydF4y2Ba
内存容量gydF4y2Ba
训练阶段:结构化稀疏正则化,选择更新拉格朗日乘数法(AULM)gydF4y2Ba
LeNet [gydF4y2Ba
94年gydF4y2Ba ,AlexNet VGG-16 [gydF4y2Ba
95年gydF4y2Ba ],ResNet-50 [gydF4y2Ba
96年gydF4y2Ba ],GoogLeNet [gydF4y2Ba
97年gydF4y2Ba ]gydF4y2Ba
手写数字识别,图像分类gydF4y2Ba
MNIST, ImageNetgydF4y2Ba
计算gydF4y2Ba
2017-6-18gydF4y2Ba
DgydF4y2Ba
egydF4y2Ba
egydF4y2Ba
pgydF4y2Ba
3gydF4y2Ba
(gydF4y2Ba
40gydF4y2Ba ]gydF4y2Ba
处理器gydF4y2Ba
培训和推理阶段:通过计算负载改变粒度,提高并行网络分割通过深度优先遍历方法,数据降维使用字典学习,与GPU并行gydF4y2Ba
建立一个通用的框架,用于拟合DL网络特定的硬件,AlexNet被用来作为一个例子gydF4y2Ba
成像、智能传感、语音识别gydF4y2Ba
高光谱遥感场景,UCI ISOLET UCI的日常和体育活动gydF4y2Ba
2017-6-19gydF4y2Ba
DgydF4y2Ba
egydF4y2Ba
egydF4y2Ba
pgydF4y2Ba
米gydF4y2Ba
ogydF4y2Ba
ngydF4y2Ba
(gydF4y2Ba
37gydF4y2Ba ]gydF4y2Ba
处理器、电源gydF4y2Ba
推理阶段:数据缓存,特定于硬件的代码微调,Tucker-2矩阵分解gydF4y2Ba
VGG-Verydeep-16 [gydF4y2Ba
95年gydF4y2Ba 有人知道由罗[],gydF4y2Ba
98年gydF4y2Ba ]gydF4y2Ba
连续的视觉应用程序gydF4y2Ba
ILSVRC2012训练数据集(gydF4y2Ba
99年gydF4y2Ba ),2007年帕斯卡VOC训练数据集(gydF4y2Ba
One hundred.gydF4y2Ba ],UCF101数据集[gydF4y2Ba
101年gydF4y2Ba ],莉娜数据集[gydF4y2Ba
102年gydF4y2Ba ]gydF4y2Ba
2017-6-23gydF4y2Ba
米gydF4y2Ba
ogydF4y2Ba
bgydF4y2Ba
我gydF4y2Ba
RgydF4y2Ba
NgydF4y2Ba
NgydF4y2Ba
(gydF4y2Ba
64年gydF4y2Ba ]gydF4y2Ba
处理器gydF4y2Ba
推理阶段:细粒度代码执行,与GPU并行gydF4y2Ba
LSTM模型(gydF4y2Ba
103年gydF4y2Ba ]gydF4y2Ba
智能传感gydF4y2Ba
手机传感器数据集(gydF4y2Ba
104年gydF4y2Ba ]gydF4y2Ba
2019-2-1gydF4y2Ba
dgydF4y2Ba
egydF4y2Ba
egydF4y2Ba
pgydF4y2Ba
年代gydF4y2Ba
hgydF4y2Ba
一个gydF4y2Ba
rgydF4y2Ba
kgydF4y2Ba
(gydF4y2Ba
68年gydF4y2Ba ]gydF4y2Ba
内存容量gydF4y2Ba
推理阶段:细粒度的内存利用率gydF4y2Ba
VGG, CaffeNet [gydF4y2Ba
105年gydF4y2Ba ,GoogLeNet AlexNetgydF4y2Ba
成像gydF4y2Ba
ILSVRC2012gydF4y2Ba
硬件gydF4y2Ba
2018-10-4gydF4y2Ba
(gydF4y2Ba
70年gydF4y2Ba ]gydF4y2Ba
计算能力、电力gydF4y2Ba
培训和推理阶段:统一的核心架构,二进制反馈对齐(论坛),动态fixed-point-based行程长度压缩(RLC),辍学控制器gydF4y2Ba
MDNet [gydF4y2Ba
106年gydF4y2Ba ]gydF4y2Ba
实时跟踪gydF4y2Ba
数据集对象跟踪基准(OTB) (gydF4y2Ba
107年gydF4y2Ba ]gydF4y2Ba
2018-9-7gydF4y2Ba
(gydF4y2Ba
72年gydF4y2Ba ]gydF4y2Ba
计算能力gydF4y2Ba
采用压充电电化学细胞的关系实现遗忘参数,描述了使用离子的运动决策问题gydF4y2Ba
Multiarmed土匪问题(MBPs)gydF4y2Ba
强化学习gydF4y2Ba
- - - - - -gydF4y2Ba
2018-12-7gydF4y2Ba
(gydF4y2Ba
75年gydF4y2Ba ]gydF4y2Ba
计算能力gydF4y2Ba
量子计算、模型的相关数据与潜在的概率多体纠缠态的振幅gydF4y2Ba
生成模型gydF4y2Ba
生成模型gydF4y2Ba
- - - - - -gydF4y2Ba
2019-2-15gydF4y2Ba
(gydF4y2Ba
73年gydF4y2Ba ]gydF4y2Ba
计算能力gydF4y2Ba
电化学电池gydF4y2Ba
基于非易失性内存光子矩阵向量乘法gydF4y2Ba
基本的算术操作机器学习和人工智能算法gydF4y2Ba
- - - - - -gydF4y2Ba
2019-5-9gydF4y2Ba
(gydF4y2Ba
74年gydF4y2Ba ]gydF4y2Ba
处理能力、电力gydF4y2Ba
分离数据内存和处理的功能,模拟neurosynaptic系统以一种方式gydF4y2Ba
四个神经元组成的神经网络和60突触(总共140光学元素)gydF4y2Ba
字母识别gydF4y2Ba
- - - - - -gydF4y2Ba
除了数学逻辑层,传统的通用数字硬件的桥梁之间的差距数学算法和实际应用。我们所知,最实用的移动/嵌入式DL-based应用程序都是基于传统的硬件。在这种情况下,经典计算优化方法可以采用充分利用计算资源,包括数据缓存、并行化和代码微调。然而,许多现有款设计的人工智能专家,谁的地方很少,甚至没有关注款硬件的适应能力。结果,款可能需要重塑有效地适应特定的硬件设备。针对这一点,我们希望,研究人员可以设计款联合视图的人工智能专家和计算机工程师。gydF4y2Ba
目前,代表计算性能指标包括内存开销,内存访问延迟、并行性(充分利用处理器)和功耗。然而,一些主题仍有待调查。例如,gydF4y2Ba
DgydF4y2Ba
egydF4y2Ba
egydF4y2Ba
pgydF4y2Ba
年代gydF4y2Ba
hgydF4y2Ba
一个gydF4y2Ba
rgydF4y2Ba
kgydF4y2Ba
使用外部存储器作为缓存支持细粒度的内存利用率。造成的能耗数据I / O是讨论。此外,缓存大小之间的平衡和缓存命中率也是一个有趣的话题。表gydF4y2Ba
3gydF4y2Ba 显示的数据集被用来评价一款根据多个性能指标。这些数据集和相关算法是有利的选择作为基准。gydF4y2Ba
表3gydF4y2Ba
数据集相关的多个性能指标。gydF4y2Ba
性能指标gydF4y2Ba
相关研究工作gydF4y2Ba
UCI ISOLET UCI日常和体育活动gydF4y2Ba
处理器利用率gydF4y2Ba
(gydF4y2Ba
40gydF4y2Ba ]gydF4y2Ba
内存开销gydF4y2Ba
(gydF4y2Ba
39gydF4y2Ba ]gydF4y2Ba
电力消耗gydF4y2Ba
(gydF4y2Ba
60gydF4y2Ba ]gydF4y2Ba
ILSVRC2012gydF4y2Ba
处理器利用率gydF4y2Ba
(gydF4y2Ba
37gydF4y2Ba ]gydF4y2Ba
电力消耗gydF4y2Ba
(gydF4y2Ba
37gydF4y2Ba ]gydF4y2Ba
内存开销gydF4y2Ba
(gydF4y2Ba
68年gydF4y2Ba ]gydF4y2Ba
MNISTgydF4y2Ba
内存开销gydF4y2Ba
(gydF4y2Ba
39gydF4y2Ba ,gydF4y2Ba
59gydF4y2Ba ]gydF4y2Ba
内存访问延迟gydF4y2Ba
(gydF4y2Ba
59gydF4y2Ba ]gydF4y2Ba
电力消耗gydF4y2Ba
(gydF4y2Ba
41gydF4y2Ba ]gydF4y2Ba
高光谱遥感场景gydF4y2Ba
处理器利用率gydF4y2Ba
(gydF4y2Ba
40gydF4y2Ba ]gydF4y2Ba
电力消耗gydF4y2Ba
(gydF4y2Ba
60gydF4y2Ba ]gydF4y2Ba
然而,传统的通用数字硬件可能仍然低效在某些场景。因此,DL-dedicated数字硬件变得越来越流行,而数字硬件的计算性能面临瓶颈由于物理约束。新一代量子计算等计算技术有前途的解决方案来克服这样的约束。下一代计算技术无疑将促进深度学习的进步即使他们现在正处于初级阶段。gydF4y2Ba
4所示。需要解决的挑战gydF4y2Ba
尽管现有解决方案的前景光明,我们仍然面临着一些需要解决的严峻挑战。gydF4y2Ba
4.1。基本硬件支持革命gydF4y2Ba
模拟计算是一种有希望的技术来促进DL因为DL是宽容的数值错误。然而,模拟计算是一种内存计算并提出了新型非易失存储器的需求材料。Analog-computing-powered DL要求计算机科学家和材料科学家的长期共同努力。gydF4y2Ba
与硬件的其他创新类型相比,模拟计算是暂时的领先地位。模拟阵列技术已经成功地应用于处理常见款数据集(gydF4y2Ba
108年gydF4y2Ba ),而其他创新的硬件技术,如光子计算和量子计算仍适用于款(gydF4y2Ba
73年gydF4y2Ba ,gydF4y2Ba
75年gydF4y2Ba ]。模拟数组的优势在于采用模拟电路来计算矩阵向量乘法与常数时间开销与矩阵的大小无关。然而,这是一个困境来直卷积神经网络映射到传统模拟阵列由于内核矩阵通常很小,是常量时间的乘法操作必须多次迭代顺序。拉希等人并行化的培训通过复制内核矩阵卷积层在不同模拟数组和随机调度部分的计算到阵列上。因此,加速比正比于内核的数量矩阵每层(gydF4y2Ba
106年gydF4y2Ba ]。gydF4y2Ba
除了较高的加速比,模拟计算的另一个优点是处理和内存的分裂。在传统的冯诺依曼体系结构,处理单元和记忆是分开的。处理单元之间的数据传输和内存可以使用比传统算术运算数量级的更多的能量。此外,一个典型的深度学习应用程序通常要求巨大的数据传输操作,大幅提高高能源消耗比计算。一个很有前景的解决方案配置处理单元和内存使用相变内存(gydF4y2Ba
109年gydF4y2Ba ]。gydF4y2Ba
尽管模拟计算硬件已经表现出潜力优于传统冯诺依曼体系结构的硬件如gpu,大多数现有的研究工作集中在这样的模拟硬件的功能。效率和可靠性稳定性和耐久性等问题尚未调查之前走出实验室真正的应用程序(gydF4y2Ba
110年gydF4y2Ba ]。gydF4y2Ba
4.2。更高效的算法解决方案gydF4y2Ba
一些算法解决方案权重矩阵压缩和重量矩阵分解等近似原pretrained神经网络简化。然而,经验的本质DL阻碍解决一个精确的近似误差的理论上限。没有这个上界很难证明这种近似的鲁棒性。此外,由于缺乏理论原则,许多算法需要迭代优化和运行模型来选择最佳的一个。然而,模型参数很大的设计空间。因此,真正实现这种算法技术大规模应用程序可能是一个艰巨的任务,尤其是当我们需要处理hyperparameters大范围之内。gydF4y2Ba
Posttraining简化款可能会导致巨大的错误。此外,大量的参数影响随机梯度下降法实现算法的解决方案。稀疏的训练是一种很有前途的方法来应对这两个问题。gydF4y2Ba
实现高容量的神经网络是一种传统的解决方案来保证低泛化误差。然而,大多数深层神经网络获得高容量通过利用大量的重量,这意味着致密连续层之间的连接。这就解释了原因,许多现有的深层神经网络采用完全连接层。然而,真正的生物神经网络无尺度还明显比最先进的深度学习网络和稀疏连接。灵感来自这个观察,Mocanu等人构建一个稀疏的无尺度网络拓扑与连续两层(gydF4y2Ba
111年gydF4y2Ba ]。这种拓扑替代品稀疏层完全连接层之前的训练。稀疏的进化训练方法减少参数的平方,诱导不损失精度。这稀疏的训练方法打开一个方式降低了传统硬件配件深学习障碍。gydF4y2Ba
基于该方法的gydF4y2Ba
111年gydF4y2Ba ),刘等人训练一个稀疏MLP与一百万个神经元(多层感知)模型分类微阵列基因(gydF4y2Ba
110年gydF4y2Ba ]。这个模型可以被训练101秒的时间内大小,实现低泛化误差比传统模型(数据集:白血病,尺寸:26日1397训练数据样本和699测试数据样本)。gydF4y2Ba
的方法(gydF4y2Ba
111年gydF4y2Ba )主要侧重于建立一个新颖的网络拓扑结构,但仍采用传统的随机梯度下降训练模式gydF4y2Ba
111年gydF4y2Ba ]。Dettmers等人利用指数平滑渐变识别层和权重,有效减少稀疏的训练误差模型。因此,该模型收敛速度显著提升。此外,训练网络hyperparameters不敏感。gydF4y2Ba
近年来,数量迅速增加的研究工作正在调查在稀疏的培训款(gydF4y2Ba
112年gydF4y2Ba - - - - - -gydF4y2Ba
116年gydF4y2Ba ]。这些研究通常集中于稀疏的几款类型的培训。鉴于款的多样性和复杂性,它是一个非常有价值的挑战性的工作利用稀疏培训各类款在特定的应用程序需求。gydF4y2Ba
4.3。系统的集成gydF4y2Ba
作为讨论的部分gydF4y2Ba
2gydF4y2Ba 资源有限的DL无处不在的终极目标部署DL。多样化的应用程序可以提出各种要求无处不在的DL。因此,我们需要系统地整合各种类型的解决方案。gydF4y2Ba
下一代计算与传统数字硬件,硬件应该无缝协作的最终目标的快速进化进化款。gydF4y2Ba
吉尔和绿色认为未来电脑硬件是基于十字路口的三个方面:数学和信息,neuron-inspired生物学和信息,和物理和信息。这些十字路口给数字计算的概念,神经计算,分别和量子计算。吉尔和绿色表示这三个概念,神经元,分别和量子位。如图gydF4y2Ba
4gydF4y2Ba 下一代AI-enabled计算系统需要集成的三个(gydF4y2Ba
117年gydF4y2Ba ]。在这个图中,我们采用量子计算(量子比特)来代表未来的计算范例。模拟计算等新型计算范例也应该考虑。我们详细讨论这种集成如下。gydF4y2Ba
图4gydF4y2Ba
建立下一代AI-enabled计算系统路线图。gydF4y2Ba
4.3.1。数字计算gydF4y2Ba
数字计算的优势在于其稳定自然二进制。相同的二进制输入,数字计算系统应该产生相同的输出。这种性质是构建健壮和稳定系统的基础进行数据存储和处理。经典数字计算仍然是一个有效的解决方案不仅数学和逻辑运算,而且持久数据存储。在未来计算系统、数字计算仍将占据不可或缺的地位由于其健壮和可靠的性质。gydF4y2Ba
4.3.2。神经元计算gydF4y2Ba
尽管数字计算的优势,当前DNN-based人工智能方法需要重塑甚至创新这种计算模式。人工智能在过去十年里取得了巨大的进步。AI仍在狭窄的AI的阶段,要求大量的手动标记数据获取知识的专门任务。在下一阶段,我们期待广大AI能够自适应地和自主适应多样化的各种领域的任务。狭义人工智能已经计算昂贵的巨大的场景。广泛的愿景AI甚至会加剧计算的困境。构建高效的计算系统等人工智能工作负载需要的创新再造工程材料、架构和软件。gydF4y2Ba
第一类的解决AI-specific计算系统容错的本质源于统计和深入学习。这样的解决方案牺牲数值精度的计算性能,但一般不能实现类似甚至相同的分类精度的实现(gydF4y2Ba
118年gydF4y2Ba - - - - - -gydF4y2Ba
121年gydF4y2Ba ]。我们将见证一个连续下降的精度要求培训和推断未来十年款。这种趋势是由不断翻新AI-specific数字硬件和匹配算法,这将导致在人工智能硬件的性能显著改善。gydF4y2Ba
以前讨论的,另一种解决方案的想法在于消除处理单元之间数据传输的开销和内存。gydF4y2Ba
我们可以想象的高要求提高DNN-based AI在不久的将来。量子计算享受最大的计算能力在几乎所有现有的计算范例,从而有可能提高high-time-complexity深度学习应用程序的其他计算范例。gydF4y2Ba
4.3.3。量子计算gydF4y2Ba
量子计算生成一个量子位(量子比特)的指数状态空间探索量子叠加和纠缠。计算能力指数尺度的量子比特:另一个量子位意味着计算能力翻了一番。原型的量子计算机实验室的硬件供应商像IBM这样的(gydF4y2Ba
122年gydF4y2Ba ,gydF4y2Ba
123年gydF4y2Ba ]。下一个话题是桥之间的差距技术原型和真实的应用程序中。例如,量子纠错(QEC)编码的容错量子计算是不可或缺的。量子计算机将成为未来AI-enabled计算系统的核心加速器。然而,目前,构建容错量子计算的成本超出了合理的范围gydF4y2Ba
124年gydF4y2Ba ]。进一步深入调查迫在眉睫。gydF4y2Ba
4.3.4。集成的神经元,量子位元gydF4y2Ba
正如上面提到的,一个deep-learning-enabled计算系统依赖于三个基石:数字计算(位)、神经计算(神经元)和量子计算(量子比特)。系统解决方案computational-resource-limited深度学习需要集成的比特,神经元,量子位元。位可以提供基本的数据存储和底层硬件的可靠性保证。然而,单独位只能支持特定的编程任务,狭窄的目的。将神经元与位生成窄AI甚至广泛的人工智能,它不仅可以提炼深刻的知识从难以想象的巨大的数据还帮助人类协作和更人性化的方式。各种科学和工程问题希望得到解决的协助下人工智能。神经网络的核心原则是搜索一个函数的假设空间网络,因此一个类别的样本映射到一个相应的输出标签。由于大型科学和工程问题的规模和复杂性,一个典型的神经网络必然需要高容量来生成一个大假设空间。一个很大的假设空间可能有助于降低泛化误差。然而,一个大假设空间意味着更多的自由度和需求很长时间让stochastic-gradient-descent-impelled反向传播找到一个近似最优的解决方案。 The exponentially scaling computing power just matches the time overhead of the similar order of magnitude.
数字硬件GPGPU和FPGA目前占主流款的加速器。耗时的手动微调并行代码是不可避免的操作来实现最优性能,对于每一个“model-GPGPU款类型”。因此,digital-hardware-accelerated DL面临障碍和敏捷编程效率。此外,开发工具包analog-computing-enabled或quantum-computing-based深学习无疑是一个本质有一天当我们回归模拟计算机或量子计算机向调查人员,程序员,和计算资源提供者。gydF4y2Ba