评论文章|开放获取
彭Chunlei Chen, Huixiang张姜堰戴,Yugen咦,慧慧张,Yonghui张, ”深度学习在Computational-Resource-Limited平台:一项调查”,移动信息系统, 卷。2020年, 文章的ID8454327, 19 页面, 2020年。 https://doi.org/10.1155/2020/8454327
深度学习在Computational-Resource-Limited平台:一项调查
文摘
如今,物联网(物联网)产生了大量的数据。物联网节点配备智能传感器可以立即提取有意义的数据通过机器学习技术知识。深度学习(DL)不断贡献重大进展在智能传感由于其巨大的优势与传统机器学习。宽领域前景广阔应用程序提出要求DL的无处不在的部署在不同的上下文中。因此,移动或者嵌入式平台上执行DL越来越常见的一种需求。然而,一个典型的DL应用程序可以很容易地排气嵌入式或移动设备由于大量繁殖并积累(MAC)操作和内存访问操作。因此,它是一个具有挑战性的任务之间的桥梁深度学习和资源平台。我们总结资源有限的深度学习的典型应用,指出深度学习是普适计算的不可或缺的动力。随后,我们探索的根本原因高昂的计算开销DL通过回顾基本概念包括能力、泛化和反向传播神经网络。这些概念的指导下,我们调查的原则具有代表性的研究工作,以及三种类型的解决方案:算法设计、计算优化和硬件的革命。 In pursuant to these solutions, we identify challenges to be addressed.
1。介绍
过去十年目睹了令人兴奋的深度学习(DL)技术的发展,致使对信号和戏剧性的进展包括物联网和智能传感信息处理应用程序。深层神经网络(款)由多个神经元层组织为层次结构。每一层的参数可以通过迭代学习培训。一个训练有素的款可以从原始数据提取有用的特性。所有的训练样本都是手动标记。在一层,输入数据可以映射到低维空间中通过特征提取。随后,当前层的输出特性导出到下一层。输出的最后一层意味着学会了标签。一款可以通过最小化之间的误差调整手动标签和学到的标签(1]。
深度学习有着显著的优势,超过传统机器学习(2,3]。首先,深度学习可以实现更高的性能,当数据量是巨大的。这意味着深度学习可以充分受益于大量的物联网采集的数据。传统的机器学习技术是更可取的,当数据量很小。然而,性能显著降低,当数据量非常大。相比之下,深度学习展品与大规模数据有利的可伸缩性。第二,深度学习工程更少依赖特性。物联网可以收集多种类别的数据,在本质上是不同的。手动提取特性的异构数据是一项艰巨的任务。传统的机器学习需要领域专家来提取特征。 The manually identified features expose underlying patterns to algorithms. Nevertheless, deep learning autonomously extract features in a layer-wise manner to represent input samples with a nested hierarchy of features. Every layer defines higher-level features based on lower-level features extracted by the previous layer. Third, deep learning techniques can outperform traditional ones in terms of various smart-sensing-related tasks, such as computer vision, speech recognition, and human behavior understanding.
与传统机器学习解决方案,深度学习技术正在快速发展。深度学习的应用涉及信息检索(4),自然语言处理(5),人类语音识别(6,计算机视觉7),异常检测(8),推荐系统(9,生物信息学10)、医药(11,12),作物科学(13),地球科学(14,机器人15- - - - - -18),交通运输工程(19),通信技术(20.- - - - - -22),和系统仿真23,24]。
深度学习渗透到人类社会的多样化方面,提出迫切需求DL-powered无处不在的部署的应用程序。换句话说,深度学习需要适应资源有限的智能手机平台或可穿戴设备。然而,匹配DL和资源有限的平台是一个具有挑战性的任务。推论与DL非常耗费资源(处理器、内存、能源等)虽然可以将更多的资源培训阶段转移到high-performance-computing-powered大型机。我们在典型调查资源有限的DL推论解决方案通过分类和讨论问题的解决方案。本文的其余部分组织如下。部分2阐明发展中资源有限的DL的动力。代表章节中讨论解决方案3。部分4指出了需要解决的挑战。部分5总结我们的工作。
2。Computational-Resource-Limited深度学习
2.1。应用场景
图1显示了computational-resource-limited DL的典型应用在智能传感的背景下,包括无人驾驶(25,26),人工智能应用程序的智能手机27),(健康/家庭护理机器人28- - - - - -31日)和智能可穿戴设备(32]。款可以在远程云在移动pretrained DL平台与云通信和基于本地执行推理计算和能源资源33]。所有这些应用程序都依赖于嵌入式计算机上有限的资源,如处理器,内存和电池。此类应用程序的两个基本技术传感器数据处理和计算机视觉。
识别和反馈用户行为和周边环境的核心功能是最先进的物联网(物联网)和移动传感应用。然而,原始传感器数据不可避免地夹杂着噪声和不确定性的复杂的部署环境。因此,蒸馏从原始传感器数据精确的和有意义的知识是一个具有挑战性的任务。DL是最具竞争力的方法来克服这一挑战[34]。
可穿戴的患病率(头盔)增强现实(AR)设备已打开一个小说类移动计算机视觉应用的方法,包括微软的全息透镜(35)和谷歌眼镜(36]。这些应用程序不同导航实时交通信号识别人类识别医疗应用。所有这些应用程序场景提出了共同的需求过程连续实时视频流。当前视频处理DL的尖端技术,处理视频流使用大规模和pretrained卷积神经网络(CNN)或递归神经网络(RNN) [37]。
2.2。普适计算的角度
深度学习可以自动提取功能,实现更高的精度比传统的人工智能技术。因此,深度学习适用于广泛的场景。此外,开源开发工具如TensorFlow和咖啡也加快发展深度学习。研究工作拟合深学习资源有限的移动或者嵌入式平台无疑将推动向普遍的深度学习前进了一大步。
深度学习目前不可或缺的动力,提出了普适计算的发展。如图2,我们总结普适计算的发展分为三个阶段。前阶段的硬件和软件解决方案整合到后期。在1990年代,研究人员在这个领域努力促进人类的日常生活通过Internet-interconnected桌面和大型机。TCP / IP协议的骨干网络和软件占层普遍应用程序通常专注于网络组织和数据传递。在接下来的阶段,移动互联网用户提供网络访问在任何时间和任何地方。物联网互联几乎所有数字传感器收集原始数据来源多样化,导致大数据量和计算能力提出了高要求的数据处理平台。因此,分布式或并行中间件(比如Hadoop聚集大量的商品服务器的计算能力。此外,云计算提供了聚合超级计算能力通过Web服务客户。物联网和云计算平台之间的数据传输是进一步支持WIFI和3 g / 4 g。然而,这一阶段主要采用传统的机器学习的应用解决方案,不能实现不断推进性能与输入数据量的不断增加。 Nowadays, the learning and inference accuracy of DNN can efficiently scale with the input data amount. However, high time and memory overheads impede the deployment of DL on resource-limited platforms. Matching deep learning and hardware platforms is an active research area. Software layer solutions mainly focus on simplifying the trained DNN to approximate a full-status DNN. Hardware layer solutions involve embedded GPUs, artificial intelligence chips, or even analog computing based on new nonvolatile memory. Additionally, 5G will meet even higher bandwidth requirements.
3所示。调查现有解决方案
3.1。款计算的困境:基本原则的观点
款的分类是一个典型的应用场景。在这种情况下,目标是建立一个从输入样本映射到相应的标签。下面的概念是利用的基础款的学习和推理:假设空间,能力,随机梯度下降法和概括38]。
假设空间的所有功能集由一个神经网络。一个函数是拟合得到的参数的神经网络的一部分,可以均匀样本映射到相同的标签。训练一个神经网络来搜索最优函数的假设空间,从而建立映射关系指定的训练数据(换句话说,最小化训练错误)。因此,假设空间的大小决定了神经网络的潜在能力来找到最优的功能。
能力的神经网络反映了假设空间的大小,以及适应能力函数的上界。最优函数可能假设之外的空间,如果没有足够大的能力。在这种情况下,神经网络只能在有限的假设空间搜索和找到近似最优的函数功能最好的努力。因此,underfitting是不可避免的。
训练神经网络将正确地预测前所未有的样本的标签。概括反映了这种能力。低泛化误差就意味着更高的泛化能力。Underfitting在训练阶段可以导致大的泛化误差的推理阶段。
能力集拟合能力的极限,而泛化可以测量比例与未知样品的能力。神经网络的另一个重要问题是搜索机制的假设空间在训练阶段。一般来说,搜索是被随机梯度下降法;搜索总是训练误差下降最快的方向。梯度从最深的backpropagated层第一层更新权重layer-wise的方式。反向传播时收敛的区别之间的火车错误连续两个迭代小于一个阈值。然而,随机梯度下降法一般不能进入全球最适条件。尽管低误差算法的解决方案通常是足够的训练神经网络,这种方法通常需要很长时间才能收敛。此外,像步长参数应该精心挑选,以避免波动的梯度。
从基本原则的角度,款的计算困境是由于以下原因。
第一个是内存开销。超大号的网络是一个常规的方法来实现低泛化误差。大容量并不一定导致低泛化误差。然而,一个大假设空间提高泛化能力的上限,从而增加达到低误差的可能性,特别是当目标函数不过分复杂。
第二个是时间和精力的开销。反向传播本质上是迭代和耗时。计算梯度通过最小化训练误差。训练误差权重和其他参数的函数。数量巨大的重量导致收敛速度慢。此外,这些权重需要频繁处理单元之间的传播和记忆。因此,长期密集计算和内存操作提高处理能力的高需求和能源持续时间。此外,通过微调hyperparameters通常是选择的值,这增加的时间开销。
第三维度的诅咒。高维度的数据加剧了计算资源消耗。款通常需要大量的训练数据,以保证训练网络的泛化能力。更高的维度需要密集的样本。如果是必要的培训数据点的数量在一维样本空间,然后训练数据点的数量在n维样本空间(38]。更多的培训数据点更高的维度不可避免地加剧的内存开销,时间,和精力。
3.2。挑战调查
深度学习目前更多的艺术而非科学。神经网络本质上是近似模型和通常可以简化(39]。
尽管戏剧性的学习深度学习的力量,计算成本阻碍了它们的可移植性资源有限的平台(40]。DL算法面临三种优化计算性能障碍。第一个障碍是DL的耗费资源的迭代特性训练。此外,经验自然加剧这种迭代的成本。到目前为止,深度学习的成功主要依靠经验设计和实验评估。理论原则仍有待开发。结果,优化深度学习的性能需要实施和执行各种可能的模型在计算资源约束经验识别最优一(41]。从一个输入样本中提取有意义的知识需要巨大的MAC操作。MAC操作的数量可以达到十亿的大小(42]。此外,一个深度学习网络可以包含一百万多个参数(43]。因此,深度学习提出了高要求加工能力,记忆能力,和能源效率。这是一个至关重要的问题来优化深度学习网络通过消除无效的MAC操作和参数(42]。第二个障碍配件款成多元化的现代硬件平台。不同的硬件平台可以不同的时钟频率而言,内存访问延迟,intercore通信延迟和并行模式。设计师DL模型可以分为两种不同的类型:数据科学家和计算机工程师。数据科学家主要集中在优化培训和推理精度通过数据和神经网络技术。然而,他们很少甚至没有关注计算成本。努力提升准确度不一定导致较小的网络规模和更高的速度。计算机工程师专注于加速基于硬件平台的深度学习。他们甚至调整或改革款匹配模型来设计要求为资源受限的应用程序。第三个障碍是缺乏专用硬件。传统的通用数字计算机硬件如CPU、GPU, FPGA深度学习的忽视一些独特的特征。例如,深度学习只涉及有限种类的计算操作。此外,深度学习明显宽容的噪音和不确定性。专用硬件可能权衡普遍性的性能(44- - - - - -48]。
云端DL一直是一个活跃的研究领域。这种解决方案可以卸下沉重的云计算到远程主机。这样的方法组装移动或嵌入式设备的数据,将数据转移到云,并执行深度学习算法(包括培训和推论)云。用户面临的隐私泄露的风险,由于通过计算机网络数据传输,特别是如果包含敏感信息的数据。此外,基于云计算的深度学习的可靠性可能会受到网络包丢失,甚至网络故障。在本文中,我们关注三个问题:第一,神经网络之间的平衡能力和泛化误差使用算法设计;通过计算第二,配件款成数字硬件设计;第三,新一代硬件处理款的计算困境。我们将现有的解决方案分为三层:算法,计算和硬件层。
图3总结了典型的解决方案。一个实际的方法可能不止一个集成的解决方案。
3.3。算法设计
通过数学算法设计集中在减少资源消耗调整或改革款模型和算法。典型的简化技术包括切除分离卷积,矩阵分解,sparsification权重矩阵,权重矩阵压缩,数据降维,和数学优化。
霍华德等人设计了一系列神经网络模型(MobileNets)来促进机器视觉应用程序在移动平台(49]。MobileNets代表一种轻量级的深层神经网络基于切除可分离旋转。MobileNets的主要目标是构建实时和low-space-complexity模型满足移动机器视觉应用程序提出的要求。的贡献MobileNets总结如下。首先,核心层MobileNets来自切除可分离卷积。切除分离卷积的核心概念是因式分解传统卷积成切除卷积分离层和一层逐点的卷积50]。MobileNets采用这个核心概念来减少模型大小,以及乘法和加法操作的总数。第二,逐点的占总数的95%计算,通过卷积im2col重新排序优化是不必要的点态分布(51]。因此,MobileNets避免大规模计算im2col重新排序。第三,因为MobileNets生成相对较小的模型,需要相对较少的参数,常规anti-overfitting措施调整。例如,少使用正则化和数据增大。此外,最小重量衰变(L2正规化)采用切除过滤器。第四,两个hyperparameters称为宽度乘数和解决应用乘数模型的尺寸进一步缩小。
的核心概念49)都是一个传统的卷积来降低计算的复杂性。这种分解不影响推理精度,因此是一种无损的简化方法。然而,有损的简化是必要的,如果上级简化效果要求。Samraph等人定制DL网络与FPGA平台(39]。这种方法简化了通过聚类权重矩阵和编码。此外,矩阵向量乘法操作降低计算复杂度的映像。首先,权重矩阵的元素都聚集k则成K集群。因此,每一个元素是附属于一个集群,每个集群的中心意思的附属元素。因此,权重矩阵中的每个元素被替换为相应的中心。换句话说,每个重量是近似和其附属的中心集群。第二,近似权重编码有点宽的日志K。和所有集群中心形成一个字典向量。因此,编码可以显著降低内存开销。第三,由于矩阵向量乘法可以映像编码矩阵有丰富的重复元素。因此,浮点乘法运算的数量急剧减少,这意味着更低的计算复杂度。除了上述的三个基本步骤,该方法面临另一个问题:更换权重与集群中心不可避免地导致数值误差DL网络。这个错误会影响推理精度。的方法(39采用两种解决方案来处理这个错误。一个是增加字典向量的长度(换句话说,指定一个更大的K来k则)。另一种方法是迭代集群和权重进行再教育。的方法(39)关注压缩已经训练权重矩阵。相比之下,像套索正规化可以sparsify权重矩阵方法在训练(52]。
巷等人提出一个软件框架重塑款参考模型在有限的资源约束下(53]。相比之下的聚类方法(39),利用奇异值分解分解和重建误差最小化压缩款模型。在第一个层面上,他们采用奇异值分解分解重构,每款层近似的权重矩阵。因此,可以大大减少款参数在每一层。此外,这种近似的精度测量和调整按照重建误差。因此,这种重建方法避免了再培训的困境。在第二个层面上,数字转换每个神经元的计算负荷和正式工作负载调度作为一个约束的动态规划问题。通过这种方式,计算负载可以自动调度到处理器来满足能量和时间约束。
修剪或压缩受良好训练款可能导致大的近似误差(54- - - - - -57]。另一个选择是火车稀疏款。林等人提出一个名为结构化稀疏正则化方法(SSR)实现权重矩阵sparsification在训练(58]。它们引入了两个截然不同的structured-sparsity regularizers sparsification重量目标函数的矩阵。这两个regularizers可以限制款滤波器矩阵是稀疏的中间状态。随后,他们采用另一种更新的拉格朗日乘数法(AULM)计划或者优化sparsification目标函数和识别损失最小化。SSR方法享有显著降低时间和内存开销比最先进的权重矩阵的修剪方法。Nazemi等人提出了一款训练方法去除冗余内存访问操作。该方法利用布尔逻辑最小化(59]。在培训过程中,函数作为激活。因此,激活局限于二进制值。款的每一层(第一层和最后一层除外)被建模为一个多输入multioutput布尔函数。在推理过程中,输出的是款通过合成一个布尔表达式除了计算输入的点积和重量。换句话说,避免巨大的内存访问操作,消除了大量内存访问延迟和能源消耗。
上述算法的解决方案专注于简化模型,以减少款MAC操作和内存消耗。然而,物理耐久性,特别是能源效率,仍是一个艰巨的障碍通过深度学习各种实际应用中受益。高兴的是是一个低开销的框架,使能够有效执行培训和低能量约束下的深层神经网络(60]。作者的60抑制DL网络大小通过能源特性依照相关的物理资源。他们设计一个自动定制方法自适应地适应特定的硬件而诱导款最低学习精度的恶化。的核心概念高兴的是是项目数据的低维嵌入context-and-resource-aware方式(子空间)。因此,洞察数据样本可以通过大幅减少神经元。此外,训练模型在每个嵌入集成来提高学习精度。
的核心概念细粒度的能耗控制基于数据降维。该框架提出约束能量和内存消耗从hyperparameter优化(41]。这是一个hyperparameter优化框架基于高斯过程(GP)和贝叶斯优化[61年,62年]。这个框架表示测试误差函数 ,在哪里x是一个数据点hyperparameters的设计空间。此外,权力和内存开销是表示一个函数 。随后,hyperparameter调优是正式作为一个优化问题:最小化的约束下低于一个阈值。最小化成本是由于这一事实吗没有亲密的形式。因此,采用GP的近似分布 。此外,该框架利用贝叶斯优化迭代选择最佳hyperparameters和更新的分布 。 假定服从高斯分布。让y表示的观察 。在刚开始的时候,一个初始近似的可以解决基于假设和一组已知的 值(高斯过程回归)。每次迭代中包括以下操作。的主要任务是选择一个最优值x从设计完善的空间 。和所选x应该把沿着一个方向减少价值。这个值的x是通过最大化expectation-improvement-based收购确定函数。此外,收购函数包含约束函数使用一个指标。指标函数等于1是否满意和零如果没有约束。第二,神经网络配置按照新的设计参数(新发现的x)和训练获得的测试误差(一个新值y)。第三,均值和协方差更新使用新的 ,因此,是更新的 。
3.4。计算优化
计算优化依赖重建算法实现按照一个特定的硬件架构。一些传统优化技术代码并行,微调并行代码,数据缓存和细粒度的内存利用率。
黄齐等人开发了一个工具连续的视觉基于商品移动gpu的应用程序37]。大型深层神经网络(款)由商品移动GPU通常不能达到严格的实时性能由于有限的计算资源。然而,可以低帧率(一到两帧每秒)在某些用例,如说话人识别和护理老人。这些应用场景提出对实时性能要求相对较低。实现大型款这样的应用程序基于商品移动gpu和达到接近实时的性能。在上述应用中,first-person-view图片不容易表现出显著变化在很短的时间跨度。只有将每一帧的图像划分为块。缓存每个块的中间结果在计算一帧的卷积。随后,类似块识别这个框架与下一帧。因此,缓存的结果可以直接用来计算卷积的下一帧。此外,缓存的结果一定时间后过期。两幅图像之间的相似性识别基于颜色分布直方图和卡方距离度量。除了这个缓存机制,利用卷积Tucker-2分解层(63年)因式分解一层传统卷积成几个小褶积层。因此,计算卷积是降低成本。最后,曲调GPU代码在各种主流商品移动GPU。调整和优化GPU代码为每个GPU封装成独立的内核模式。作为一个结果,可以自适应地采用适当的内核在运行时,以适应特定的GPU,尽了最大努力。
的主要思想缓存中间结果来消除冗余计算。另一个典型的技术是GPGPU加速度。曹等人提出了一个GPGPU-powered RNN模型,执行本地移动设备上(64年]。递归神经网络(RNN)可以得到广泛应用,如语音识别和机器人聊天。传统的移动应用程序RNN一般出售的主要计算到云上。然而,基于云计算的实现产生安全性和效率问题。曹等人指出,现有GPGPU-accelerated卷积神经网络(CNN)的方法不能直接移植到mobile-device-based RNN。一方面,RNN本身包含许多顺序操作,这限制了RNN的并行性。另一方面,现有GPGPU-powered RNN桌面gpgpu的方法是专门设计的。这些方法不能直接融入移动GPGPU因为移动GPGPU拥有更少内存容量和处理核心。RNN,避免相邻细胞之间的依赖性大大增加细胞之间的难以利用并行性。然而,操作在一个细胞仍然表现出相当大的并行性。 In the work of [64年),计算细胞的映像在细粒度和优雅融入移动GPGPU。
自适应平台DL框架仍然采用GPGPU-powered计算的概念。然而,利用并行性的三个层次:数据、网络和硬件。的最终目标是之间的桥梁数据科学角度设计深度学习和计算机工程角度优化深度学习。首先是硬件并行性。提取基本操作(层)的深度学习网络,包括卷积,最大池,池,矩阵乘法和非线性。优化的实现的基本操作可以显著不同的关于硬件平台。例如,通过改变矩阵的维数,我们可以观察到矩阵乘法计算密集型、数据密集型特定平台。使用子例程来执行硬件配置。每个子程序运行一个特定的操作不同大小在不同的平台上,分别。通过这种方式,识别特定操作的最优规模目标平台。这些最优尺寸是至关重要的指令将整个深学习网络子网,调整计算,目标平台的内存和带宽资源。二是网络的并行性。将整个深度学习网络分解成重叠子网使用深度优先的方法。每个子网都有相同的深度与原始网络边缘明显减少。每个子网都可以独立地更新等地方收集的定期更新参数协调优化整个网络。第三是数据并行性。高维输入数据分解成多个低维子空间,通过字典学习。字典学习可以通过机器学习算法有效地执行像谱聚类65年- - - - - -67年]。随后,每个子网致力于处理一个特定的子空间和不同的子空间是并行处理。
吴等人利用移动的关节角度深度学习软件和硬件体系结构。他们提出一个平台以使能够商用现货(COTS)移动设备自适应资源调度的能力(68年]。方法如尽量压缩深度模型。相比之下,寻求响应速度和内存消耗之间的权衡。它分裂pretrained款到代码块和逐步运行块芯片系统(SoC)完成推理。因此,只需要从外部存储器加载当前必需的数据到内存中,而不是在内存中保存所有数据在整个执行周期。因此,显著降低内存消耗。此外,导致没有精度损失模型压缩或近似的缺失。此外,隐私风险是避免因为user-relevant所有数据在本地处理。最终,深度学习开发者来说是透明的。它重载默认系统功能TensorFlow和咖啡。开发人员可以调用api相同的方式调用TensorFlow或咖啡api。相比之下,的工作59消除冗余内存操作在一个算法的方式。
3.5。硬件革命
Haensch等人指出,愿望DL应用于日常生活的各个领域的inheritage普适计算。然而,学术界和产业界面临的挑战规模壁垒DL DL适合普遍的应用程序(69年]。开销是一个至关重要的问题关于普遍应用DL,开销是指时间和所需计算资源构造,火车,和运行模式。现有技术研究工作表明,gpu进一步走向普及DL,而它是确认定制硬件致力于DL可以超越通用的gpu。
汉等人设计的专用处理器DNN-based实时跟踪(70年]。这个处理器通过DNN-specific达到低功耗处理器架构和专门的算法。然而,这种专用处理器仍然依赖于数字计算。
DL网络只需要有限种类的数学运算(例如,矩阵乘法)。这样的行动经常重新出现在模型训练或推理。这两个特征使高效的执行不仅DL算法在gpu也模拟计算电路。此外,DL算法非常宽容的噪音和不确定性,将贸易数值精度算法精度的一种方法。模拟计算了Haensch et al。69年)是一个扩展的内存计算。现有技术非易失存储器材料不能有效地适应模拟内存计算。再造工程记忆材料是一项非常具有挑战性的任务。新一代的DL加速硬件已经进入了学术界和产业界的愿景。这种硬件行业通用性低开销。然而,构造的复杂性和训练DL模型超出任何一种硬件的能力。因此,研究人员需要考虑以系统的观点和解决方案将几种加速器聚合成一个完美的系统。活力的新加速器很大程度取决于这个问题。此外,Haensch等人宣布模拟加速器不会完全取代数字的。这两个数字和模拟加速器应不断开发的最大可能的程度。 The analog accelerators should be capable of seamless integration into digital ones.
模拟计算可以实现基于电化学反应。这种机制已经研究建立硬件基础DL-related问题。例如,神经形态计算可以绕过传统的计算通过并行处理和内在性能瓶颈crossbar-memory-enabled数据访问。福勒等人链接一个氧化还原晶体管conductive-bridge内存(CBM),从而建立一个离子浮栅存储器(IFG)数组(71年]。氧化还原晶体管的工作寿命可以达到十亿多“读写”操作。此外,数据访问频率可以实现多个兆赫。这IFG-based神经形态系统显示内存中学习和推理可以有效地执行基于低压电化学系统。IFG希望能先锋神经形态的自适应电特性的计算机可以在功率效率明显优于传统的数字计算机。这样的神经形态模拟计算机可以调整深度学习限制功率情况下,甚至使能够持久的产品的终身学习。另一个electrochemistry-based硬件原型提出了(72年]。Tsushiya等人设计一个固态离子设备解决决策问题像multiarmed土匪问题(MBPs)。这个设备实现决策打开方式通过离子的运动,这可能导致移动人工芯片和发现各种应用程序包括深度学习。
除了模拟计算、光子(光)计算也是一个很有前途的硬件解决方案。目前,主流光子计算机用光子代替电子数字计算机的组件,可以获得更高的速度和带宽。一些开拓性的研究工作采用了光子计算支持DL-related计算。里奥斯等人通过结合实现all-photonic内存计算集成光学集中的数据存储和处理(73年]。他们制造非易失存储器使用相变材料和执行直接标量和矩阵向量乘法基于该非易失性光子的记忆。计算结果为输出脉冲。这个光子计算系统提供了一个有前途的转向高速和大带宽芯片上的光子计算,而绕开光电转换。这样一个系统可以是纯粹的光子计算机的基石。Feldmann等人指出,传统的计算架构区分真正的神经组织的物理分离数据内存和处理的功能74年]。这种分离设计的地方一个令人生畏的障碍实现高速和低功耗计算系统就像人类的大脑。一个有前途的解决方案来克服这个障碍是精心设计的小说硬件模拟人类大脑的神经元和突触。因此,他们调查波分多路复用技术来实现一个光子神经网络基于一个可伸缩的电路,它可以模拟neurosynaptic系统以一种方式。这种电路保持内在的高速和大带宽特性的光学系统,使能够有效的机器学习算法执行。
量子计算是另一个潜在的解决方案来支持DL。高等人采用量子衍生模型设计量子算法的机器学习。这个模型优越的能力代表概率分布在传统的生成模型。此外,该模型可以实现指数级的速度至少在某些应用场景,量子计算机不能完全模拟通过传统的数字计算范例。的工作(75年打开一个量子机器学习方法和演示了一个戏剧性的例子,一个量子算法的理论和实践价值指数可以达到更高的性能与传统算法。
小说硬件模式像离子记忆,光子计算和量子计算可以为资源有限的深度学习不可或缺的阶段。尽管这些硬件进化可能最初出于促进深度学习的应用,新一代硬件将来能找到更广泛的应用。
3.6。讨论
表1总结代表工作基本原则的角度来看,占款计算的困境。现有研究工作通常旨在处理一个或多个计算困境的原因。
|
|||||||||||||||||||||||||||||||||||||||||||||
第一个是超大型网络引起的内存开销。早期的算法解决方案倾向于压缩或删除的权重矩阵pretrained款。压缩或修剪是一个之间的权衡的能力(或泛化能力)和记忆效率。然而,直接修改pretrained网络不可避免地导致unexceptable错误。尽管再培训是一种选择,它会引起显著的额外的时间开销。
因此,最近的算法提出实现稀疏网络通过培训解决方案。核心理念是精心选择误差函数的正则化项,这迫使网络形成稀疏矩阵在很少或甚至没有重量损失在泛化能力。除了算法解决方案,数字计算机还可以赋予权力大pretrained网络推理阶段通过细粒度的利用内存。
第二个是时间和精力开销引起的反向传播,内存操作,hyperparameter调优。从算法的角度来看,戏剧可以消除冗余计算,特别是矩阵与矩阵和矩阵向量乘法。在这种方式中,时间开销以及能源消耗降低。时间效率还可以促进重用中间结果的卷积,并行数字处理器,和代码数字处理器上的微调。与开销引起的运算处理,时间消耗引起的内存操作是很难处理的。原因是传统的数字计算机采用冯诺依曼体系结构,从而有独立处理和内存单元。由于款的统计和近似性质,布尔逻辑最小化可有助于降低内存的操作,以及能源消耗。这个解决方案实现高效的性能在手写数字识别。然而,它限制激活功能功能,这限制了泛化能力。关于能源hyperparameter调优,数学方法如高斯过程可以指出一个更高效的搜索路径在参数空间中,除了仅仅依靠人类经验甚至随机搜索。
能源消耗主要是由算术处理和内存操作引起的。因此,后两个是关键问题。关于时间开销,大多数现有的解决方案关注外围冗余计算等问题。然而,在随机梯度下降问题的根源。培训时间将会大幅下降如果我们能制造一种改进的梯度,从而更快地收敛。对内存操作的开销,这是冯·诺依曼体系结构的一个固有的问题。解决这个问题需要新的内存计算等计算范例。
第三维度的诅咒。传统解决方案权重矩阵分解和数据嵌入可以降低特征维度。据我们所知,有有限的特征降维的研究工作computational-resource-limited上下文。相关话题进行调查。
应该指出的是,上述讨论方面不是孤立的。一种系统化的观点可能意味着一个更高效的解决方案。例如,pretrained稀疏的网络无疑要求推理时间小于一个密集的网络。另一个实例,读/写重量会产生更少的时间和能源消耗,如果权重矩阵是稀疏的。表1不包括创新的模拟计算和量子计算等计算范例。稍后我们将详细讨论这些计算范例。
表2代表性研究工作提供更多的细节。三种解决方案都在快速发展。整体动机是有效地应用DL移动/嵌入式上下文。算法解决方案核心地位是由于他们直接处理业务逻辑的应用程序,旨在减少时间和内存复杂性数学逻辑层。现有的解决方案主要集中在简化matrix-and-vector操作、数据/网络嵌入hyperparameter调优,并通过正规化sparsification。仍需要进一步的研究来探索减少计算开销通过激活函数。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
除了数学逻辑层,传统的通用数字硬件的桥梁之间的差距数学算法和实际应用。我们所知,最实用的移动/嵌入式DL-based应用程序都是基于传统的硬件。在这种情况下,经典计算优化方法可以采用充分利用计算资源,包括数据缓存、并行化和代码微调。然而,许多现有款设计的人工智能专家,谁的地方很少,甚至没有关注款硬件的适应能力。结果,款可能需要重塑有效地适应特定的硬件设备。针对这一点,我们希望,研究人员可以设计款联合视图的人工智能专家和计算机工程师。
目前,代表计算性能指标包括内存开销,内存访问延迟、并行性(充分利用处理器)和功耗。然而,一些主题仍有待调查。例如,使用外部存储器作为缓存支持细粒度的内存利用率。造成的能耗数据I / O是讨论。此外,缓存大小之间的平衡和缓存命中率也是一个有趣的话题。表3显示的数据集被用来评价一款根据多个性能指标。这些数据集和相关算法是有利的选择作为基准。
然而,传统的通用数字硬件可能仍然低效在某些场景。因此,DL-dedicated数字硬件变得越来越流行,而数字硬件的计算性能面临瓶颈由于物理约束。新一代量子计算等计算技术有前途的解决方案来克服这样的约束。下一代计算技术无疑将促进深度学习的进步即使他们现在正处于初级阶段。
4所示。需要解决的挑战
尽管现有解决方案的前景光明,我们仍然面临着一些需要解决的严峻挑战。
4.1。基本硬件支持革命
模拟计算是一种有希望的技术来促进DL因为DL是宽容的数值错误。然而,模拟计算是一种内存计算并提出了新型非易失存储器的需求材料。Analog-computing-powered DL要求计算机科学家和材料科学家的长期共同努力。
与硬件的其他创新类型相比,模拟计算是暂时的领先地位。模拟阵列技术已经成功地应用于处理常见款数据集(108年),而其他创新的硬件技术,如光子计算和量子计算仍适用于款(73年,75年]。模拟数组的优势在于采用模拟电路来计算矩阵向量乘法与常数时间开销与矩阵的大小无关。然而,这是一个困境来直卷积神经网络映射到传统模拟阵列由于内核矩阵通常很小,是常量时间的乘法操作必须多次迭代顺序。拉希等人并行化的培训通过复制内核矩阵卷积层在不同模拟数组和随机调度部分的计算到阵列上。因此,加速比正比于内核的数量矩阵每层(106年]。
除了较高的加速比,模拟计算的另一个优点是处理和内存的分裂。在传统的冯诺依曼体系结构,处理单元和记忆是分开的。处理单元之间的数据传输和内存可以使用比传统算术运算数量级的更多的能量。此外,一个典型的深度学习应用程序通常要求巨大的数据传输操作,大幅提高高能源消耗比计算。一个很有前景的解决方案配置处理单元和内存使用相变内存(109年]。
尽管模拟计算硬件已经表现出潜力优于传统冯诺依曼体系结构的硬件如gpu,大多数现有的研究工作集中在这样的模拟硬件的功能。效率和可靠性稳定性和耐久性等问题尚未调查之前走出实验室真正的应用程序(110年]。
4.2。更高效的算法解决方案
一些算法解决方案权重矩阵压缩和重量矩阵分解等近似原pretrained神经网络简化。然而,经验的本质DL阻碍解决一个精确的近似误差的理论上限。没有这个上界很难证明这种近似的鲁棒性。此外,由于缺乏理论原则,许多算法需要迭代优化和运行模型来选择最佳的一个。然而,模型参数很大的设计空间。因此,真正实现这种算法技术大规模应用程序可能是一个艰巨的任务,尤其是当我们需要处理hyperparameters大范围之内。
Posttraining简化款可能会导致巨大的错误。此外,大量的参数影响随机梯度下降法实现算法的解决方案。稀疏的训练是一种很有前途的方法来应对这两个问题。
实现高容量的神经网络是一种传统的解决方案来保证低泛化误差。然而,大多数深层神经网络获得高容量通过利用大量的重量,这意味着致密连续层之间的连接。这就解释了原因,许多现有的深层神经网络采用完全连接层。然而,真正的生物神经网络无尺度还明显比最先进的深度学习网络和稀疏连接。灵感来自这个观察,Mocanu等人构建一个稀疏的无尺度网络拓扑与连续两层(111年]。这种拓扑替代品稀疏层完全连接层之前的训练。稀疏的进化训练方法减少参数的平方,诱导不损失精度。这稀疏的训练方法打开一个方式降低了传统硬件配件深学习障碍。
基于该方法的111年),刘等人训练一个稀疏MLP与一百万个神经元(多层感知)模型分类微阵列基因(110年]。这个模型可以被训练101秒的时间内大小,实现低泛化误差比传统模型(数据集:白血病,尺寸:26日1397训练数据样本和699测试数据样本)。
的方法(111年)主要侧重于建立一个新颖的网络拓扑结构,但仍采用传统的随机梯度下降训练模式111年]。Dettmers等人利用指数平滑渐变识别层和权重,有效减少稀疏的训练误差模型。因此,该模型收敛速度显著提升。此外,训练网络hyperparameters不敏感。
近年来,数量迅速增加的研究工作正在调查在稀疏的培训款(112年- - - - - -116年]。这些研究通常集中于稀疏的几款类型的培训。鉴于款的多样性和复杂性,它是一个非常有价值的挑战性的工作利用稀疏培训各类款在特定的应用程序需求。
4.3。系统的集成
作为讨论的部分2资源有限的DL无处不在的终极目标部署DL。多样化的应用程序可以提出各种要求无处不在的DL。因此,我们需要系统地整合各种类型的解决方案。
下一代计算与传统数字硬件,硬件应该无缝协作的最终目标的快速进化进化款。
吉尔和绿色认为未来电脑硬件是基于十字路口的三个方面:数学和信息,neuron-inspired生物学和信息,和物理和信息。这些十字路口给数字计算的概念,神经计算,分别和量子计算。吉尔和绿色表示这三个概念,神经元,分别和量子位。如图4下一代AI-enabled计算系统需要集成的三个(117年]。在这个图中,我们采用量子计算(量子比特)来代表未来的计算范例。模拟计算等新型计算范例也应该考虑。我们详细讨论这种集成如下。
4.3.1。数字计算
数字计算的优势在于其稳定自然二进制。相同的二进制输入,数字计算系统应该产生相同的输出。这种性质是构建健壮和稳定系统的基础进行数据存储和处理。经典数字计算仍然是一个有效的解决方案不仅数学和逻辑运算,而且持久数据存储。在未来计算系统、数字计算仍将占据不可或缺的地位由于其健壮和可靠的性质。
4.3.2。神经元计算
尽管数字计算的优势,当前DNN-based人工智能方法需要重塑甚至创新这种计算模式。人工智能在过去十年里取得了巨大的进步。AI仍在狭窄的AI的阶段,要求大量的手动标记数据获取知识的专门任务。在下一阶段,我们期待广大AI能够自适应地和自主适应多样化的各种领域的任务。狭义人工智能已经计算昂贵的巨大的场景。广泛的愿景AI甚至会加剧计算的困境。构建高效的计算系统等人工智能工作负载需要的创新再造工程材料、架构和软件。
第一类的解决AI-specific计算系统容错的本质源于统计和深入学习。这样的解决方案牺牲数值精度的计算性能,但一般不能实现类似甚至相同的分类精度的实现(118年- - - - - -121年]。我们将见证一个连续下降的精度要求培训和推断未来十年款。这种趋势是由不断翻新AI-specific数字硬件和匹配算法,这将导致在人工智能硬件的性能显著改善。
以前讨论的,另一种解决方案的想法在于消除处理单元之间数据传输的开销和内存。
我们可以想象的高要求提高DNN-based AI在不久的将来。量子计算享受最大的计算能力在几乎所有现有的计算范例,从而有可能提高high-time-complexity深度学习应用程序的其他计算范例。
4.3.3。量子计算
量子计算生成一个量子位(量子比特)的指数状态空间探索量子叠加和纠缠。计算能力指数尺度的量子比特:另一个量子位意味着计算能力翻了一番。原型的量子计算机实验室的硬件供应商像IBM这样的(122年,123年]。下一个话题是桥之间的差距技术原型和真实的应用程序中。例如,量子纠错(QEC)编码的容错量子计算是不可或缺的。量子计算机将成为未来AI-enabled计算系统的核心加速器。然而,目前,构建容错量子计算的成本超出了合理的范围124年]。进一步深入调查迫在眉睫。
4.3.4。集成的神经元,量子位元
正如上面提到的,一个deep-learning-enabled计算系统依赖于三个基石:数字计算(位)、神经计算(神经元)和量子计算(量子比特)。系统解决方案computational-resource-limited深度学习需要集成的比特,神经元,量子位元。位可以提供基本的数据存储和底层硬件的可靠性保证。然而,单独位只能支持特定的编程任务,狭窄的目的。将神经元与位生成窄AI甚至广泛的人工智能,它不仅可以提炼深刻的知识从难以想象的巨大的数据还帮助人类协作和更人性化的方式。各种科学和工程问题希望得到解决的协助下人工智能。神经网络的核心原则是搜索一个函数的假设空间网络,因此一个类别的样本映射到一个相应的输出标签。由于大型科学和工程问题的规模和复杂性,一个典型的神经网络必然需要高容量来生成一个大假设空间。一个很大的假设空间可能有助于降低泛化误差。然而,一个大假设空间意味着更多的自由度和需求很长时间让stochastic-gradient-descent-impelled反向传播找到一个近似最优的解决方案。 The exponentially scaling computing power just matches the time overhead of the similar order of magnitude.
数字硬件GPGPU和FPGA目前占主流款的加速器。耗时的手动微调并行代码是不可避免的操作来实现最优性能,对于每一个“model-GPGPU款类型”。因此,digital-hardware-accelerated DL面临障碍和敏捷编程效率。此外,开发工具包analog-computing-enabled或quantum-computing-based深学习无疑是一个本质有一天当我们回归模拟计算机或量子计算机向调查人员,程序员,和计算资源提供者。
5。结论
在本文中,我们调查的典型解决方案资源有限的深度学习和指出开放的问题。
特定场景下现有解决方案取得了成功。然而,我们预期未来的突破在以下两个方面。第一个方面是专用硬件。大多数现有的解决方案依赖于通用的数字硬件。专用硬件,考虑独特的深度学习的特点,是一种很有前途的方向来实现进一步的性能改进。第二个方面是深度学习的理论原则。简化款几乎是不可避免的方法,以减少资源消耗。尽管如此,目前这种方法依赖于经验和迭代优化。此外,简化不是理论上的可靠性保证。澄清的理论深度学习将使更有效的简化原则,保证鲁棒性。
信息披露
资助者没有作用的设计研究;在收集、分析或解释数据;写的手稿;或决定发布结果。
的利益冲突
作者宣称没有利益冲突。
作者的贡献
陈Chunlei概念化。姜堰戴和慧慧张负责资源。彭Chunlei陈和张准备初稿。Huixiang张Yugen咦,张Yonghui审查和编辑手稿。
确认
这项工作得到了以下研究资金:中国国家自然科学基金(31872847,31872847,71661015),工业大学合作教育项目获得中国教育部(201802217002),计划13日五年计划的项目中国信息产业协会教育分支(ZXXJ2019019),山东省自然科学基金(ZR2019PF023),山东省高等教育科技项目(J18KA130和J16LN56),潍坊的科技发展项目(2017年2019 gx009 2018 gx004, gx002),关键技术研发项目四川省和成都市(szjj2015 - 054),潍坊大学的博士项目(2016 bs03和2015 bs11),和人们受益科技计划项目的潍坊高新技术区(2019 kjhm13)。
引用
- w·刘,刘x, z . Wang n .曾y . Liu和f . e . Alsaadi“深层神经网络体系结构及其应用的调查,“Neurocomputing卷。234年,11-26,2017页。视图:出版商的网站|谷歌学术搜索
- 林h·w·m·组成,d . Rolnick”为什么深和廉价的学习工作这么好?”统计物理学杂志,卷168,不。6,1223 - 1247年,2017页。视图:出版商的网站|谷歌学术搜索
- p . p .梵天、d .吴和y她,“为什么深度学习工作:歧管解开纠结的角度来看,“IEEE神经网络和学习系统,27卷,不。10日,1997 - 2008年,2016页。视图:出版商的网站|谷歌学术搜索
- y贝耳,m . Robine, p .汉娜,“缎:持续的音乐为音乐信息检索和数据库支持深度学习歌曲仪器分类实验,”多媒体工具和应用程序,卷78,不。3、2703 - 2718年,2019页。视图:出版商的网站|谷歌学术搜索
- 徐,r·蔡z . Zhang et al .,“NADAQ:自然语言数据库查询基于深度学习,”IEEE访问7卷,第35017 - 35012页,2019年。视图:出版商的网站|谷歌学术搜索
- r . v . Swaminathan和a .我们提高嗓音分离使用attribute-aware深网络”《2019年国际研讨会上多层音乐表示和处理(MMRP)IEEE,页60 - 65年,米兰,意大利,2019年。视图:出版商的网站|谷歌学术搜索
- m·s·侯赛因·m·Al-Hammadi g·默罕默德,“水果自动分级使用深度学习的工业应用,”IEEE工业信息,15卷,不。2、1027 - 1034年,2019页。视图:出版商的网站|谷歌学术搜索
- 美国Garg Kaur k: Kumar和j·j·p·c·罗德里格斯”混合deep-learning-based SDN异常检测方案可疑流量检测:社会多媒体的角度来看,“IEEE多媒体,21卷,不。3、566 - 578年,2019页。视图:出版商的网站|谷歌学术搜索
- 黄z . j . Tang g .山j .倪y . Chen和c·王,”一个高效passenger-hunting推荐框架与多任务学习,”IEEE物联网》第六卷,没有。5,7713 - 7721年,2019页。视图:出版商的网站|谷歌学术搜索
- 范z . m .曾m . Li et al .,“深度学习识别框架基本蛋白质通过整合多种类型的生物信息,“IEEE / ACM事务计算生物学和生物信息学,p . 2019。视图:出版商的网站|谷歌学术搜索
- f . Pasa诉Golkov f·菲佛,d·克莱莫·d·菲佛,“有效的深层网络体系结构快速胸部x光片结核病筛查和可视化,”科学报告,9卷,不。1,p。6268年,2019。视图:出版商的网站|谷歌学术搜索
- 刘和c j . k . Li丹尼尔斯“卷积对葡萄糖复发性神经网络预测,”IEEE生物医学和卫生信息学杂志》上,24卷,不。2、603 - 613年,2019页。视图:出版商的网站|谷歌学术搜索
- A . Ramcharan p·麦克洛斯基,k·巴拉诺维斯基,“手机深学习模式对木薯疾病诊断,”植物科学前沿,10卷,p。272年,2019年。视图:出版商的网站|谷歌学术搜索
- m . Reichstein g . Camps-Valls b·史蒂文斯et al .,“深度学习和流程理解地球系统科学数据驱动的,”自然,卷566,不。7743年,第204 - 195页,2019年。视图:出版商的网站|谷歌学术搜索
- t . g . Thuruthel b . Shih, Laschi c,和m . t .击发弹“软机器人感知使用嵌入式软传感器和复发性神经网络,”科学的机器人,4卷,不。6篇文章ID eaav1488 2019。视图:出版商的网站|谷歌学术搜索
- 和z . m . w .郑h . b . Wang,“深度学习控制的多层前馈神经网络混合位置和virtual-force移动机器人避障算法,”国际期刊的控制、自动化和系统,17卷,不。4、1007 - 1018年,2019页。视图:出版商的网站|谷歌学术搜索
- y . j . Heo d·金和w·李,“工业协作机器人碰撞检测:深度学习的方法,”IEEE机器人与自动化信件,4卷,不。2、740 - 746年,2019页。视图:出版商的网站|谷歌学术搜索
- f . Niroui k . Zhang, z . Kashino“深强化学习机器人搜救应用:探索未知的杂乱的环境中,“机器人与自动化EEE信件,4卷,不。2、610 - 617年,2019页。视图:出版商的网站|谷歌学术搜索
- f .叮,z, y, x,和b跑,“大规模基尼交通速度估计在极端的交通状况下使用大数据和深度学习方法:案例研究在中国,“交通运输工程学报,一个部分:系统,卷145,不。5、文章ID 05019001, 2019。视图:出版商的网站|谷歌学术搜索
- d . Mochizuki y Abiko, t .齐藤,池田d和h . Mineno”Delay-tolerance-based移动数据卸载使用深度强化学习,”传感器,19卷,不。7,1674年,页2019。视图:出版商的网站|谷歌学术搜索
- h .你们、g . y .李和b h . f . Juang“深V2V通信基于强化学习的资源分配,”IEEE车辆技术,卷68,不。4、3163 - 3173年,2019页。视图:出版商的网站|谷歌学术搜索
- 你们h和g . y . Li“深基于强化学习的分布式资源分配V2V广播,”学报》2018年第14届国际无线通信和移动计算会议(IWCMC),页440 - 445,堪萨斯城,密苏里州,美国,2018年。视图:出版商的网站|谷歌学术搜索
- c·w·w . Li, r . Zhang et al .,”法。:增强自主驾驶模拟使用数据驱动算法”,科学的机器人,4卷,不。28日文章ID eaaw0863, 2019。视图:出版商的网站|谷歌学术搜索
- s . m . Aldossari K.-C。陈:“机器学习无线通信信道建模:概述,“无线个人通信,卷106,不。1,46 - 70年,2019页。视图:出版商的网站|谷歌学术搜索
- 罗x, y, k . Boriboonsomsin g . Wu和m .巴斯”深强化学习启用自学习控制节能驾驶,”交通研究部分C:新兴技术卷,99年,第81 - 67页,2019年。视图:出版商的网站|谷歌学术搜索
- d, d .赵问:张先生,y,“强化学习和基于深度学习的横向控制自动驾驶应用笔记,“IEEE计算机情报杂志,14卷,不。2、83 - 98年,2019页。视图:出版商的网站|谷歌学术搜索
- k . z海德尔k·r·马利克哈立德,t·纳瓦兹和s -贾巴尔,“Deepgender:实时性别分类为智能手机,使用深度学习”实时图像处理》杂志上,16卷,不。1、15 - 29,2019页。视图:出版商的网站|谷歌学术搜索
- A . Esteva A . Robicquet b Ramsundar et al .,“医疗、深度学习指南”自然医学,25卷,不。1,24-29,2019页。视图:出版商的网站|谷歌学术搜索
- e . Kanjo m . g . y .埃曼和s . a . Chee“深度学习分析移动生理,情感检测、环境和位置传感器数据”信息融合卷,49 46-56,2019页。视图:出版商的网站|谷歌学术搜索
- 钟,j . Lim k . j .能剧g . Kim和h,在“传感器数据采集和多通道传感器融合人类活动识别使用深度学习,”传感器,19卷,不。7,1716年,页2019。视图:出版商的网站|谷歌学术搜索
- f . Mehmood Ullah, s·艾哈迈德,d . Kim”对象检测机制基于深度学习算法使用嵌入式物联网智能家电控制装置在床,“环境智能和人性化计算杂志》上,10卷,2019年。视图:出版商的网站|谷歌学术搜索
- m .徐黔,m·朱f .黄s Pushp x刘,“DeepWear:自适应当地卸载on-wearable深度学习,”IEEE移动计算,19卷,不。1,第330 - 314页,2020。视图:出版商的网站|谷歌学术搜索
- a . Alelaiwi”,一个有效的计算方法卸载在云平台的优势,”杂志的并行和分布式计算卷。127年,58 - 64、2019页。视图:出版商的网站|谷歌学术搜索
- n d·莱恩·吉奥吉夫s Bhattacharya c . Forlivesi f . Kawsar,“深度学习的早期资源描述在衣物上,智能手机和物联网设备,”学报2015年国际物联网对Applications-IoT-App研讨会”15研讨会论文集光碟,ACM,首尔,韩国,2015年。视图:出版商的网站|谷歌学术搜索
- r . Affolter艾格特,t . Sieberth m·塔和l·c·艾伯特”应用增强现实技术在法医autopsy-Microsoft全息透镜DICOM观众,“法医放射学杂志》和成像》16卷,5 - 8,2019页。视图:出版商的网站|谷歌学术搜索
- 学术界。王,N.-H。蔡,人类。陆,蔡明俊。j .王”教学应用程序的可用性评估基于谷歌手机拆卸任务的玻璃,“应用人体工程学卷。77年,58 - 69、2019页。视图:出版商的网站|谷歌学术搜索
- l . n .黄齐y . Lee和r·k·巴兰,“Deepmon:移动连续视觉应用,基于gpu的深度学习框架”美国第15届国际会议在移动系统中,应用程序和服务ACM,页82 - 95年,尼亚加拉大瀑布,纽约,美国,2017年。视图:出版商的网站|谷歌学术搜索
- 美国劳伦斯·c·l·贾尔斯,a·c·Tsoi“神经网络给出了最优泛化什么尺寸的?反向传播的收敛性质,“NEC研究院普林斯顿,纽约,美国,1998年,技术报告。视图:谷歌学术搜索
- m .董温,f .曾庆红,z(音)和t .黄,“稀疏完全卷积网络面临标签,”Neurocomputing,卷331,不。28日,第472 - 465页,2019年。视图:出版商的网站|谷歌学术搜索
- b . d . Rouhani a . Mirhoseini和f .高级”深3:利用高效的深度学习的三个级别的并行性,”第54届设计自动化研讨会论文集2017 on-DAC 17,61页,ACM,奥斯汀,得克萨斯州,美国,2017年。视图:出版商的网站|谷歌学术搜索
- d, e . Cai,华盛顿特区。胡安,d .虽然玛卡里斯库,“超级强国:权力内存受限的hyper-parameter优化神经网络,”学报2018年设计、自动化和测试在欧洲会议与展览(日期),19到24页,IEEE,德累斯顿,德国,2018年。视图:出版商的网站|谷歌学术搜索
- m·a·哈尼夫·m·Javed, r .哈菲兹s拉赫曼和m . Shafique“深层神经网络硬件软件近似,”近似的电路施普林格,页269 - 288年,柏林,德国,2019年。视图:谷歌学术搜索
- a . Shawahna s . m .我们,a . El-Maleh“fpga加速器的深度学习网络学习和分类:复习一下,”IEEE访问7卷,第7859 - 7823页,2018年。视图:出版商的网站|谷歌学术搜索
- d . Shin和周宏儒。柳,“异构深层神经网络处理器与non-von诺伊曼体系结构中,“IEEE学报》,硕士论文,2019页。视图:出版商的网站|谷歌学术搜索
- f . Schuiki m . Schaffner f . k . Gurkaynak和l . Benini”一个可伸缩的near-memory架构培训深层神经网络在大内存的数据集,”IEEE计算机,卷68,不。4、484 - 497年,2019页。视图:谷歌学术搜索
- e . Azarkhish d·罗西,即定律和l . Benini”Neurostream:可伸缩和节能与智能记忆深度学习方块,“IEEE并行和分布式系统卷,29号2、420 - 434年,2018页。视图:出版商的网站|谷歌学术搜索
- h . Fuketa h . Fuketa t Ikegami et al .,“Image-classifier深9-bit卷积神经网络训练的专用硬件实现验证准确性和能源效率优于半精度浮点格式”学报2018年IEEE国际研讨会(ISCAS)电路和系统IEEE,页1 - 5,佛罗伦萨,意大利,2018年。视图:出版商的网站|谷歌学术搜索
- h·坦恩,美国Hashemi和美国Reda“轻量级深层神经网络加速器使用近似SW / HW技术”近似的电路施普林格,页289 - 305年,可汗,瑞士,2019。视图:谷歌学术搜索
- a·g·霍华德·m·朱b . Chen等人“Mobilenets:高效移动视觉卷积神经网络应用程序,”2017年,https://arxiv.org/abs/1704.04861。视图:谷歌学术搜索
- f . Chollet”与切除可分离旋转Xception:深入学习,”《IEEE计算机视觉与模式识别会议IEEE,页1251 - 1258年,火奴鲁鲁,嗨,美国,2017年。视图:出版商的网站|谷歌学术搜索
- a . Vasudevan a·安德森·d·格雷格,“平行多信道卷积使用通用矩阵乘法,”学报2017年IEEE 28日国际会议上特定于应用程序的系统体系结构和处理器(尽快)IEEE,页19日~ 24日,西雅图,佤邦,美国,2017年7月。视图:出版商的网站|谷歌学术搜索
- m .董温,z曾庆红,z(音)和t .黄“稀疏完全卷积网络面临标签,”Neurocomputing,卷331,不。28日,第472 - 465页,2019年。视图:出版商的网站|谷歌学术搜索
- p . n . d . Lane美国Bhattacharya吉奥吉夫et al .,“Deepx:低功耗软件加速器深度学习推理在移动设备上,”学报2016年15日ACM和IEEE国际会议在传感器网络的信息处理(IPSN)IEEE p。23日,维也纳,奥地利,2016年。视图:出版商的网站|谷歌学术搜索
- 美国通用电气、z罗,问:你们和X.-Y。张“微脑:压缩深层神经网络节能视觉推理服务”学报2017年IEEE计算机通讯大会上车间(INFOCOM WKSHPS)IEEE,页1000 - 1001年,亚特兰大,乔治亚州,美国,2017年。视图:出版商的网站|谷歌学术搜索
- c·邓廖,y谢,k . k . Parhi x钱,和b .元,“PermDNN:高效压缩和交换架构款对角矩阵,”美国第51届IEEE / ACM国际研讨会微体系结构(微观)IEEE,页189 - 202年,2018年日本福冈。视图:出版商的网站|谷歌学术搜索
- w·杨,l·金王,z铜、x,和l·陈,“变薄的卷积神经网络混合修剪,”专业图像处理,13卷,不。5,779 - 784年,2019页。视图:出版商的网站|谷歌学术搜索
- r . Yazdani m .里埃拉,人类。Arnau, a·冈萨雷斯,“款修剪的阴暗面,”学报2018 ACM / IEEE第45届国际研讨会计算机体系结构(ISCA)IEEE,页790 - 801年,洛杉矶CA,美国,2018年。视图:谷歌学术搜索
- 林s, r,邓,和李x, y . Li”对紧凑型回旋网通过structure-sparsity正规化滤波器修剪,”IEEE神经网络和学习系统没有,卷。31日。2、574 - 588年,2019页。视图:出版商的网站|谷歌学术搜索
- m . Nazemi g . Pasandi和m . Pedram“节能、低延迟实现神经网络通过布尔逻辑最小化”《24日亚洲和南太平洋设计自动化会议——ASPDAC 19ACM,页274 - 279年,东京,日本,2019年。视图:出版商的网站|谷歌学术搜索
- b . d . Rouhan a Mirhoseini, f .高级“,”2016年进行的ACM和IEEE国际研讨会上低功率电子产品和设计ACM,页112 - 117年,旧金山,CA,美国,2016年。视图:出版商的网站|谷歌学术搜索
- a . j . Wang Hertzmann, d . j .舰队“高斯过程的动力学模型,先进的神经信息处理系统,19卷,第1448 - 1441页,2006年。视图:谷歌学术搜索
- b·沙希瑞遇刺一周年,k . Swersky z . Wang r·p·亚当斯和n . de Freitas”把人类的循环:回顾贝叶斯优化”IEEE学报》,卷104,不。1,第175 - 148页,2016。视图:出版商的网站|谷歌学术搜索
- p . p . Markopoulos、d . g . Chachlakis和e·e·Papalexakis”1级的精确解L1-norm TUCKER2分解,“IEEE信号处理信件,25卷,不。4、511 - 515年,2018页。视图:出版商的网站|谷歌学术搜索
- Balasubramanian Balasubramanian曹问::,,a,“MobiRNN:高效执行递归神经网络在移动GPU,”学报第一国际研讨会在移动系统和Applications-EMDL深度学习的17岁ACM,页1 - 6,尼亚加拉大瀑布,纽约,美国,2017年。视图:出版商的网站|谷歌学术搜索
- l, m . k . Ng, t .曾“字典上优于子空间结构在光谱聚类识别,”IEEE神经网络和学习系统,24卷,不。8,1188 - 1199年,2013页。视图:出版商的网站|谷歌学术搜索
- 他和张h . .“迭代合奏规范化削减。”模式识别52卷,第286 - 274页,2016年。视图:出版商的网站|谷歌学术搜索
- l .他:射线、y关和h·张,“快速大规模光谱聚类通过显式特征映射,”IEEE控制论卷,49号3、1058 - 1071年,2019页。视图:出版商的网站|谷歌学术搜索
- l . c . Wu张,李,z傅,w•朱和张y,“使灵活的资源分配在移动深度学习系统中,“IEEE并行和分布式系统,30卷,不。2、346 - 360年,2019页。视图:出版商的网站|谷歌学术搜索
- w . Haensch、t . Gokmen和r·普里“下一代的深度学习硬件:模拟计算,”IEEE学报》,卷107,不。1,第122 - 108页,2019。视图:出版商的网站|谷歌学术搜索
- j·d·汉j . Lee Lee和周宏儒。柳”,低功耗深层神经网络在线学习处理器实时跟踪应用程序,”IEEE电路和系统I:普通文件,卷66,不。5,1794 - 1804年,2019页。视图:出版商的网站|谷歌学术搜索
- e·j·福勒,s·t·基恩,a Melianas et al .,“并行编程离子浮栅存储器阵列的可伸缩的神经形态计算,”科学,卷364,不。6440年,第574 - 570页,2019年。视图:出版商的网站|谷歌学术搜索
- 土屋t, t .鹤冈,s . j . Kim et al .,“离子决策者创建为小说,固态设备,“科学的进步,4卷,不。9篇文章ID eaau2057 2018。视图:出版商的网站|谷歌学术搜索
- c·里奥斯:Youngblood z程et al .,“内存计算光子平台上,”科学的进步,5卷,不。2篇文章ID eaau5759 2019。视图:出版商的网站|谷歌学术搜索
- j . Feldmann n .血性小子c·d·莱特·h·Bhaskaran)和w·h·p·Pernice“全光学neurosynaptic飙升网络具有自学习能力,”自然,卷569,不。7755年,第214 - 208页,2019年。视图:出版商的网站|谷歌学术搜索
- 高x、z . y . Zhang和l . m .段“量子机器学习算法基于生成模型,”科学的进步,4卷,不。12篇文章ID eaat9004 2018。视图:出版商的网站|谷歌学术搜索
- a . Krizhevsky i Sutskever, g·e·辛顿“Imagenet分类与深卷积神经网络,”先进的神经信息处理系统25卷,第1105 - 1097页,2012年。视图:谷歌学术搜索
- w·Zhizheng扬声器自动验证欺骗和对策的挑战(ASVspoof 2015)数据库爱丁堡大学语言技术研究中心(装运箱),2015年英国爱丁堡。
- a·科茨y Netzer, t . Wang a . Bissacco b . Wu和a . y . Ng”阅读数字与无监督特征学习自然图像,”诉讼的损害深度学习和无监督特征学习研讨会2011年12月,格拉纳达,西班牙,。视图:谷歌学术搜索
- a Rakotomamonjy和g . Gasso”的梯度直方图为音频现场检测时频表示,“2014年,https://arxiv.org/abs/1508.04909。视图:谷歌学术搜索
- 2015年遥感,http://www.ehu.es/ccwintco/index.php/HyperspectralRemoteSensingScenes。
- UCI机器学习库,2015,https://archive.ics.uci.edu/ml/datasets/Daily +和+运动+活动。
- UCI机器学习库,2015,https://archive.ics.uci.edu/ml/datasets/isolet。
- j·海斯和a·埃,”定位:评估地理信息从一个单一的形象,”《IEEE国际会议在计算机视觉和模式识别2008年6月美国安克雷奇,正义与发展党。视图:出版商的网站|谷歌学术搜索
- a·斯拉n . Jayadevaprakash b .姚明,和l .菲菲,“小说为细粒度数据集图像分类,”第一届研讨会论文集细粒度的视觉分类,IEEE计算机视觉与模式识别会议美国科罗拉多斯普林斯,有限公司,2011年6月。视图:谷歌学术搜索
- b . Thomee b . Elizalde d·a·夏玛et al .,“Yfcc100M。”ACM的通信卷,59号2、64 - 73年,2016页。视图:出版商的网站|谷歌学术搜索
- j .黄诉Rathod, c .太阳et al .,“速度/准确性权衡对现代卷积对象探测器,“2016年,https://arxiv.org/abs/1611.10012。视图:谷歌学术搜索
- UCI机器学习库,https://archive.ics.uci.edu/ml/datasets/UJIIndoorLoc。
- t·韦安德一道即Kostrikov, j . Philbin“PlaNet-photo地理定位与卷积神经网络”电脑Vision-ECCV 2016施普林格,柏林,德国,9912卷,37-55,2016页。视图:出版商的网站|谷歌学术搜索
- y LeCun (c·科尔特斯和c j . Burges”MNIST手写数字的数据库”,1998。视图:谷歌学术搜索
- f·斯沃夫,d . Kalenichenko j . Philbin et al .,“Facenet:统一嵌入人脸识别和聚类”《IEEE计算机视觉与模式识别会议IEEE,页815 - 823年,波士顿,MA,美国,2015年6月。视图:出版商的网站|谷歌学术搜索
- CIFAR-10数据集,http://www.cs.toronto.edu/kriz/cifar.html。
- h . Bourlard和c . j . Wellekens马尔科夫模型和多层感知器之间的联系。”先进的神经信息处理系统1卷,第510 - 502页,1988年。视图:谷歌学术搜索
- 标记的脸在野外,http://vis-www.cs.umass.edu/lfw/。
- y LeCun (l . Bottou y Bengio, p . Haffner“Gradient-based学习应用于文档识别,”IEEE学报》,卷86,不。11日,第2324 - 2278页,1998年。视图:出版商的网站|谷歌学术搜索
- k . Simonyan和a . Zisserman”很深的卷积网络大规模图像识别,”2014年,https://arxiv.org/abs/1409.1556。视图:谷歌学术搜索
- k . x张,他任美国et al .,“深残余学习图像识别,”《IEEE计算机视觉与模式识别会议IEEE,页770 - 778年,拉斯维加斯,NV,美国,2016年。视图:出版商的网站|谷歌学术搜索
- c . Szegedy w·刘,y贾et al .,“要更深的曲线玲珑,”《IEEE计算机视觉与模式识别会议,页1 - 9,IEEE,波士顿,MA,美国,2015年。视图:出版商的网站|谷歌学术搜索
- j . Redmon s Divvala r . Girshick,哈蒂,“你只看一次:统一、实时检测,”2015年,https://arxiv.org/abs/1506.02640。视图:谷歌学术搜索
- o . Russakovsky j .邓·h·苏et al .,“Imagenet大规模视觉识别的挑战。”国际计算机视觉杂志》上,卷115,不。3、211 - 252年,2015页。视图:出版商的网站|谷歌学术搜索
- 帕斯卡尔•VOC2007https://dbcollection.readthedocs.io/en/latest/datasets/pascal_voc2007.html。
- k·索默洛、a . r . Zamir和m .沙”Ucf101: 101人类行为的数据集类从视频在野外,”2012年,https://arxiv.org/abs/1212.0402。视图:谷歌学术搜索
- 美国歌曲,诉钱德拉塞卡,N.-M。张,s . Narayan l·李,黄永发。Lim“活动在以自我为中心的生活记录视频识别,”计算机视觉的亚洲会议施普林格,页445 - 458年,新加坡,2014年。视图:谷歌学术搜索
- w·扎,即Sutskever, o . Vinyals“复发性神经网络正规化,”2014年,https://arxiv.org/abs/1409.2329。视图:谷歌学术搜索
- d . Anguita A . Ghio l . Oneto x Parra,和j·l·Reyes-Ortiz”公共领域数据集人类活动识别使用智能手机,”《欧洲人工神经网络研讨会上,计算智能和机器学习2013年,比利时布鲁日。视图:谷歌学术搜索
- BVLC CaffeNet模型,https://github.com/BVLC/caffe/tree/master/models/bvlc_reference_caffenet。
- h .南和b .汉”,学习多域卷积神经网络视觉跟踪,”2015年,https://arxiv.org/abs/1510.07945。视图:谷歌学术搜索
- j . y . Wu Lim, M.-H。杨”,对象跟踪基准,“IEEE模式分析与机器智能,37卷,不。9日,第1848 - 1834页,2015年。视图:出版商的网站|谷歌学术搜索
- m·j·拉希t . Gokmen m . Rigotti et al .,“RAPA-ConvNets:修改卷积网络加速训练与模拟阵列架构,”神经科学前沿,13卷,p。753年,2019年。视图:出版商的网站|谷歌学术搜索
- a·塞巴斯蒂安·m·勒盖洛,e . Eleftheriou”计算相变内存:冯·诺依曼计算机之外,“物理学学报D辑:应用物理,52卷,不。44岁的ID 443002条,2019年。视图:出版商的网站|谷歌学术搜索
- e·a·卡地亚w·金:龚et al .,“可靠性和材料模拟计算的挑战吗?“在《2019年IEEE国际可靠性物理研讨会(irp)蒙特利,页1 - 10,IEEE, CA,美国,2019年。视图:出版商的网站|谷歌学术搜索
- d . c . Mocanu e . Mocanu p .石头et al .,“可扩展训练人工神经网络与自适应稀疏连接的灵感来自网络科学,”自然通讯,9卷,不。1,p。2383年,2018。视图:出版商的网站|谷歌学术搜索
- d . c . s . Liu Mocanu, a . r . r . Matavalam et al .,“稀疏的进化深度学习超过一百万人工神经元在商品硬件上,“2019年,https://arxiv.org/abs/1901.09181。视图:谷歌学术搜索
- t . Dettmers和l . Zettlemoyer从头稀疏网络:快训练不失性能,”2019年,https://arxiv.org/abs/1907.04840。视图:谷歌学术搜索
- r . Moradi r . Berangi, b . Minaei”SparseMaps:卷积网络稀疏特性为小图像分类地图,”专家系统与应用程序卷,119年,第154 - 142页,2019年。视图:出版商的网站|谷歌学术搜索
- r·马j .苗族l .妞妞和张平,“改变ℓ1学习稀疏正则化神经网络深处,“神经网络卷,119年,第298 - 286页,2019年。视图:出版商的网站|谷歌学术搜索
- j·杨和j·马”,前馈神经网络训练使用稀疏表示,“专家系统与应用程序卷,116年,第264 - 255页,2019年。视图:出版商的网站|谷歌学术搜索
- d·吉尔和w·m·j·绿色”,未来的计算:位+神经元+量子位,”2019年,https://arxiv.org/abs/1911.08446。视图:谷歌学术搜索
- 崔j . n . Wang d品牌,彭译葶。陈,k . Gopalkrishnan”训练deepneural网络与8位浮点数,”美国第32会议神经信息处理系统,蒙特利尔,加拿大,2018。视图:谷歌学术搜索
- c . Sakr和n .王”,积累对超低位宽度扩展精度训练网络,深”美国学习国际会议上表示2019年美国洛杉矶,新奥尔良。视图:谷歌学术搜索
- 崔j . s . Venkataramani诉Srinivasan k . Gopalkrishnan z . Wang和p .壮族“准确、高效的2比特量化神经网络,”第二SysMLConference学报》上美国CA,斯坦福大学,2019年。视图:谷歌学术搜索
- k . Gopalkrishnan“培训和推理hyper-scaled精确,款”美国联合车间设备内置机器学习和紧凑的深层神经网络表示美国长滩,CA, 2019。视图:谷歌学术搜索
- IBM,IBM问经验美国纽约、IBM、阿蒙克https://www.ibm.com/quantumcomputing/technology/experience。
- IBM,量子计算中心打开美国纽约、IBM、阿蒙克,2019,https://www.ibm.com/quantum-computing/technology/experience。
- c . Vuillot h . Asasi y王et al .,“量子纠错与环面的Gottesman-Kitaev-Preskill代码,”物理评论一个,卷99,不。第三条ID 032344, 2019。视图:出版商的网站|谷歌学术搜索
版权
版权©2020 Chunlei陈等。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。