MISYgydF4y2Ba 移动信息系统gydF4y2Ba 1875 - 905 xgydF4y2Ba 1574 - 017 xgydF4y2Ba HindawigydF4y2Ba 10.1155 / 2020/8454327gydF4y2Ba 8454327gydF4y2Ba 评论文章gydF4y2Ba 深度学习在Computational-Resource-Limited平台:一项调查gydF4y2Ba https://orcid.org/0000 - 0003 - 0883 - 0159gydF4y2Ba 程ydF4y2Ba ChunleigydF4y2Ba 1gydF4y2Ba https://orcid.org/0000 - 0001 - 9047 - 6130gydF4y2Ba 张gydF4y2Ba 彭gydF4y2Ba 1gydF4y2Ba https://orcid.org/0000 - 0002 - 4823 - 1436gydF4y2Ba 张gydF4y2Ba HuixianggydF4y2Ba 2gydF4y2Ba https://orcid.org/0000 - 0003 - 1695 - 4629gydF4y2Ba 戴gydF4y2Ba 姜堰gydF4y2Ba 1gydF4y2Ba https://orcid.org/0000 - 0002 - 2726 - 9873gydF4y2Ba 易gydF4y2Ba YugengydF4y2Ba 3gydF4y2Ba https://orcid.org/0000 - 0002 - 1012 - 8089gydF4y2Ba 张gydF4y2Ba 慧慧gydF4y2Ba 1gydF4y2Ba https://orcid.org/0000 - 0003 - 3622 - 8237gydF4y2Ba 张gydF4y2Ba YonghuigydF4y2Ba 1gydF4y2Ba 汗gydF4y2Ba 马利克贾汗gydF4y2Ba 1gydF4y2Ba 计算机工程学院gydF4y2Ba 潍坊大学gydF4y2Ba 潍坊gydF4y2Ba 中国gydF4y2Ba wfu.edu.cngydF4y2Ba 2gydF4y2Ba 学校的网络空间安全gydF4y2Ba 西北工业大学gydF4y2Ba 西安gydF4y2Ba 中国gydF4y2Ba nwpu.edu.cngydF4y2Ba 3gydF4y2Ba 学校的软件gydF4y2Ba 江西师范大学gydF4y2Ba 南昌gydF4y2Ba 中国gydF4y2Ba jxnu.edu.cngydF4y2Ba 2020年gydF4y2Ba 1gydF4y2Ba 3gydF4y2Ba 2020年gydF4y2Ba 2020年gydF4y2Ba 16gydF4y2Ba 08年gydF4y2Ba 2019年gydF4y2Ba 28gydF4y2Ba 12gydF4y2Ba 2019年gydF4y2Ba 01gydF4y2Ba 02gydF4y2Ba 2020年gydF4y2Ba 1gydF4y2Ba 3gydF4y2Ba 2020年gydF4y2Ba 2020年gydF4y2Ba 版权©2020 Chunlei陈等。gydF4y2Ba 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。gydF4y2Ba

如今,物联网(物联网)产生了大量的数据。物联网节点配备智能传感器可以立即提取有意义的数据通过机器学习技术知识。深度学习(DL)不断贡献重大进展在智能传感由于其巨大的优势与传统机器学习。宽领域前景广阔应用程序提出要求DL的无处不在的部署在不同的上下文中。因此,移动或者嵌入式平台上执行DL越来越常见的一种需求。然而,一个典型的DL应用程序可以很容易地排气嵌入式或移动设备由于大量繁殖并积累(MAC)操作和内存访问操作。因此,它是一个具有挑战性的任务之间的桥梁深度学习和资源平台。我们总结资源有限的深度学习的典型应用,指出深度学习是普适计算的不可或缺的动力。随后,我们探索的根本原因高昂的计算开销DL通过回顾基本概念包括能力、泛化和反向传播神经网络。这些概念的指导下,我们调查的原则具有代表性的研究工作,以及三种类型的解决方案:算法设计、计算优化和硬件的革命。 In pursuant to these solutions, we identify challenges to be addressed.

中国国家自然科学基金gydF4y2Ba 31872847gydF4y2Ba 61471269gydF4y2Ba 71661015gydF4y2Ba 中华人民共和国教育部的gydF4y2Ba 201802217002gydF4y2Ba 山东省自然科学基金gydF4y2Ba ZR2019PF023gydF4y2Ba 山东省高等教育科技项目gydF4y2Ba J18KA130gydF4y2Ba J16LN56gydF4y2Ba 潍坊科技发展项目gydF4y2Ba 2019年gx009gydF4y2Ba 2018年gx004gydF4y2Ba 2017年gx002gydF4y2Ba 关键技术研究与开发项目四川省和成都市gydF4y2Ba szjj2015 - 054gydF4y2Ba 潍坊科技大学gydF4y2Ba 2016年bs03gydF4y2Ba 2015年bs11gydF4y2Ba 潍坊科技中受益的人计划工程高技术区gydF4y2Ba 2019年kjhm13gydF4y2Ba 13日,中国信息产业协会五年计划教育分支gydF4y2Ba ZXXJ2019019gydF4y2Ba
1。介绍gydF4y2Ba

过去十年目睹了令人兴奋的深度学习(DL)技术的发展,致使对信号和戏剧性的进展包括物联网和智能传感信息处理应用程序。深层神经网络(款)由多个神经元层组织为层次结构。每一层的参数可以通过迭代学习培训。一个训练有素的款可以从原始数据提取有用的特性。所有的训练样本都是手动标记。在一层,输入数据可以映射到低维空间中通过特征提取。随后,当前层的输出特性导出到下一层。输出的最后一层意味着学会了标签。一款可以通过最小化之间的误差调整手动标签和学到的标签(gydF4y2Ba 1gydF4y2Ba]。gydF4y2Ba

深度学习有着显著的优势,超过传统机器学习(gydF4y2Ba 2gydF4y2Ba,gydF4y2Ba 3gydF4y2Ba]。首先,深度学习可以实现更高的性能,当数据量是巨大的。这意味着深度学习可以充分受益于大量的物联网采集的数据。传统的机器学习技术是更可取的,当数据量很小。然而,性能显著降低,当数据量非常大。相比之下,深度学习展品与大规模数据有利的可伸缩性。第二,深度学习工程更少依赖特性。物联网可以收集多种类别的数据,在本质上是不同的。手动提取特性的异构数据是一项艰巨的任务。传统的机器学习需要领域专家来提取特征。 The manually identified features expose underlying patterns to algorithms. Nevertheless, deep learning autonomously extract features in a layer-wise manner to represent input samples with a nested hierarchy of features. Every layer defines higher-level features based on lower-level features extracted by the previous layer. Third, deep learning techniques can outperform traditional ones in terms of various smart-sensing-related tasks, such as computer vision, speech recognition, and human behavior understanding.

与传统机器学习解决方案,深度学习技术正在快速发展。深度学习的应用涉及信息检索(gydF4y2Ba 4gydF4y2Ba),自然语言处理(gydF4y2Ba 5gydF4y2Ba),人类语音识别(gydF4y2Ba 6gydF4y2Ba,计算机视觉gydF4y2Ba 7gydF4y2Ba),异常检测(gydF4y2Ba 8gydF4y2Ba),推荐系统(gydF4y2Ba 9gydF4y2Ba,生物信息学gydF4y2Ba 10gydF4y2Ba)、医药(gydF4y2Ba 11gydF4y2Ba,gydF4y2Ba 12gydF4y2Ba),作物科学(gydF4y2Ba 13gydF4y2Ba),地球科学(gydF4y2Ba 14gydF4y2Ba,机器人gydF4y2Ba 15gydF4y2Ba- - - - - -gydF4y2Ba 18gydF4y2Ba),交通运输工程(gydF4y2Ba 19gydF4y2Ba),通信技术(gydF4y2Ba 20.gydF4y2Ba- - - - - -gydF4y2Ba 22gydF4y2Ba),和系统仿真gydF4y2Ba 23gydF4y2Ba,gydF4y2Ba 24gydF4y2Ba]。gydF4y2Ba

深度学习渗透到人类社会的多样化方面,提出迫切需求DL-powered无处不在的部署的应用程序。换句话说,深度学习需要适应资源有限的智能手机平台或可穿戴设备。然而,匹配DL和资源有限的平台是一个具有挑战性的任务。推论与DL非常耗费资源(处理器、内存、能源等)虽然可以将更多的资源培训阶段转移到high-performance-computing-powered大型机。我们在典型调查资源有限的DL推论解决方案通过分类和讨论问题的解决方案。本文的其余部分组织如下。部分gydF4y2Ba 2gydF4y2Ba阐明发展中资源有限的DL的动力。代表章节中讨论解决方案gydF4y2Ba 3gydF4y2Ba。部分gydF4y2Ba 4gydF4y2Ba指出了需要解决的挑战。部分gydF4y2Ba 5gydF4y2Ba总结我们的工作。gydF4y2Ba

2。Computational-Resource-Limited深度学习gydF4y2Ba 2.1。应用场景gydF4y2Ba

图gydF4y2Ba 1gydF4y2Ba显示了computational-resource-limited DL的典型应用在智能传感的背景下,包括无人驾驶(gydF4y2Ba 25gydF4y2Ba,gydF4y2Ba 26gydF4y2Ba),人工智能应用程序的智能手机gydF4y2Ba 27gydF4y2Ba),(健康/家庭护理机器人gydF4y2Ba 28gydF4y2Ba- - - - - -gydF4y2Ba 31日gydF4y2Ba)和智能可穿戴设备(gydF4y2Ba 32gydF4y2Ba]。款可以在远程云在移动pretrained DL平台与云通信和基于本地执行推理计算和能源资源gydF4y2Ba 33gydF4y2Ba]。所有这些应用程序都依赖于嵌入式计算机上有限的资源,如处理器,内存和电池。此类应用程序的两个基本技术传感器数据处理和计算机视觉。gydF4y2Ba

资源有限的深度学习的典型smart-sensing-related应用程序场景。gydF4y2Ba

识别和反馈用户行为和周边环境的核心功能是最先进的物联网(物联网)和移动传感应用。然而,原始传感器数据不可避免地夹杂着噪声和不确定性的复杂的部署环境。因此,蒸馏从原始传感器数据精确的和有意义的知识是一个具有挑战性的任务。DL是最具竞争力的方法来克服这一挑战[gydF4y2Ba 34gydF4y2Ba]。gydF4y2Ba

可穿戴的患病率(头盔)增强现实(AR)设备已打开一个小说类移动计算机视觉应用的方法,包括微软的全息透镜(gydF4y2Ba 35gydF4y2Ba)和谷歌眼镜(gydF4y2Ba 36gydF4y2Ba]。这些应用程序不同导航实时交通信号识别人类识别医疗应用。所有这些应用程序场景提出了共同的需求过程连续实时视频流。当前视频处理DL的尖端技术,处理视频流使用大规模和pretrained卷积神经网络(CNN)或递归神经网络(RNN) [gydF4y2Ba 37gydF4y2Ba]。gydF4y2Ba

2.2。普适计算的角度gydF4y2Ba

深度学习可以自动提取功能,实现更高的精度比传统的人工智能技术。因此,深度学习适用于广泛的场景。此外,开源开发工具如TensorFlow和咖啡也加快发展深度学习。研究工作拟合深学习资源有限的移动或者嵌入式平台无疑将推动向普遍的深度学习前进了一大步。gydF4y2Ba

深度学习目前不可或缺的动力,提出了普适计算的发展。如图gydF4y2Ba 2gydF4y2Ba,我们总结普适计算的发展分为三个阶段。前阶段的硬件和软件解决方案整合到后期。在1990年代,研究人员在这个领域努力促进人类的日常生活通过Internet-interconnected桌面和大型机。TCP / IP协议的骨干网络和软件占层普遍应用程序通常专注于网络组织和数据传递。在接下来的阶段,移动互联网用户提供网络访问在任何时间和任何地方。物联网互联几乎所有数字传感器收集原始数据来源多样化,导致大数据量和计算能力提出了高要求的数据处理平台。因此,分布式或并行中间件(比如Hadoop聚集大量的商品服务器的计算能力。此外,云计算提供了聚合超级计算能力通过Web服务客户。物联网和云计算平台之间的数据传输是进一步支持WIFI和3 g / 4 g。然而,这一阶段主要采用传统的机器学习的应用解决方案,不能实现不断推进性能与输入数据量的不断增加。 Nowadays, the learning and inference accuracy of DNN can efficiently scale with the input data amount. However, high time and memory overheads impede the deployment of DL on resource-limited platforms. Matching deep learning and hardware platforms is an active research area. Software layer solutions mainly focus on simplifying the trained DNN to approximate a full-status DNN. Hardware layer solutions involve embedded GPUs, artificial intelligence chips, or even analog computing based on new nonvolatile memory. Additionally, 5G will meet even higher bandwidth requirements.

普适计算的回顾:深度学习目前普适计算的主要动力之一。gydF4y2Ba

3所示。调查现有解决方案gydF4y2Ba 3.1。款计算的困境:基本原则的观点gydF4y2Ba

款的分类是一个典型的应用场景。在这种情况下,目标是建立一个从输入样本映射到相应的标签。下面的概念是利用的基础款的学习和推理:假设空间,能力,随机梯度下降法和概括gydF4y2Ba 38gydF4y2Ba]。gydF4y2Ba

假设空间的所有功能集由一个神经网络。一个函数是拟合得到的参数的神经网络的一部分,可以均匀样本映射到相同的标签。训练一个神经网络来搜索最优函数的假设空间,从而建立映射关系指定的训练数据(换句话说,最小化训练错误)。因此,假设空间的大小决定了神经网络的潜在能力来找到最优的功能。gydF4y2Ba

能力的神经网络反映了假设空间的大小,以及适应能力函数的上界。最优函数可能假设之外的空间,如果没有足够大的能力。在这种情况下,神经网络只能在有限的假设空间搜索和找到近似最优的函数功能最好的努力。因此,underfitting是不可避免的。gydF4y2Ba

训练神经网络将正确地预测前所未有的样本的标签。概括反映了这种能力。低泛化误差就意味着更高的泛化能力。Underfitting在训练阶段可以导致大的泛化误差的推理阶段。gydF4y2Ba

能力集拟合能力的极限,而泛化可以测量比例与未知样品的能力。神经网络的另一个重要问题是搜索机制的假设空间在训练阶段。一般来说,搜索是被随机梯度下降法;搜索总是训练误差下降最快的方向。梯度从最深的backpropagated层第一层更新权重layer-wise的方式。反向传播时收敛的区别之间的火车错误连续两个迭代小于一个阈值。然而,随机梯度下降法一般不能进入全球最适条件。尽管低误差算法的解决方案通常是足够的训练神经网络,这种方法通常需要很长时间才能收敛。此外,像步长参数应该精心挑选,以避免波动的梯度。gydF4y2Ba

从基本原则的角度,款的计算困境是由于以下原因。gydF4y2Ba

第一个是内存开销。超大号的网络是一个常规的方法来实现低泛化误差。大容量并不一定导致低泛化误差。然而,一个大假设空间提高泛化能力的上限,从而增加达到低误差的可能性,特别是当目标函数不过分复杂。gydF4y2Ba

第二个是时间和精力的开销。反向传播本质上是迭代和耗时。计算梯度通过最小化训练误差。训练误差权重和其他参数的函数。数量巨大的重量导致收敛速度慢。此外,这些权重需要频繁处理单元之间的传播和记忆。因此,长期密集计算和内存操作提高处理能力的高需求和能源持续时间。此外,通过微调hyperparameters通常是选择的值,这增加的时间开销。gydF4y2Ba

第三维度的诅咒。高维度的数据加剧了计算资源消耗。款通常需要大量的训练数据,以保证训练网络的泛化能力。更高的维度需要密集的样本。如果gydF4y2Ba 一个gydF4y2Ba 1gydF4y2Ba 是必要的培训数据点的数量在一维样本空间,然后训练数据点的数量gydF4y2Ba 一个gydF4y2Ba 1gydF4y2Ba ngydF4y2Ba 在gydF4y2Ba ngydF4y2Ba维样本空间(gydF4y2Ba 38gydF4y2Ba]。更多的培训数据点更高的维度不可避免地加剧的内存开销,时间,和精力。gydF4y2Ba

3.2。挑战调查gydF4y2Ba

深度学习目前更多的艺术而非科学。神经网络本质上是近似模型和通常可以简化(gydF4y2Ba 39gydF4y2Ba]。gydF4y2Ba

尽管戏剧性的学习深度学习的力量,计算成本阻碍了它们的可移植性资源有限的平台(gydF4y2Ba 40gydF4y2Ba]。DL算法面临三种优化计算性能障碍。gydF4y2Ba 第一个障碍gydF4y2Ba是DL的耗费资源的迭代特性训练。此外,经验自然加剧这种迭代的成本。到目前为止,深度学习的成功主要依靠经验设计和实验评估。理论原则仍有待开发。结果,优化深度学习的性能需要实施和执行各种可能的模型在计算资源约束经验识别最优一(gydF4y2Ba 41gydF4y2Ba]。从一个输入样本中提取有意义的知识需要巨大的MAC操作。MAC操作的数量可以达到十亿的大小(gydF4y2Ba 42gydF4y2Ba]。此外,一个深度学习网络可以包含一百万多个参数(gydF4y2Ba 43gydF4y2Ba]。因此,深度学习提出了高要求加工能力,记忆能力,和能源效率。这是一个至关重要的问题来优化深度学习网络通过消除无效的MAC操作和参数(gydF4y2Ba 42gydF4y2Ba]。gydF4y2Ba 第二个障碍gydF4y2Ba配件款成多元化的现代硬件平台。不同的硬件平台可以不同的时钟频率而言,内存访问延迟,intercore通信延迟和并行模式。设计师DL模型可以分为两种不同的类型:数据科学家和计算机工程师。数据科学家主要集中在优化培训和推理精度通过数据和神经网络技术。然而,他们很少甚至没有关注计算成本。努力提升准确度不一定导致较小的网络规模和更高的速度。计算机工程师专注于加速基于硬件平台的深度学习。他们甚至调整或改革款匹配模型来设计要求为资源受限的应用程序。gydF4y2Ba 第三个障碍gydF4y2Ba是缺乏专用硬件。传统的通用数字计算机硬件如CPU、GPU, FPGA深度学习的忽视一些独特的特征。例如,深度学习只涉及有限种类的计算操作。此外,深度学习明显宽容的噪音和不确定性。专用硬件可能权衡普遍性的性能(gydF4y2Ba 44gydF4y2Ba- - - - - -gydF4y2Ba 48gydF4y2Ba]。gydF4y2Ba

云端DL一直是一个活跃的研究领域。这种解决方案可以卸下沉重的云计算到远程主机。这样的方法组装移动或嵌入式设备的数据,将数据转移到云,并执行深度学习算法(包括培训和推论)云。用户面临的隐私泄露的风险,由于通过计算机网络数据传输,特别是如果包含敏感信息的数据。此外,基于云计算的深度学习的可靠性可能会受到网络包丢失,甚至网络故障。gydF4y2Ba 在本文中,我们关注三个问题:第一,神经网络之间的平衡能力和泛化误差使用算法设计;通过计算第二,配件款成数字硬件设计;第三,新一代硬件处理款的计算困境。gydF4y2Ba我们将现有的解决方案分为三层:算法,计算和硬件层。gydF4y2Ba

图gydF4y2Ba 3gydF4y2Ba总结了典型的解决方案。一个实际的方法可能不止一个集成的解决方案。gydF4y2Ba

分类现有资源有限的DL的解决方案:从培训和推论。gydF4y2Ba

3.3。算法设计gydF4y2Ba

通过数学算法设计集中在减少资源消耗调整或改革款模型和算法。典型的简化技术包括切除分离卷积,矩阵分解,sparsification权重矩阵,权重矩阵压缩,数据降维,和数学优化。gydF4y2Ba

霍华德等人设计了一系列神经网络模型(MobileNets)来促进机器视觉应用程序在移动平台(gydF4y2Ba 49gydF4y2Ba]。MobileNets代表一种轻量级的深层神经网络基于切除可分离旋转。MobileNets的主要目标是构建实时和low-space-complexity模型满足移动机器视觉应用程序提出的要求。的贡献MobileNets总结如下。首先,核心层MobileNets来自切除可分离卷积。切除分离卷积的核心概念是因式分解传统卷积成切除卷积分离层和一层逐点的卷积gydF4y2Ba 50gydF4y2Ba]。MobileNets采用这个核心概念来减少模型大小,以及乘法和加法操作的总数。第二,逐点的占总数的95%计算,通过卷积im2col重新排序优化是不必要的点态分布(gydF4y2Ba 51gydF4y2Ba]。因此,MobileNets避免大规模计算im2col重新排序。第三,因为MobileNets生成相对较小的模型,需要相对较少的参数,常规anti-overfitting措施调整。例如,少使用正则化和数据增大。此外,最小重量衰变(L2正规化)采用切除过滤器。第四,两个hyperparameters称为宽度乘数和解决应用乘数模型的尺寸进一步缩小。gydF4y2Ba

的核心概念gydF4y2Ba 49gydF4y2Ba)都是一个传统的卷积来降低计算的复杂性。这种分解不影响推理精度,因此是一种无损的简化方法。然而,有损的简化是必要的,如果上级简化效果要求。Samraph等人定制DL网络与FPGA平台(gydF4y2Ba 39gydF4y2Ba]。这种方法简化了通过聚类权重矩阵和编码。此外,矩阵向量乘法操作降低计算复杂度的映像。首先,权重矩阵的元素都聚集gydF4y2Ba kgydF4y2Ba则成gydF4y2Ba KgydF4y2Ba集群。因此,每一个元素是附属于一个集群,每个集群的中心意思的附属元素。因此,权重矩阵中的每个元素被替换为相应的中心。换句话说,每个重量是近似和其附属的中心集群。第二,近似权重编码有点宽的日志gydF4y2Ba KgydF4y2Ba。和所有集群中心形成一个字典向量。因此,编码可以显著降低内存开销。第三,由于矩阵向量乘法可以映像编码矩阵有丰富的重复元素。因此,浮点乘法运算的数量急剧减少,这意味着更低的计算复杂度。除了上述的三个基本步骤,该方法面临另一个问题:更换权重与集群中心不可避免地导致数值误差DL网络。这个错误会影响推理精度。的方法(gydF4y2Ba 39gydF4y2Ba采用两种解决方案来处理这个错误。一个是增加字典向量的长度(换句话说,指定一个更大的gydF4y2Ba KgydF4y2Ba来gydF4y2Ba kgydF4y2Ba则)。另一种方法是迭代集群和权重进行再教育。的方法(gydF4y2Ba 39gydF4y2Ba)关注压缩已经训练权重矩阵。相比之下,像套索正规化可以sparsify权重矩阵方法在训练(gydF4y2Ba 52gydF4y2Ba]。gydF4y2Ba

巷等人提出一个软件框架gydF4y2Ba DgydF4y2Ba egydF4y2Ba egydF4y2Ba pgydF4y2Ba XgydF4y2Ba 重塑款参考模型在有限的资源约束下(gydF4y2Ba 53gydF4y2Ba]。相比之下的聚类方法(gydF4y2Ba 39gydF4y2Ba),gydF4y2Ba DgydF4y2Ba egydF4y2Ba egydF4y2Ba pgydF4y2Ba XgydF4y2Ba 利用奇异值分解分解和重建误差最小化压缩款模型。在第一个层面上,他们采用奇异值分解分解重构,每款层近似的权重矩阵。因此,gydF4y2Ba DgydF4y2Ba egydF4y2Ba egydF4y2Ba pgydF4y2Ba XgydF4y2Ba 可以大大减少款参数在每一层。此外,这种近似的精度测量和调整按照重建误差。因此,这种重建方法避免了再培训的困境。在第二个层面上,gydF4y2Ba DgydF4y2Ba egydF4y2Ba egydF4y2Ba pgydF4y2Ba XgydF4y2Ba 数字转换每个神经元的计算负荷和正式工作负载调度作为一个约束的动态规划问题。通过这种方式,计算负载可以自动调度到处理器来满足能量和时间约束。gydF4y2Ba

修剪或压缩受良好训练款可能导致大的近似误差(gydF4y2Ba 54gydF4y2Ba- - - - - -gydF4y2Ba 57gydF4y2Ba]。另一个选择是火车稀疏款。林等人提出一个名为结构化稀疏正则化方法(SSR)实现权重矩阵sparsification在训练(gydF4y2Ba 58gydF4y2Ba]。它们引入了两个截然不同的structured-sparsity regularizers sparsification重量目标函数的矩阵。这两个regularizers可以限制款滤波器矩阵是稀疏的中间状态。随后,他们采用另一种更新的拉格朗日乘数法(AULM)计划或者优化sparsification目标函数和识别损失最小化。SSR方法享有显著降低时间和内存开销比最先进的权重矩阵的修剪方法。Nazemi等人提出了一款训练方法去除冗余内存访问操作。该方法利用布尔逻辑最小化(gydF4y2Ba 59gydF4y2Ba]。在培训过程中,gydF4y2Ba 年代gydF4y2Ba 我gydF4y2Ba ggydF4y2Ba ngydF4y2Ba 函数作为激活。因此,激活局限于二进制值。款的每一层(第一层和最后一层除外)被建模为一个多输入multioutput布尔函数。在推理过程中,输出的是款通过合成一个布尔表达式除了计算输入的点积和重量。换句话说,避免巨大的内存访问操作,消除了大量内存访问延迟和能源消耗。gydF4y2Ba

上述算法的解决方案专注于简化模型,以减少款MAC操作和内存消耗。然而,物理耐久性,特别是能源效率,仍是一个艰巨的障碍通过深度学习各种实际应用中受益。gydF4y2Ba 高兴的是gydF4y2Ba是一个低开销的框架,使能够有效执行培训和低能量约束下的深层神经网络(gydF4y2Ba 60gydF4y2Ba]。作者的gydF4y2Ba 60gydF4y2Ba抑制DL网络大小通过能源特性依照相关的物理资源。他们设计一个自动定制方法自适应地适应特定的硬件而诱导款最低学习精度的恶化。的核心概念gydF4y2Ba 高兴的是gydF4y2Ba是项目数据的低维嵌入context-and-resource-aware方式(子空间)。因此,洞察数据样本可以通过大幅减少神经元。此外,训练模型在每个嵌入集成来提高学习精度。gydF4y2Ba

的核心概念gydF4y2Ba DgydF4y2Ba egydF4y2Ba lgydF4y2Ba 我gydF4y2Ba ggydF4y2Ba hgydF4y2Ba tgydF4y2Ba 细粒度的能耗控制基于数据降维。该框架gydF4y2Ba HgydF4y2Ba ygydF4y2Ba pgydF4y2Ba egydF4y2Ba rgydF4y2Ba PgydF4y2Ba ogydF4y2Ba wgydF4y2Ba egydF4y2Ba rgydF4y2Ba 提出约束能量和内存消耗从hyperparameter优化(gydF4y2Ba 41gydF4y2Ba]。这是一个hyperparameter优化框架基于高斯过程(GP)和贝叶斯优化[gydF4y2Ba 61年gydF4y2Ba,gydF4y2Ba 62年gydF4y2Ba]。这个框架表示测试误差函数gydF4y2Ba fgydF4y2Ba xgydF4y2Ba ,在那里gydF4y2Ba xgydF4y2Ba是一个数据点hyperparameters的设计空间。此外,权力和内存开销是表示一个函数gydF4y2Ba ggydF4y2Ba xgydF4y2Ba 。随后,hyperparameter调优是正式作为一个优化问题:最小化gydF4y2Ba fgydF4y2Ba xgydF4y2Ba 的约束下gydF4y2Ba ggydF4y2Ba xgydF4y2Ba 低于一个阈值。最小化gydF4y2Ba fgydF4y2Ba xgydF4y2Ba 成本是由于这一事实吗gydF4y2Ba fgydF4y2Ba xgydF4y2Ba 没有亲密的形式。因此,gydF4y2Ba HgydF4y2Ba ygydF4y2Ba pgydF4y2Ba egydF4y2Ba rgydF4y2Ba PgydF4y2Ba ogydF4y2Ba wgydF4y2Ba egydF4y2Ba rgydF4y2Ba 采用GP的近似分布gydF4y2Ba fgydF4y2Ba xgydF4y2Ba 。此外,该框架利用贝叶斯优化迭代选择最佳hyperparameters和更新的分布gydF4y2Ba fgydF4y2Ba xgydF4y2Ba 。gydF4y2Ba fgydF4y2Ba xgydF4y2Ba 假定服从高斯分布。让gydF4y2Ba ygydF4y2Ba表示的观察gydF4y2Ba fgydF4y2Ba xgydF4y2Ba 。在刚开始的时候,一个初始近似的gydF4y2Ba fgydF4y2Ba xgydF4y2Ba 可以解决gydF4y2Ba pgydF4y2Ba 米gydF4y2Ba ygydF4y2Ba xgydF4y2Ba 基于假设和一组已知的gydF4y2Ba xgydF4y2Ba ,gydF4y2Ba ygydF4y2Ba 值(高斯过程回归)。每次迭代中包括以下操作。的主要任务是选择一个最优值gydF4y2Ba xgydF4y2Ba从设计完善的空间gydF4y2Ba pgydF4y2Ba 米gydF4y2Ba ygydF4y2Ba xgydF4y2Ba 。和所选gydF4y2Ba xgydF4y2Ba应该把gydF4y2Ba fgydF4y2Ba xgydF4y2Ba 沿着一个方向减少价值。这个值的gydF4y2Ba xgydF4y2Ba是通过最大化expectation-improvement-based收购确定函数。此外,收购函数包含约束函数使用一个指标。指标函数等于1是否满意和零如果没有约束。第二,神经网络配置按照新的设计参数(新发现的gydF4y2Ba xgydF4y2Ba)和训练获得的测试误差(一个新值gydF4y2Ba ygydF4y2Ba)。第三,均值和协方差更新使用新的gydF4y2Ba xgydF4y2Ba ,gydF4y2Ba ygydF4y2Ba ,因此,gydF4y2Ba pgydF4y2Ba 米gydF4y2Ba ygydF4y2Ba xgydF4y2Ba 是更新的gydF4y2Ba pgydF4y2Ba 米gydF4y2Ba ygydF4y2Ba 。gydF4y2Ba

3.4。计算优化gydF4y2Ba

计算优化依赖重建算法实现按照一个特定的硬件架构。一些传统优化技术代码并行,微调并行代码,数据缓存和细粒度的内存利用率。gydF4y2Ba

黄齐等人开发了一个工具gydF4y2Ba DgydF4y2Ba egydF4y2Ba egydF4y2Ba pgydF4y2Ba 米gydF4y2Ba ogydF4y2Ba ngydF4y2Ba 连续的视觉基于商品移动gpu的应用程序gydF4y2Ba 37gydF4y2Ba]。大型深层神经网络(款)由商品移动GPU通常不能达到严格的实时性能由于有限的计算资源。然而,可以低帧率(一到两帧每秒)在某些用例,如说话人识别和护理老人。这些应用场景提出对实时性能要求相对较低。gydF4y2Ba DgydF4y2Ba egydF4y2Ba egydF4y2Ba pgydF4y2Ba 米gydF4y2Ba ogydF4y2Ba ngydF4y2Ba 实现大型款这样的应用程序基于商品移动gpu和达到接近实时的性能。在上述应用中,first-person-view图片不容易表现出显著变化在很短的时间跨度。gydF4y2Ba DgydF4y2Ba egydF4y2Ba egydF4y2Ba pgydF4y2Ba 米gydF4y2Ba ogydF4y2Ba ngydF4y2Ba 只有将每一帧的图像划分为块。gydF4y2Ba DgydF4y2Ba egydF4y2Ba egydF4y2Ba pgydF4y2Ba 米gydF4y2Ba ogydF4y2Ba ngydF4y2Ba 缓存每个块的中间结果在计算一帧的卷积。随后,类似块识别这个框架与下一帧。因此,缓存的结果可以直接用来计算卷积的下一帧。此外,缓存的结果一定时间后过期。两幅图像之间的相似性识别基于颜色分布直方图和卡方距离度量。除了这个缓存机制,gydF4y2Ba DgydF4y2Ba egydF4y2Ba egydF4y2Ba pgydF4y2Ba 米gydF4y2Ba ogydF4y2Ba ngydF4y2Ba 利用卷积Tucker-2分解层(gydF4y2Ba 63年gydF4y2Ba)因式分解一层传统卷积成几个小褶积层。因此,计算卷积是降低成本。最后,gydF4y2Ba DgydF4y2Ba egydF4y2Ba egydF4y2Ba pgydF4y2Ba 米gydF4y2Ba ogydF4y2Ba ngydF4y2Ba 曲调GPU代码在各种主流商品移动GPU。调整和优化GPU代码为每个GPU封装成独立的内核模式。作为一个结果,gydF4y2Ba DgydF4y2Ba egydF4y2Ba egydF4y2Ba pgydF4y2Ba 米gydF4y2Ba ogydF4y2Ba ngydF4y2Ba 可以自适应地采用适当的内核在运行时,以适应特定的GPU,尽了最大努力。gydF4y2Ba

的主要思想gydF4y2Ba DgydF4y2Ba egydF4y2Ba egydF4y2Ba pgydF4y2Ba 米gydF4y2Ba ogydF4y2Ba ngydF4y2Ba 缓存中间结果来消除冗余计算。另一个典型的技术是GPGPU加速度。曹等人提出了一个GPGPU-powered RNN模型,执行本地移动设备上(gydF4y2Ba 64年gydF4y2Ba]。递归神经网络(RNN)可以得到广泛应用,如语音识别和机器人聊天。传统的移动应用程序RNN一般出售的主要计算到云上。然而,基于云计算的实现产生安全性和效率问题。曹等人指出,现有GPGPU-accelerated卷积神经网络(CNN)的方法不能直接移植到mobile-device-based RNN。一方面,RNN本身包含许多顺序操作,这限制了RNN的并行性。另一方面,现有GPGPU-powered RNN桌面gpgpu的方法是专门设计的。这些方法不能直接融入移动GPGPU因为移动GPGPU拥有更少内存容量和处理核心。RNN,避免相邻细胞之间的依赖性大大增加细胞之间的难以利用并行性。然而,操作在一个细胞仍然表现出相当大的并行性。 In the work of [ 64年gydF4y2Ba),计算细胞的映像在细粒度和优雅融入移动GPGPU。gydF4y2Ba

自适应平台DL框架gydF4y2Ba DgydF4y2Ba egydF4y2Ba egydF4y2Ba pgydF4y2Ba 3gydF4y2Ba 仍然采用GPGPU-powered计算的概念。然而,gydF4y2Ba DgydF4y2Ba egydF4y2Ba egydF4y2Ba pgydF4y2Ba 3gydF4y2Ba 利用并行性的三个层次:数据、网络和硬件。的最终目标gydF4y2Ba DgydF4y2Ba egydF4y2Ba egydF4y2Ba pgydF4y2Ba 3gydF4y2Ba 是之间的桥梁数据科学角度设计深度学习和计算机工程角度优化深度学习。首先是硬件并行性。gydF4y2Ba DgydF4y2Ba egydF4y2Ba egydF4y2Ba pgydF4y2Ba 3gydF4y2Ba 提取基本操作(层)的深度学习网络,包括卷积,最大池,池,矩阵乘法和非线性。优化的实现的基本操作可以显著不同的关于硬件平台。例如,通过改变矩阵的维数,我们可以观察到矩阵乘法计算密集型、数据密集型特定平台。gydF4y2Ba DgydF4y2Ba egydF4y2Ba egydF4y2Ba pgydF4y2Ba 3gydF4y2Ba 使用子例程来执行硬件配置。每个子程序运行一个特定的操作不同大小在不同的平台上,分别。通过这种方式,gydF4y2Ba DgydF4y2Ba egydF4y2Ba egydF4y2Ba pgydF4y2Ba 3gydF4y2Ba 识别特定操作的最优规模目标平台。这些最优尺寸是至关重要的指令将整个深学习网络子网,调整计算,目标平台的内存和带宽资源。二是网络的并行性。gydF4y2Ba DgydF4y2Ba egydF4y2Ba egydF4y2Ba pgydF4y2Ba 3gydF4y2Ba 将整个深度学习网络分解成重叠子网使用深度优先的方法。每个子网都有相同的深度与原始网络边缘明显减少。每个子网都可以独立地更新等地方收集的定期更新参数协调优化整个网络。第三是数据并行性。gydF4y2Ba DgydF4y2Ba egydF4y2Ba egydF4y2Ba pgydF4y2Ba 3gydF4y2Ba 高维输入数据分解成多个低维子空间,通过字典学习。字典学习可以通过机器学习算法有效地执行像谱聚类gydF4y2Ba 65年gydF4y2Ba- - - - - -gydF4y2Ba 67年gydF4y2Ba]。随后,每个子网致力于处理一个特定的子空间和不同的子空间是并行处理。gydF4y2Ba

吴等人利用移动的关节角度深度学习软件和硬件体系结构。他们提出一个平台gydF4y2Ba DgydF4y2Ba egydF4y2Ba egydF4y2Ba pgydF4y2Ba 年代gydF4y2Ba hgydF4y2Ba 一个gydF4y2Ba rgydF4y2Ba kgydF4y2Ba 以使能够商用现货(COTS)移动设备自适应资源调度的能力(gydF4y2Ba 68年gydF4y2Ba]。方法如gydF4y2Ba DgydF4y2Ba egydF4y2Ba egydF4y2Ba pgydF4y2Ba XgydF4y2Ba 尽量压缩深度模型。相比之下,gydF4y2Ba DgydF4y2Ba egydF4y2Ba egydF4y2Ba pgydF4y2Ba 年代gydF4y2Ba hgydF4y2Ba 一个gydF4y2Ba rgydF4y2Ba kgydF4y2Ba 寻求响应速度和内存消耗之间的权衡。它分裂pretrained款到代码块和逐步运行块芯片系统(SoC)完成推理。因此,gydF4y2Ba DgydF4y2Ba egydF4y2Ba egydF4y2Ba pgydF4y2Ba 年代gydF4y2Ba hgydF4y2Ba 一个gydF4y2Ba rgydF4y2Ba kgydF4y2Ba 只需要从外部存储器加载当前必需的数据到内存中,而不是在内存中保存所有数据在整个执行周期。因此,gydF4y2Ba DgydF4y2Ba egydF4y2Ba egydF4y2Ba pgydF4y2Ba 年代gydF4y2Ba hgydF4y2Ba 一个gydF4y2Ba rgydF4y2Ba kgydF4y2Ba 显著降低内存消耗。此外,gydF4y2Ba DgydF4y2Ba egydF4y2Ba egydF4y2Ba pgydF4y2Ba 年代gydF4y2Ba hgydF4y2Ba 一个gydF4y2Ba rgydF4y2Ba kgydF4y2Ba 导致没有精度损失模型压缩或近似的缺失。此外,隐私风险是避免因为user-relevant所有数据在本地处理。最终,gydF4y2Ba DgydF4y2Ba egydF4y2Ba egydF4y2Ba pgydF4y2Ba 年代gydF4y2Ba hgydF4y2Ba 一个gydF4y2Ba rgydF4y2Ba kgydF4y2Ba 深度学习开发者来说是透明的。它重载默认系统功能TensorFlow和咖啡。开发人员可以调用gydF4y2Ba DgydF4y2Ba egydF4y2Ba egydF4y2Ba pgydF4y2Ba 年代gydF4y2Ba hgydF4y2Ba 一个gydF4y2Ba rgydF4y2Ba kgydF4y2Ba api相同的方式调用TensorFlow或咖啡api。相比之下,的工作gydF4y2Ba 59gydF4y2Ba消除冗余内存操作在一个算法的方式。gydF4y2Ba

3.5。硬件革命gydF4y2Ba

Haensch等人指出,愿望DL应用于日常生活的各个领域的inheritage普适计算。然而,学术界和产业界面临的挑战规模壁垒DL DL适合普遍的应用程序(gydF4y2Ba 69年gydF4y2Ba]。开销是一个至关重要的问题关于普遍应用DL,开销是指时间和所需计算资源构造,火车,和运行模式。现有技术研究工作表明,gpu进一步走向普及DL,而它是确认定制硬件致力于DL可以超越通用的gpu。gydF4y2Ba

汉等人设计的专用处理器DNN-based实时跟踪(gydF4y2Ba 70年gydF4y2Ba]。这个处理器通过DNN-specific达到低功耗处理器架构和专门的算法。然而,这种专用处理器仍然依赖于数字计算。gydF4y2Ba

DL网络只需要有限种类的数学运算(例如,矩阵乘法)。这样的行动经常重新出现在模型训练或推理。这两个特征使高效的执行不仅DL算法在gpu也模拟计算电路。此外,DL算法非常宽容的噪音和不确定性,将贸易数值精度算法精度的一种方法。模拟计算了Haensch et al。gydF4y2Ba 69年gydF4y2Ba)是一个扩展的内存计算。现有技术非易失存储器材料不能有效地适应模拟内存计算。再造工程记忆材料是一项非常具有挑战性的任务。新一代的DL加速硬件已经进入了学术界和产业界的愿景。这种硬件行业通用性低开销。然而,构造的复杂性和训练DL模型超出任何一种硬件的能力。因此,研究人员需要考虑以系统的观点和解决方案将几种加速器聚合成一个完美的系统。活力的新加速器很大程度取决于这个问题。此外,Haensch等人宣布模拟加速器不会完全取代数字的。这两个数字和模拟加速器应不断开发的最大可能的程度。 The analog accelerators should be capable of seamless integration into digital ones.

模拟计算可以实现基于电化学反应。这种机制已经研究建立硬件基础DL-related问题。例如,神经形态计算可以绕过传统的计算通过并行处理和内在性能瓶颈crossbar-memory-enabled数据访问。福勒等人链接一个氧化还原晶体管conductive-bridge内存(CBM),从而建立一个离子浮栅存储器(IFG)数组(gydF4y2Ba 71年gydF4y2Ba]。氧化还原晶体管的工作寿命可以达到十亿多“读写”操作。此外,数据访问频率可以实现多个兆赫。这IFG-based神经形态系统显示内存中学习和推理可以有效地执行基于低压电化学系统。IFG希望能先锋神经形态的自适应电特性的计算机可以在功率效率明显优于传统的数字计算机。这样的神经形态模拟计算机可以调整深度学习限制功率情况下,甚至使能够持久的产品的终身学习。另一个electrochemistry-based硬件原型提出了(gydF4y2Ba 72年gydF4y2Ba]。Tsushiya等人设计一个固态离子设备解决决策问题像multiarmed土匪问题(MBPs)。这个设备实现决策打开方式通过离子的运动,这可能导致移动人工芯片和发现各种应用程序包括深度学习。gydF4y2Ba

除了模拟计算、光子(光)计算也是一个很有前途的硬件解决方案。目前,主流光子计算机用光子代替电子数字计算机的组件,可以获得更高的速度和带宽。一些开拓性的研究工作采用了光子计算支持DL-related计算。里奥斯等人通过结合实现all-photonic内存计算集成光学集中的数据存储和处理(gydF4y2Ba 73年gydF4y2Ba]。他们制造非易失存储器使用相变材料gydF4y2Ba 通用电气gydF4y2Ba 2gydF4y2Ba 某人gydF4y2Ba 2gydF4y2Ba TegydF4y2Ba 5gydF4y2Ba 和执行直接标量和矩阵向量乘法基于该非易失性光子的记忆。计算结果为输出脉冲。这个光子计算系统提供了一个有前途的转向高速和大带宽芯片上的光子计算,而绕开光电转换。这样一个系统可以是纯粹的光子计算机的基石。Feldmann等人指出,传统的计算架构区分真正的神经组织的物理分离数据内存和处理的功能gydF4y2Ba 74年gydF4y2Ba]。这种分离设计的地方一个令人生畏的障碍实现高速和低功耗计算系统就像人类的大脑。一个有前途的解决方案来克服这个障碍是精心设计的小说硬件模拟人类大脑的神经元和突触。因此,他们调查波分多路复用技术来实现一个光子神经网络基于一个可伸缩的电路,它可以模拟neurosynaptic系统以一种方式。这种电路保持内在的高速和大带宽特性的光学系统,使能够有效的机器学习算法执行。gydF4y2Ba

量子计算是另一个潜在的解决方案来支持DL。高等人采用量子衍生模型设计量子算法的机器学习。这个模型优越的能力代表概率分布在传统的生成模型。此外,该模型可以实现指数级的速度至少在某些应用场景,量子计算机不能完全模拟通过传统的数字计算范例。的工作(gydF4y2Ba 75年gydF4y2Ba打开一个量子机器学习方法和演示了一个戏剧性的例子,一个量子算法的理论和实践价值指数可以达到更高的性能与传统算法。gydF4y2Ba

小说硬件模式像离子记忆,光子计算和量子计算可以为资源有限的深度学习不可或缺的阶段。尽管这些硬件进化可能最初出于促进深度学习的应用,新一代硬件将来能找到更广泛的应用。gydF4y2Ba

3.6。讨论gydF4y2Ba

表gydF4y2Ba 1gydF4y2Ba总结代表工作基本原则的角度来看,占款计算的困境。现有研究工作通常旨在处理一个或多个计算困境的原因。gydF4y2Ba

代表性研究工作基本原则的角度。gydF4y2Ba

代表性研究工作gydF4y2Ba 技术gydF4y2Ba
引起的内存开销过大的网络gydF4y2Ba (gydF4y2Ba 39gydF4y2Ba]gydF4y2Ba 通过聚类权重矩阵压缩pretrained网络:在假设空间合并类似的功能gydF4y2Ba
(gydF4y2Ba 56gydF4y2Ba]gydF4y2Ba 重修剪pretrained网络:删除贡献小的权重在假设空间拟合函数gydF4y2Ba
(gydF4y2Ba 39gydF4y2Ba,gydF4y2Ba 58gydF4y2Ba]gydF4y2Ba 稀疏的培训:套索正则化、结构化稀疏正则化gydF4y2Ba
(gydF4y2Ba 68年gydF4y2Ba]gydF4y2Ba 在数字计算机计算优化:细粒度的利用内存gydF4y2Ba

时间和精力开销引起的反向传播,内存操作,hyperparameter调优gydF4y2Ba (gydF4y2Ba 37gydF4y2Ba,gydF4y2Ba 39gydF4y2Ba,gydF4y2Ba 49gydF4y2Ba]gydF4y2Ba 算法设计,避免计算冗余:深度分离卷积,避免im2col重新排序,映像矩阵向量乘法基于奇异值分解和Tucker-2gydF4y2Ba
(gydF4y2Ba 37gydF4y2Ba]gydF4y2Ba 数字计算机的高速缓存:重用卷积,以避免冗余计算的中间结果gydF4y2Ba
(gydF4y2Ba 39gydF4y2Ba,gydF4y2Ba 40gydF4y2Ba]gydF4y2Ba 数字处理器上的并行化:FPGA, GPGPUgydF4y2Ba
(gydF4y2Ba 37gydF4y2Ba,gydF4y2Ba 40gydF4y2Ba,gydF4y2Ba 53gydF4y2Ba]gydF4y2Ba 充分利用数字处理器:分析和微调的CPU或GPGPU代码gydF4y2Ba
(gydF4y2Ba 59gydF4y2Ba]gydF4y2Ba 避免频繁通过布尔逻辑最小化内存操作gydF4y2Ba
(gydF4y2Ba 41gydF4y2Ba]gydF4y2Ba Hyperparameter使用高斯过程调优gydF4y2Ba

诅咒的维度gydF4y2Ba (gydF4y2Ba 53gydF4y2Ba]gydF4y2Ba 计算权重矩阵的分解gydF4y2Ba
(gydF4y2Ba 60gydF4y2Ba]gydF4y2Ba 数据嵌入gydF4y2Ba

第一个是超大型网络引起的内存开销。早期的算法解决方案倾向于压缩或删除的权重矩阵pretrained款。压缩或修剪是一个之间的权衡的能力(或泛化能力)和记忆效率。然而,直接修改pretrained网络不可避免地导致unexceptable错误。尽管再培训是一种选择,它会引起显著的额外的时间开销。gydF4y2Ba

因此,最近的算法提出实现稀疏网络通过培训解决方案。核心理念是精心选择误差函数的正则化项,这迫使网络形成稀疏矩阵在很少或甚至没有重量损失在泛化能力。除了算法解决方案,数字计算机还可以赋予权力大pretrained网络推理阶段通过细粒度的利用内存。gydF4y2Ba

第二个是时间和精力开销引起的反向传播,内存操作,hyperparameter调优。从算法的角度来看,戏剧可以消除冗余计算,特别是矩阵与矩阵和矩阵向量乘法。在这种方式中,时间开销以及能源消耗降低。时间效率还可以促进重用中间结果的卷积,并行数字处理器,和代码数字处理器上的微调。与开销引起的运算处理,时间消耗引起的内存操作是很难处理的。原因是传统的数字计算机采用冯诺依曼体系结构,从而有独立处理和内存单元。由于款的统计和近似性质,布尔逻辑最小化可有助于降低内存的操作,以及能源消耗。这个解决方案实现高效的性能在手写数字识别。然而,它限制激活功能gydF4y2Ba 年代gydF4y2Ba 我gydF4y2Ba ggydF4y2Ba ngydF4y2Ba 功能,这限制了泛化能力。关于能源hyperparameter调优,数学方法如高斯过程可以指出一个更高效的搜索路径在参数空间中,除了仅仅依靠人类经验甚至随机搜索。gydF4y2Ba

能源消耗主要是由算术处理和内存操作引起的。因此,后两个是关键问题。关于时间开销,大多数现有的解决方案关注外围冗余计算等问题。然而,在随机梯度下降问题的根源。培训时间将会大幅下降如果我们能制造一种改进的梯度,从而更快地收敛。对内存操作的开销,这是冯·诺依曼体系结构的一个固有的问题。解决这个问题需要新的内存计算等计算范例。gydF4y2Ba

第三维度的诅咒。传统解决方案权重矩阵分解和数据嵌入可以降低特征维度。据我们所知,有有限的特征降维的研究工作computational-resource-limited上下文。相关话题进行调查。gydF4y2Ba

应该指出的是,上述讨论方面不是孤立的。一种系统化的观点可能意味着一个更高效的解决方案。例如,pretrained稀疏的网络无疑要求推理时间小于一个密集的网络。另一个实例,读/写重量会产生更少的时间和能源消耗,如果权重矩阵是稀疏的。表gydF4y2Ba 1gydF4y2Ba不包括创新的模拟计算和量子计算等计算范例。稍后我们将详细讨论这些计算范例。gydF4y2Ba

表gydF4y2Ba 2gydF4y2Ba代表性研究工作提供更多的细节。三种解决方案都在快速发展。整体动机是有效地应用DL移动/嵌入式上下文。算法解决方案核心地位是由于他们直接处理业务逻辑的应用程序,旨在减少时间和内存复杂性数学逻辑层。现有的解决方案主要集中在简化matrix-and-vector操作、数据/网络嵌入hyperparameter调优,并通过正规化sparsification。仍需要进一步的研究来探索减少计算开销通过激活函数。gydF4y2Ba

代表性研究工作的细节。gydF4y2Ba

日期gydF4y2Ba 名称(引用。)gydF4y2Ba 资源gydF4y2Ba 具有代表性的方法gydF4y2Ba 机器学习的神经网络或主题的体系结构gydF4y2Ba 应用场景gydF4y2Ba 数据集gydF4y2Ba
算法gydF4y2Ba 2016-4-11gydF4y2Ba DgydF4y2Ba egydF4y2Ba egydF4y2Ba pgydF4y2Ba XgydF4y2Ba (gydF4y2Ba 53gydF4y2Ba]gydF4y2Ba 内存容量、电力gydF4y2Ba 推理阶段:圣言decomposition-based权重矩阵压缩,细粒度任务调度处理器gydF4y2Ba AlexNet [gydF4y2Ba 76年gydF4y2Ba),2-hidden层SpeakerID款,SVHN CNN, 2-hidden层款音频的场景gydF4y2Ba 识别的对象,人的声音、音频环境gydF4y2Ba ImageNet [gydF4y2Ba 76年gydF4y2Ba),议长验证欺骗,挑战和对策数据集(gydF4y2Ba 77年gydF4y2Ba],SVHN数据集[gydF4y2Ba 78年gydF4y2Ba)、音频场景数据集(gydF4y2Ba 79年gydF4y2Ba]gydF4y2Ba
2016-8-8gydF4y2Ba DgydF4y2Ba egydF4y2Ba lgydF4y2Ba 我gydF4y2Ba ggydF4y2Ba hgydF4y2Ba tgydF4y2Ba (gydF4y2Ba 60gydF4y2Ba]gydF4y2Ba 权力gydF4y2Ba 训练阶段:数据projectionunder能源约束gydF4y2Ba 层款gydF4y2Ba 成像、智能传感、语音识别gydF4y2Ba 高光谱遥感场景(gydF4y2Ba 80年gydF4y2Ba),UCI日常和体育活动gydF4y2Ba 81年gydF4y2Ba],UCI ISOLET [gydF4y2Ba 82年gydF4y2Ba]gydF4y2Ba
2017-4-17gydF4y2Ba 米gydF4y2Ba ogydF4y2Ba bgydF4y2Ba 我gydF4y2Ba lgydF4y2Ba egydF4y2Ba NgydF4y2Ba egydF4y2Ba tgydF4y2Ba 年代gydF4y2Ba (gydF4y2Ba 49gydF4y2Ba]gydF4y2Ba 内存容量gydF4y2Ba 训练阶段:切除分离卷积,避免im2col重新排序,hyperparameter调优gydF4y2Ba 28-layer卷积神经网络,PlatNetgydF4y2Ba 87年gydF4y2Ba,gydF4y2Ba 88年gydF4y2Ba],FaceNet [gydF4y2Ba 89年gydF4y2Ba,gydF4y2Ba 90年gydF4y2Ba]gydF4y2Ba 大规模的地理位置,细粒度图像识别,人脸识别,目标检测gydF4y2Ba ImageNet,定位gydF4y2Ba 83年gydF4y2Ba],斯坦福大学狗[gydF4y2Ba 84年gydF4y2Ba],YFCC100M [gydF4y2Ba 85年gydF4y2Ba],可可[gydF4y2Ba 86年gydF4y2Ba]gydF4y2Ba
2017-4-30gydF4y2Ba (gydF4y2Ba 39gydF4y2Ba]gydF4y2Ba 内存容量gydF4y2Ba 推理阶段:重编码、重量共享、分解向量矩阵乘法gydF4y2Ba 2-Hidden层款gydF4y2Ba 语音识别、室内定位、人类活动识别、手写数字识别gydF4y2Ba UCI ISOLET, UCI UJIIndoorLoc [gydF4y2Ba 87年gydF4y2Ba),UCI日常体育活动,MNIST [gydF4y2Ba 88年gydF4y2Ba]gydF4y2Ba
2018-3-19gydF4y2Ba HgydF4y2Ba ygydF4y2Ba pgydF4y2Ba egydF4y2Ba rgydF4y2Ba PgydF4y2Ba ogydF4y2Ba wgydF4y2Ba egydF4y2Ba rgydF4y2Ba (gydF4y2Ba 41gydF4y2Ba]gydF4y2Ba 权力gydF4y2Ba 训练阶段:hyperparameter调优,GP-Bayesian优化gydF4y2Ba 变异的AlexNet MNIST CIFAR-10gydF4y2Ba 手写数字识别,图像分类gydF4y2Ba MNIST, CIFAR-10 [gydF4y2Ba 89年gydF4y2Ba]gydF4y2Ba
2019-1-21gydF4y2Ba (gydF4y2Ba 59gydF4y2Ba]gydF4y2Ba 内存访问延迟、权力gydF4y2Ba 训练阶段:实现款问题转换成一个布尔逻辑优化问题,布尔逻辑最小化gydF4y2Ba 多层感知(gydF4y2Ba 92年gydF4y2Ba),美国有线电视新闻网gydF4y2Ba 手写数字识别gydF4y2Ba MNISTgydF4y2Ba
2019-2-28gydF4y2Ba (gydF4y2Ba 52gydF4y2Ba]gydF4y2Ba 内存容量gydF4y2Ba 训练阶段:集团套索正规化、群际套索正规化gydF4y2Ba 与7卷积完全卷积网络层初始化pretrained VGG16gydF4y2Ba 人脸识别gydF4y2Ba LFW面临数据集(gydF4y2Ba 93年gydF4y2Ba]gydF4y2Ba
2019-4-12gydF4y2Ba (gydF4y2Ba 58gydF4y2Ba]gydF4y2Ba 内存容量gydF4y2Ba 训练阶段:结构化稀疏正则化,选择更新拉格朗日乘数法(AULM)gydF4y2Ba LeNet [gydF4y2Ba 94年gydF4y2Ba,AlexNet VGG-16 [gydF4y2Ba 95年gydF4y2Ba],ResNet-50 [gydF4y2Ba 96年gydF4y2Ba],GoogLeNet [gydF4y2Ba 97年gydF4y2Ba]gydF4y2Ba 手写数字识别,图像分类gydF4y2Ba MNIST, ImageNetgydF4y2Ba
计算gydF4y2Ba 2017-6-18gydF4y2Ba DgydF4y2Ba egydF4y2Ba egydF4y2Ba pgydF4y2Ba 3gydF4y2Ba (gydF4y2Ba 40gydF4y2Ba]gydF4y2Ba 处理器gydF4y2Ba 培训和推理阶段:通过计算负载改变粒度,提高并行网络分割通过深度优先遍历方法,数据降维使用字典学习,与GPU并行gydF4y2Ba 建立一个通用的框架,用于拟合DL网络特定的硬件,AlexNet被用来作为一个例子gydF4y2Ba 成像、智能传感、语音识别gydF4y2Ba 高光谱遥感场景,UCI ISOLET UCI的日常和体育活动gydF4y2Ba
2017-6-19gydF4y2Ba DgydF4y2Ba egydF4y2Ba egydF4y2Ba pgydF4y2Ba 米gydF4y2Ba ogydF4y2Ba ngydF4y2Ba (gydF4y2Ba 37gydF4y2Ba]gydF4y2Ba 处理器、电源gydF4y2Ba 推理阶段:数据缓存,特定于硬件的代码微调,Tucker-2矩阵分解gydF4y2Ba VGG-Verydeep-16 [gydF4y2Ba 95年gydF4y2Ba有人知道由罗[],gydF4y2Ba 98年gydF4y2Ba]gydF4y2Ba 连续的视觉应用程序gydF4y2Ba ILSVRC2012训练数据集(gydF4y2Ba 99年gydF4y2Ba),2007年帕斯卡VOC训练数据集(gydF4y2Ba One hundred.gydF4y2Ba],UCF101数据集[gydF4y2Ba 101年gydF4y2Ba],莉娜数据集[gydF4y2Ba 102年gydF4y2Ba]gydF4y2Ba
2017-6-23gydF4y2Ba 米gydF4y2Ba ogydF4y2Ba bgydF4y2Ba 我gydF4y2Ba RgydF4y2Ba NgydF4y2Ba NgydF4y2Ba (gydF4y2Ba 64年gydF4y2Ba]gydF4y2Ba 处理器gydF4y2Ba 推理阶段:细粒度代码执行,与GPU并行gydF4y2Ba LSTM模型(gydF4y2Ba 103年gydF4y2Ba]gydF4y2Ba 智能传感gydF4y2Ba 手机传感器数据集(gydF4y2Ba 104年gydF4y2Ba]gydF4y2Ba
2019-2-1gydF4y2Ba dgydF4y2Ba egydF4y2Ba egydF4y2Ba pgydF4y2Ba 年代gydF4y2Ba hgydF4y2Ba 一个gydF4y2Ba rgydF4y2Ba kgydF4y2Ba (gydF4y2Ba 68年gydF4y2Ba]gydF4y2Ba 内存容量gydF4y2Ba 推理阶段:细粒度的内存利用率gydF4y2Ba VGG, CaffeNet [gydF4y2Ba 105年gydF4y2Ba,GoogLeNet AlexNetgydF4y2Ba 成像gydF4y2Ba ILSVRC2012gydF4y2Ba
硬件gydF4y2Ba 2018-10-4gydF4y2Ba (gydF4y2Ba 70年gydF4y2Ba]gydF4y2Ba 计算能力、电力gydF4y2Ba 培训和推理阶段:统一的核心架构,二进制反馈对齐(论坛),动态fixed-point-based行程长度压缩(RLC),辍学控制器gydF4y2Ba MDNet [gydF4y2Ba 106年gydF4y2Ba]gydF4y2Ba 实时跟踪gydF4y2Ba 数据集对象跟踪基准(OTB) (gydF4y2Ba 107年gydF4y2Ba]gydF4y2Ba
2018-9-7gydF4y2Ba (gydF4y2Ba 72年gydF4y2Ba]gydF4y2Ba 计算能力gydF4y2Ba 采用压充电电化学细胞的关系实现遗忘参数,描述了使用离子的运动决策问题gydF4y2Ba Multiarmed土匪问题(MBPs)gydF4y2Ba 强化学习gydF4y2Ba - - - - - -gydF4y2Ba
2018-12-7gydF4y2Ba (gydF4y2Ba 75年gydF4y2Ba]gydF4y2Ba 计算能力gydF4y2Ba 量子计算、模型的相关数据与潜在的概率多体纠缠态的振幅gydF4y2Ba 生成模型gydF4y2Ba 生成模型gydF4y2Ba - - - - - -gydF4y2Ba
2019-2-15gydF4y2Ba (gydF4y2Ba 73年gydF4y2Ba]gydF4y2Ba 计算能力gydF4y2Ba 电化学电池gydF4y2Ba 基于非易失性内存光子矩阵向量乘法gydF4y2Ba 基本的算术操作机器学习和人工智能算法gydF4y2Ba - - - - - -gydF4y2Ba
2019-5-9gydF4y2Ba (gydF4y2Ba 74年gydF4y2Ba]gydF4y2Ba 处理能力、电力gydF4y2Ba 分离数据内存和处理的功能,模拟neurosynaptic系统以一种方式gydF4y2Ba 四个神经元组成的神经网络和60突触(总共140光学元素)gydF4y2Ba 字母识别gydF4y2Ba - - - - - -gydF4y2Ba

除了数学逻辑层,传统的通用数字硬件的桥梁之间的差距数学算法和实际应用。我们所知,最实用的移动/嵌入式DL-based应用程序都是基于传统的硬件。在这种情况下,经典计算优化方法可以采用充分利用计算资源,包括数据缓存、并行化和代码微调。然而,许多现有款设计的人工智能专家,谁的地方很少,甚至没有关注款硬件的适应能力。结果,款可能需要重塑有效地适应特定的硬件设备。针对这一点,我们希望,研究人员可以设计款联合视图的人工智能专家和计算机工程师。gydF4y2Ba

目前,代表计算性能指标包括内存开销,内存访问延迟、并行性(充分利用处理器)和功耗。然而,一些主题仍有待调查。例如,gydF4y2Ba DgydF4y2Ba egydF4y2Ba egydF4y2Ba pgydF4y2Ba 年代gydF4y2Ba hgydF4y2Ba 一个gydF4y2Ba rgydF4y2Ba kgydF4y2Ba 使用外部存储器作为缓存支持细粒度的内存利用率。造成的能耗数据I / O是讨论。此外,缓存大小之间的平衡和缓存命中率也是一个有趣的话题。表gydF4y2Ba 3gydF4y2Ba显示的数据集被用来评价一款根据多个性能指标。这些数据集和相关算法是有利的选择作为基准。gydF4y2Ba

数据集相关的多个性能指标。gydF4y2Ba

性能指标gydF4y2Ba 相关研究工作gydF4y2Ba
UCI ISOLET UCI日常和体育活动gydF4y2Ba 处理器利用率gydF4y2Ba (gydF4y2Ba 40gydF4y2Ba]gydF4y2Ba
内存开销gydF4y2Ba (gydF4y2Ba 39gydF4y2Ba]gydF4y2Ba
电力消耗gydF4y2Ba (gydF4y2Ba 60gydF4y2Ba]gydF4y2Ba

ILSVRC2012gydF4y2Ba 处理器利用率gydF4y2Ba (gydF4y2Ba 37gydF4y2Ba]gydF4y2Ba
电力消耗gydF4y2Ba (gydF4y2Ba 37gydF4y2Ba]gydF4y2Ba
内存开销gydF4y2Ba (gydF4y2Ba 68年gydF4y2Ba]gydF4y2Ba

MNISTgydF4y2Ba 内存开销gydF4y2Ba (gydF4y2Ba 39gydF4y2Ba,gydF4y2Ba 59gydF4y2Ba]gydF4y2Ba
内存访问延迟gydF4y2Ba (gydF4y2Ba 59gydF4y2Ba]gydF4y2Ba
电力消耗gydF4y2Ba (gydF4y2Ba 41gydF4y2Ba]gydF4y2Ba

高光谱遥感场景gydF4y2Ba 处理器利用率gydF4y2Ba (gydF4y2Ba 40gydF4y2Ba]gydF4y2Ba
电力消耗gydF4y2Ba (gydF4y2Ba 60gydF4y2Ba]gydF4y2Ba

然而,传统的通用数字硬件可能仍然低效在某些场景。因此,DL-dedicated数字硬件变得越来越流行,而数字硬件的计算性能面临瓶颈由于物理约束。新一代量子计算等计算技术有前途的解决方案来克服这样的约束。下一代计算技术无疑将促进深度学习的进步即使他们现在正处于初级阶段。gydF4y2Ba

4所示。需要解决的挑战gydF4y2Ba

尽管现有解决方案的前景光明,我们仍然面临着一些需要解决的严峻挑战。gydF4y2Ba

4.1。基本硬件支持革命gydF4y2Ba

模拟计算是一种有希望的技术来促进DL因为DL是宽容的数值错误。然而,模拟计算是一种内存计算并提出了新型非易失存储器的需求材料。Analog-computing-powered DL要求计算机科学家和材料科学家的长期共同努力。gydF4y2Ba

与硬件的其他创新类型相比,模拟计算是暂时的领先地位。模拟阵列技术已经成功地应用于处理常见款数据集(gydF4y2Ba 108年gydF4y2Ba),而其他创新的硬件技术,如光子计算和量子计算仍适用于款(gydF4y2Ba 73年gydF4y2Ba,gydF4y2Ba 75年gydF4y2Ba]。模拟数组的优势在于采用模拟电路来计算矩阵向量乘法与常数时间开销与矩阵的大小无关。然而,这是一个困境来直卷积神经网络映射到传统模拟阵列由于内核矩阵通常很小,是常量时间的乘法操作必须多次迭代顺序。拉希等人并行化的培训通过复制内核矩阵卷积层在不同模拟数组和随机调度部分的计算到阵列上。因此,加速比正比于内核的数量矩阵每层(gydF4y2Ba 106年gydF4y2Ba]。gydF4y2Ba

除了较高的加速比,模拟计算的另一个优点是处理和内存的分裂。在传统的冯诺依曼体系结构,处理单元和记忆是分开的。处理单元之间的数据传输和内存可以使用比传统算术运算数量级的更多的能量。此外,一个典型的深度学习应用程序通常要求巨大的数据传输操作,大幅提高高能源消耗比计算。一个很有前景的解决方案配置处理单元和内存使用相变内存(gydF4y2Ba 109年gydF4y2Ba]。gydF4y2Ba

尽管模拟计算硬件已经表现出潜力优于传统冯诺依曼体系结构的硬件如gpu,大多数现有的研究工作集中在这样的模拟硬件的功能。效率和可靠性稳定性和耐久性等问题尚未调查之前走出实验室真正的应用程序(gydF4y2Ba 110年gydF4y2Ba]。gydF4y2Ba

4.2。更高效的算法解决方案gydF4y2Ba

一些算法解决方案权重矩阵压缩和重量矩阵分解等近似原pretrained神经网络简化。然而,经验的本质DL阻碍解决一个精确的近似误差的理论上限。没有这个上界很难证明这种近似的鲁棒性。此外,由于缺乏理论原则,许多算法需要迭代优化和运行模型来选择最佳的一个。然而,模型参数很大的设计空间。因此,真正实现这种算法技术大规模应用程序可能是一个艰巨的任务,尤其是当我们需要处理hyperparameters大范围之内。gydF4y2Ba

Posttraining简化款可能会导致巨大的错误。此外,大量的参数影响随机梯度下降法实现算法的解决方案。稀疏的训练是一种很有前途的方法来应对这两个问题。gydF4y2Ba

实现高容量的神经网络是一种传统的解决方案来保证低泛化误差。然而,大多数深层神经网络获得高容量通过利用大量的重量,这意味着致密连续层之间的连接。这就解释了原因,许多现有的深层神经网络采用完全连接层。然而,真正的生物神经网络无尺度还明显比最先进的深度学习网络和稀疏连接。灵感来自这个观察,Mocanu等人构建一个稀疏的无尺度网络拓扑与连续两层(gydF4y2Ba 111年gydF4y2Ba]。这种拓扑替代品稀疏层完全连接层之前的训练。稀疏的进化训练方法减少参数的平方,诱导不损失精度。这稀疏的训练方法打开一个方式降低了传统硬件配件深学习障碍。gydF4y2Ba

基于该方法的gydF4y2Ba 111年gydF4y2Ba),刘等人训练一个稀疏MLP与一百万个神经元(多层感知)模型分类微阵列基因(gydF4y2Ba 110年gydF4y2Ba]。这个模型可以被训练101秒的时间内大小,实现低泛化误差比传统模型(数据集:白血病,尺寸:26日1397训练数据样本和699测试数据样本)。gydF4y2Ba

的方法(gydF4y2Ba 111年gydF4y2Ba)主要侧重于建立一个新颖的网络拓扑结构,但仍采用传统的随机梯度下降训练模式gydF4y2Ba 111年gydF4y2Ba]。Dettmers等人利用指数平滑渐变识别层和权重,有效减少稀疏的训练误差模型。因此,该模型收敛速度显著提升。此外,训练网络hyperparameters不敏感。gydF4y2Ba

近年来,数量迅速增加的研究工作正在调查在稀疏的培训款(gydF4y2Ba 112年gydF4y2Ba- - - - - -gydF4y2Ba 116年gydF4y2Ba]。这些研究通常集中于稀疏的几款类型的培训。鉴于款的多样性和复杂性,它是一个非常有价值的挑战性的工作利用稀疏培训各类款在特定的应用程序需求。gydF4y2Ba

4.3。系统的集成gydF4y2Ba

作为讨论的部分gydF4y2Ba 2gydF4y2Ba资源有限的DL无处不在的终极目标部署DL。多样化的应用程序可以提出各种要求无处不在的DL。因此,我们需要系统地整合各种类型的解决方案。gydF4y2Ba

下一代计算与传统数字硬件,硬件应该无缝协作的最终目标的快速进化进化款。gydF4y2Ba

吉尔和绿色认为未来电脑硬件是基于十字路口的三个方面:数学和信息,neuron-inspired生物学和信息,和物理和信息。这些十字路口给数字计算的概念,神经计算,分别和量子计算。吉尔和绿色表示这三个概念,神经元,分别和量子位。如图gydF4y2Ba 4gydF4y2Ba下一代AI-enabled计算系统需要集成的三个(gydF4y2Ba 117年gydF4y2Ba]。在这个图中,我们采用量子计算(量子比特)来代表未来的计算范例。模拟计算等新型计算范例也应该考虑。我们详细讨论这种集成如下。gydF4y2Ba

建立下一代AI-enabled计算系统路线图。gydF4y2Ba

4.3.1。数字计算gydF4y2Ba

数字计算的优势在于其稳定自然二进制。相同的二进制输入,数字计算系统应该产生相同的输出。这种性质是构建健壮和稳定系统的基础进行数据存储和处理。经典数字计算仍然是一个有效的解决方案不仅数学和逻辑运算,而且持久数据存储。在未来计算系统、数字计算仍将占据不可或缺的地位由于其健壮和可靠的性质。gydF4y2Ba

4.3.2。神经元计算gydF4y2Ba

尽管数字计算的优势,当前DNN-based人工智能方法需要重塑甚至创新这种计算模式。人工智能在过去十年里取得了巨大的进步。AI仍在狭窄的AI的阶段,要求大量的手动标记数据获取知识的专门任务。在下一阶段,我们期待广大AI能够自适应地和自主适应多样化的各种领域的任务。狭义人工智能已经计算昂贵的巨大的场景。广泛的愿景AI甚至会加剧计算的困境。构建高效的计算系统等人工智能工作负载需要的创新再造工程材料、架构和软件。gydF4y2Ba

第一类的解决AI-specific计算系统容错的本质源于统计和深入学习。这样的解决方案牺牲数值精度的计算性能,但一般不能实现类似甚至相同的分类精度的实现(gydF4y2Ba 118年gydF4y2Ba- - - - - -gydF4y2Ba 121年gydF4y2Ba]。我们将见证一个连续下降的精度要求培训和推断未来十年款。这种趋势是由不断翻新AI-specific数字硬件和匹配算法,这将导致在人工智能硬件的性能显著改善。gydF4y2Ba

以前讨论的,另一种解决方案的想法在于消除处理单元之间数据传输的开销和内存。gydF4y2Ba

我们可以想象的高要求提高DNN-based AI在不久的将来。量子计算享受最大的计算能力在几乎所有现有的计算范例,从而有可能提高high-time-complexity深度学习应用程序的其他计算范例。gydF4y2Ba

4.3.3。量子计算gydF4y2Ba

量子计算生成一个量子位(量子比特)的指数状态空间探索量子叠加和纠缠。计算能力指数尺度的量子比特:另一个量子位意味着计算能力翻了一番。原型的量子计算机实验室的硬件供应商像IBM这样的(gydF4y2Ba 122年gydF4y2Ba,gydF4y2Ba 123年gydF4y2Ba]。下一个话题是桥之间的差距技术原型和真实的应用程序中。例如,量子纠错(QEC)编码的容错量子计算是不可或缺的。量子计算机将成为未来AI-enabled计算系统的核心加速器。然而,目前,构建容错量子计算的成本超出了合理的范围gydF4y2Ba 124年gydF4y2Ba]。进一步深入调查迫在眉睫。gydF4y2Ba

4.3.4。集成的神经元,量子位元gydF4y2Ba

正如上面提到的,一个deep-learning-enabled计算系统依赖于三个基石:数字计算(位)、神经计算(神经元)和量子计算(量子比特)。系统解决方案computational-resource-limited深度学习需要集成的比特,神经元,量子位元。位可以提供基本的数据存储和底层硬件的可靠性保证。然而,单独位只能支持特定的编程任务,狭窄的目的。将神经元与位生成窄AI甚至广泛的人工智能,它不仅可以提炼深刻的知识从难以想象的巨大的数据还帮助人类协作和更人性化的方式。各种科学和工程问题希望得到解决的协助下人工智能。神经网络的核心原则是搜索一个函数的假设空间网络,因此一个类别的样本映射到一个相应的输出标签。由于大型科学和工程问题的规模和复杂性,一个典型的神经网络必然需要高容量来生成一个大假设空间。一个很大的假设空间可能有助于降低泛化误差。然而,一个大假设空间意味着更多的自由度和需求很长时间让stochastic-gradient-descent-impelled反向传播找到一个近似最优的解决方案。 The exponentially scaling computing power just matches the time overhead of the similar order of magnitude.

数字硬件GPGPU和FPGA目前占主流款的加速器。耗时的手动微调并行代码是不可避免的操作来实现最优性能,对于每一个“model-GPGPU款类型”。因此,digital-hardware-accelerated DL面临障碍和敏捷编程效率。此外,开发工具包analog-computing-enabled或quantum-computing-based深学习无疑是一个本质有一天当我们回归模拟计算机或量子计算机向调查人员,程序员,和计算资源提供者。gydF4y2Ba

5。结论gydF4y2Ba

在本文中,我们调查的典型解决方案资源有限的深度学习和指出开放的问题。gydF4y2Ba

特定场景下现有解决方案取得了成功。然而,我们预期未来的突破在以下两个方面。第一个方面是专用硬件。大多数现有的解决方案依赖于通用的数字硬件。专用硬件,考虑独特的深度学习的特点,是一种很有前途的方向来实现进一步的性能改进。第二个方面是深度学习的理论原则。简化款几乎是不可避免的方法,以减少资源消耗。尽管如此,目前这种方法依赖于经验和迭代优化。此外,简化不是理论上的可靠性保证。澄清的理论深度学习将使更有效的简化原则,保证鲁棒性。gydF4y2Ba

信息披露gydF4y2Ba

资助者没有作用的设计研究;在收集、分析或解释数据;写的手稿;或决定发布结果。gydF4y2Ba

的利益冲突gydF4y2Ba

作者宣称没有利益冲突。gydF4y2Ba

作者的贡献gydF4y2Ba

陈Chunlei概念化。姜堰戴和慧慧张负责资源。彭Chunlei陈和张准备初稿。Huixiang张Yugen咦,张Yonghui审查和编辑手稿。gydF4y2Ba

确认gydF4y2Ba

这项工作得到了以下研究资金:中国国家自然科学基金(31872847,31872847,71661015),工业大学合作教育项目获得中国教育部(201802217002),计划13日五年计划的项目中国信息产业协会教育分支(ZXXJ2019019),山东省自然科学基金(ZR2019PF023),山东省高等教育科技项目(J18KA130和J16LN56),潍坊的科技发展项目(2017年2019 gx009 2018 gx004, gx002),关键技术研发项目四川省和成都市(szjj2015 - 054),潍坊大学的博士项目(2016 bs03和2015 bs11),和人们受益科技计划项目的潍坊高新技术区(2019 kjhm13)。gydF4y2Ba

刘gydF4y2Ba W。gydF4y2Ba 王gydF4y2Ba Z。gydF4y2Ba 刘gydF4y2Ba X。gydF4y2Ba 曾gydF4y2Ba N。gydF4y2Ba 刘gydF4y2Ba Y。gydF4y2Ba AlsaadigydF4y2Ba f·E。gydF4y2Ba 深入的调查神经网络体系结构及其应用gydF4y2Ba NeurocomputinggydF4y2Ba 2017年gydF4y2Ba 234年gydF4y2Ba 11gydF4y2Ba 26gydF4y2Ba 10.1016 / j.neucom.2016.12.038gydF4y2Ba 2 - s2.0 - 85010651075gydF4y2Ba 林gydF4y2Ba h·W。gydF4y2Ba 铁马克gydF4y2Ba M。gydF4y2Ba RolnickgydF4y2Ba D。gydF4y2Ba 为什么深和廉价的学习工作很好吗?gydF4y2Ba 统计物理学杂志gydF4y2Ba 2017年gydF4y2Ba 168年gydF4y2Ba 6gydF4y2Ba 1223年gydF4y2Ba 1247年gydF4y2Ba 10.1007 / s10955 - 017 - 1836 - 5gydF4y2Ba 2 - s2.0 - 85025445900gydF4y2Ba 梵天gydF4y2Ba P P。gydF4y2Ba 吴gydF4y2Ba D。gydF4y2Ba 她gydF4y2Ba Y。gydF4y2Ba 为什么深度学习工作:歧管解开纠结的角度gydF4y2Ba IEEE神经网络和学习系统gydF4y2Ba 2016年gydF4y2Ba 27gydF4y2Ba 10gydF4y2Ba 1997年gydF4y2Ba 2008年gydF4y2Ba 10.1109 / tnnls.2015.2496947gydF4y2Ba 2 - s2.0 - 84949843707gydF4y2Ba 贝耳gydF4y2Ba Y。gydF4y2Ba RobinegydF4y2Ba M。gydF4y2Ba 汉娜gydF4y2Ba P。gydF4y2Ba 缎:持续的音乐为音乐信息检索和数据库支持深度学习实验仪器分类歌曲gydF4y2Ba 多媒体工具和应用程序gydF4y2Ba 2019年gydF4y2Ba 78年gydF4y2Ba 3gydF4y2Ba 2703年gydF4y2Ba 2718年gydF4y2Ba 10.1007 / s11042 - 018 - 5797 - 8gydF4y2Ba 2 - s2.0 - 85042612953gydF4y2Ba 徐gydF4y2Ba B。gydF4y2Ba 蔡gydF4y2Ba R。gydF4y2Ba 张gydF4y2Ba Z。gydF4y2Ba NADAQ:自然语言数据库查询基于深度学习gydF4y2Ba IEEE访问gydF4y2Ba 2019年gydF4y2Ba 7gydF4y2Ba 35012年gydF4y2Ba 35017年gydF4y2Ba 10.1109 / access.2019.2904720gydF4y2Ba 2 - s2.0 - 85063882198gydF4y2Ba SwaminathangydF4y2Ba r . V。gydF4y2Ba 我们针对gydF4y2Ba 一个。gydF4y2Ba 提高嗓音分离使用attribute-aware深网络gydF4y2Ba 《2019年国际研讨会上多层音乐表示和处理(MMRP)gydF4y2Ba 2019年gydF4y2Ba 米兰,意大利gydF4y2Ba IEEEgydF4y2Ba 60gydF4y2Ba 65年gydF4y2Ba 10.1109 / mmrp.2019.00019gydF4y2Ba 侯赛因gydF4y2Ba m . S。gydF4y2Ba Al-HammadigydF4y2Ba M。gydF4y2Ba 默罕默德gydF4y2Ba G。gydF4y2Ba 自动水果分类为工业应用使用深度学习gydF4y2Ba IEEE工业信息gydF4y2Ba 2019年gydF4y2Ba 15gydF4y2Ba 2gydF4y2Ba 1027年gydF4y2Ba 1034年gydF4y2Ba 10.1109 / tii.2018.2875149gydF4y2Ba 2 - s2.0 - 85054654056gydF4y2Ba GarggydF4y2Ba 年代。gydF4y2Ba 考尔gydF4y2Ba K。gydF4y2Ba 库马尔gydF4y2Ba N。gydF4y2Ba 罗德里格斯gydF4y2Ba j·j·p·C。gydF4y2Ba 混合deep-learning-based异常检测方案在SDN可疑流量检测:一个社会多媒体的视角gydF4y2Ba IEEE多媒体gydF4y2Ba 2019年gydF4y2Ba 21gydF4y2Ba 3gydF4y2Ba 566年gydF4y2Ba 578年gydF4y2Ba 10.1109 / tmm.2019.2893549gydF4y2Ba 2 - s2.0 - 85062461928gydF4y2Ba 黄gydF4y2Ba Z。gydF4y2Ba 唐gydF4y2Ba J。gydF4y2Ba 山gydF4y2Ba G。gydF4y2Ba 倪gydF4y2Ba J。gydF4y2Ba 程ydF4y2Ba Y。gydF4y2Ba 王gydF4y2Ba C。gydF4y2Ba 一个高效passenger-hunting推荐框架与多任务学习gydF4y2Ba IEEE物联网gydF4y2Ba 2019年gydF4y2Ba 6gydF4y2Ba 5gydF4y2Ba 7713年gydF4y2Ba 7721年gydF4y2Ba 10.1109 / jiot.2019.2901759gydF4y2Ba 2 - s2.0 - 85072766189gydF4y2Ba 曾gydF4y2Ba M。gydF4y2Ba 李gydF4y2Ba M。gydF4y2Ba 范gydF4y2Ba Z。gydF4y2Ba 深学习框架,确定必要的蛋白质通过整合多种类型的生物信息gydF4y2Ba IEEE / ACM事务计算生物学和生物信息学gydF4y2Ba 2019年gydF4y2Ba 1gydF4y2Ba 10.1109 / tcbb.2019.2897679gydF4y2Ba PasagydF4y2Ba F。gydF4y2Ba GolkovgydF4y2Ba V。gydF4y2Ba 普费弗gydF4y2Ba F。gydF4y2Ba 克莱莫gydF4y2Ba D。gydF4y2Ba 普费弗gydF4y2Ba D。gydF4y2Ba 有效深层网络架构的快速胸部x光片结核病筛查和可视化gydF4y2Ba 科学报告gydF4y2Ba 2019年gydF4y2Ba 9gydF4y2Ba 1gydF4y2Ba 6268年gydF4y2Ba 10.1038 / s41598 - 019 - 42557 - 4gydF4y2Ba 2 - s2.0 - 85064564680gydF4y2Ba 李gydF4y2Ba K。gydF4y2Ba 丹尼尔斯gydF4y2Ba J。gydF4y2Ba 刘gydF4y2Ba C。gydF4y2Ba 对葡萄糖卷积递归神经网络预测gydF4y2Ba IEEE生物医学和卫生信息学杂志》上gydF4y2Ba 2019年gydF4y2Ba 24gydF4y2Ba 2gydF4y2Ba 603年gydF4y2Ba 613年gydF4y2Ba 10.1109 / jbhi.2019.2908488gydF4y2Ba RamcharangydF4y2Ba 一个。gydF4y2Ba 麦克洛斯基gydF4y2Ba P。gydF4y2Ba 巴拉诺维斯基gydF4y2Ba K。gydF4y2Ba 木薯疾病诊断的手机深度学习模型gydF4y2Ba 植物科学前沿gydF4y2Ba 2019年gydF4y2Ba 10gydF4y2Ba 272年gydF4y2Ba 10.3389 / fpls.2019.00272gydF4y2Ba 2 - s2.0 - 85064205542gydF4y2Ba ReichsteingydF4y2Ba M。gydF4y2Ba Camps-VallsgydF4y2Ba G。gydF4y2Ba 史蒂文斯gydF4y2Ba B。gydF4y2Ba 深度学习和过程理解为数据驱动的地球系统科学gydF4y2Ba 自然gydF4y2Ba 2019年gydF4y2Ba 566年gydF4y2Ba 7743年gydF4y2Ba 195年gydF4y2Ba 204年gydF4y2Ba 10.1038 / s41586 - 019 - 0912 - 1gydF4y2Ba 2 - s2.0 - 85061562147gydF4y2Ba ThuruthelgydF4y2Ba t·G。gydF4y2Ba 施gydF4y2Ba B。gydF4y2Ba LaschigydF4y2Ba C。gydF4y2Ba 击发弹gydF4y2Ba m . T。gydF4y2Ba 软机器人感知使用嵌入式软传感器和复发性神经网络gydF4y2Ba 科学的机器人gydF4y2Ba 2019年gydF4y2Ba 4gydF4y2Ba 6gydF4y2Ba eaav1488gydF4y2Ba 10.1126 / scirobotics.aav1488gydF4y2Ba 郑gydF4y2Ba W。gydF4y2Ba 王gydF4y2Ba h . B。gydF4y2Ba 张gydF4y2Ba z . M。gydF4y2Ba 多层前馈神经网络深度学习控制混合位置和virtual-force移动机器人避障算法gydF4y2Ba 国际期刊的控制、自动化和系统gydF4y2Ba 2019年gydF4y2Ba 17gydF4y2Ba 4gydF4y2Ba 1007年gydF4y2Ba 1018年gydF4y2Ba 10.1007 / s12555 - 018 - 0140 - 8gydF4y2Ba 2 - s2.0 - 85061993385gydF4y2Ba HeogydF4y2Ba y . J。gydF4y2Ba 金gydF4y2Ba D。gydF4y2Ba 李gydF4y2Ba W。gydF4y2Ba 碰撞检测在工业机器人协作:深度学习的方法gydF4y2Ba IEEE机器人与自动化信件gydF4y2Ba 2019年gydF4y2Ba 4gydF4y2Ba 2gydF4y2Ba 740年gydF4y2Ba 746年gydF4y2Ba 10.1109 / lra.2019.2893400gydF4y2Ba 2 - s2.0 - 85063311700gydF4y2Ba NirouigydF4y2Ba F。gydF4y2Ba 张gydF4y2Ba K。gydF4y2Ba KashinogydF4y2Ba Z。gydF4y2Ba 深入强化学习机器人搜救应用:探索未知的杂乱的环境中gydF4y2Ba 机器人与自动化EEE信件gydF4y2Ba 2019年gydF4y2Ba 4gydF4y2Ba 2gydF4y2Ba 610年gydF4y2Ba 617年gydF4y2Ba 10.1109 / lra.2019.2891991gydF4y2Ba 2 - s2.0 - 85063312155gydF4y2Ba 丁gydF4y2Ba F。gydF4y2Ba 张gydF4y2Ba Z。gydF4y2Ba 周gydF4y2Ba Y。gydF4y2Ba 程ydF4y2Ba X。gydF4y2Ba 跑gydF4y2Ba B。gydF4y2Ba 大规模基尼交通速度估计在极端的交通状况下使用大数据和深度学习方法:案例研究在中国gydF4y2Ba 交通运输工程学报,一个部分:系统gydF4y2Ba 2019年gydF4y2Ba 145年gydF4y2Ba 5gydF4y2Ba 05019001gydF4y2Ba 10.1061 / jtepbs.0000230gydF4y2Ba MochizukigydF4y2Ba D。gydF4y2Ba AbikogydF4y2Ba Y。gydF4y2Ba 斋藤gydF4y2Ba T。gydF4y2Ba IkedagydF4y2Ba D。gydF4y2Ba MinenogydF4y2Ba H。gydF4y2Ba Delay-tolerance-based移动数据卸载使用强化学习gydF4y2Ba 传感器gydF4y2Ba 2019年gydF4y2Ba 19gydF4y2Ba 7gydF4y2Ba 1674年gydF4y2Ba 10.3390 / s19071674gydF4y2Ba 2 - s2.0 - 85064722678gydF4y2Ba 叶gydF4y2Ba H。gydF4y2Ba 李gydF4y2Ba g . Y。gydF4y2Ba JuanggydF4y2Ba b·h·F。gydF4y2Ba 深V2V通信基于强化学习的资源分配gydF4y2Ba IEEE车辆技术gydF4y2Ba 2019年gydF4y2Ba 68年gydF4y2Ba 4gydF4y2Ba 3163年gydF4y2Ba 3173年gydF4y2Ba 10.1109 / tvt.2019.2897134gydF4y2Ba 2 - s2.0 - 85064719101gydF4y2Ba 叶gydF4y2Ba H。gydF4y2Ba 李gydF4y2Ba g . Y。gydF4y2Ba 深V2V广播基于强化学习的分布式资源分配gydF4y2Ba 学报》2018年第14届国际无线通信和移动计算会议(IWCMC)gydF4y2Ba 2018年gydF4y2Ba 堪萨斯城,密苏里州,美国gydF4y2Ba 440年gydF4y2Ba 445年gydF4y2Ba 10.1109 / iwcmc.2018.8450518gydF4y2Ba 2 - s2.0 - 85053929598gydF4y2Ba 李gydF4y2Ba W。gydF4y2Ba 锅gydF4y2Ba c·W。gydF4y2Ba 张gydF4y2Ba R。gydF4y2Ba 法。:增强自主驾驶模拟使用数据驱动算法gydF4y2Ba 科学的机器人gydF4y2Ba 2019年gydF4y2Ba 4gydF4y2Ba 28gydF4y2Ba eaaw0863gydF4y2Ba 10.1126 / scirobotics.aaw0863gydF4y2Ba 2 - s2.0 - 85063665475gydF4y2Ba AldossarigydF4y2Ba s M。gydF4y2Ba 程ydF4y2Ba K.-C。gydF4y2Ba 机器学习无线通信信道建模:概述gydF4y2Ba 无线个人通信gydF4y2Ba 2019年gydF4y2Ba 106年gydF4y2Ba 1gydF4y2Ba 46gydF4y2Ba 70年gydF4y2Ba 10.1007 / s11277 - 019 - 06275 - 4gydF4y2Ba 2 - s2.0 - 85063324919gydF4y2Ba 气gydF4y2Ba X。gydF4y2Ba 罗gydF4y2Ba Y。gydF4y2Ba 吴gydF4y2Ba G。gydF4y2Ba BoriboonsomsingydF4y2Ba K。gydF4y2Ba 巴斯gydF4y2Ba M。gydF4y2Ba 深入强化学习启用自学习控制节能驾驶gydF4y2Ba 交通研究部分C:新兴技术gydF4y2Ba 2019年gydF4y2Ba 99年gydF4y2Ba 67年gydF4y2Ba 81年gydF4y2Ba 10.1016 / j.trc.2018.12.018gydF4y2Ba 2 - s2.0 - 85059918004gydF4y2Ba 李gydF4y2Ba D。gydF4y2Ba 赵gydF4y2Ba D。gydF4y2Ba 张gydF4y2Ba Q。gydF4y2Ba 程ydF4y2Ba Y。gydF4y2Ba 强化学习和基于深度学习的横向控制自动驾驶(应用笔记)gydF4y2Ba IEEE计算机情报杂志gydF4y2Ba 2019年gydF4y2Ba 14gydF4y2Ba 2gydF4y2Ba 83年gydF4y2Ba 98年gydF4y2Ba 10.1109 / mci.2019.2901089gydF4y2Ba 2 - s2.0 - 85064603122gydF4y2Ba 海德尔gydF4y2Ba k . Z。gydF4y2Ba 马利克gydF4y2Ba k·R。gydF4y2Ba 哈立德gydF4y2Ba 年代。gydF4y2Ba 纳瓦兹gydF4y2Ba T。gydF4y2Ba -贾巴尔gydF4y2Ba 年代。gydF4y2Ba Deepgender:实时性别分类为智能手机使用深度学习gydF4y2Ba 实时图像处理》杂志上gydF4y2Ba 2019年gydF4y2Ba 16gydF4y2Ba 1gydF4y2Ba 15gydF4y2Ba 29日gydF4y2Ba 10.1007 / s11554 - 017 - 0714 - 3gydF4y2Ba 2 - s2.0 - 85029424061gydF4y2Ba EstevagydF4y2Ba 一个。gydF4y2Ba RobicquetgydF4y2Ba 一个。gydF4y2Ba RamsundargydF4y2Ba B。gydF4y2Ba 深度学习医疗指南gydF4y2Ba 自然医学gydF4y2Ba 2019年gydF4y2Ba 25gydF4y2Ba 1gydF4y2Ba 24gydF4y2Ba 29日gydF4y2Ba 10.1038 / s41591 - 018 - 0316 - zgydF4y2Ba 2 - s2.0 - 85059762330gydF4y2Ba KanjogydF4y2Ba E。gydF4y2Ba 埃曼gydF4y2Ba m·g . Y。gydF4y2Ba 齐川阳gydF4y2Ba 美国一个。gydF4y2Ba 深度学习分析移动生理、环境和情感的位置传感器数据检测gydF4y2Ba 信息融合gydF4y2Ba 2019年gydF4y2Ba 49gydF4y2Ba 46gydF4y2Ba 56gydF4y2Ba 10.1016 / j.inffus.2018.09.001gydF4y2Ba 2 - s2.0 - 85054071151gydF4y2Ba 钟gydF4y2Ba 年代。gydF4y2Ba LimgydF4y2Ba J。gydF4y2Ba 能剧gydF4y2Ba k·J。gydF4y2Ba 金gydF4y2Ba G。gydF4y2Ba 宋gydF4y2Ba H。gydF4y2Ba 传感器数据采集和多通道传感器融合人类活动识别使用深度学习gydF4y2Ba 传感器gydF4y2Ba 2019年gydF4y2Ba 19gydF4y2Ba 7gydF4y2Ba 1716年gydF4y2Ba 10.3390 / s19071716gydF4y2Ba 2 - s2.0 - 85064814462gydF4y2Ba MehmoodgydF4y2Ba F。gydF4y2Ba UllahgydF4y2Ba 我。gydF4y2Ba 艾哈迈德gydF4y2Ba 年代。gydF4y2Ba 金gydF4y2Ba D。gydF4y2Ba 对象检测机制基于深度学习算法使用嵌入式物联网设备的智能家电控制在床gydF4y2Ba 环境智能和人性化计算杂志》上gydF4y2Ba 2019年gydF4y2Ba 10gydF4y2Ba 10.1007 / s12652 - 019 - 01272 - 8gydF4y2Ba 徐gydF4y2Ba M。gydF4y2Ba 钱gydF4y2Ba F。gydF4y2Ba 朱gydF4y2Ba M。gydF4y2Ba 黄gydF4y2Ba F。gydF4y2Ba PushpgydF4y2Ba 年代。gydF4y2Ba 刘gydF4y2Ba X。gydF4y2Ba DeepWear:自适应当地卸载on-wearable深度学习gydF4y2Ba IEEE移动计算gydF4y2Ba 2020年gydF4y2Ba 19gydF4y2Ba 1gydF4y2Ba 314年gydF4y2Ba 330年gydF4y2Ba 10.1109 / tmc.2019.2893250gydF4y2Ba AlelaiwigydF4y2Ba 一个。gydF4y2Ba 一个有效的方法计算卸载的云平台的优势gydF4y2Ba 杂志的并行和分布式计算gydF4y2Ba 2019年gydF4y2Ba 127年gydF4y2Ba 58gydF4y2Ba 64年gydF4y2Ba 10.1016 / j.jpdc.2019.01.003gydF4y2Ba 2 - s2.0 - 85060913057gydF4y2Ba 车道gydF4y2Ba n D。gydF4y2Ba 巴塔查里亚gydF4y2Ba 年代。gydF4y2Ba 吉奥吉夫gydF4y2Ba P。gydF4y2Ba ForlivesigydF4y2Ba C。gydF4y2Ba KawsargydF4y2Ba F。gydF4y2Ba 深度学习的早期资源描述在衣物上,智能手机和物联网设备gydF4y2Ba 学报2015年国际物联网对Applications-IoT-App研讨会”15gydF4y2Ba 2015年gydF4y2Ba 首尔,韩国gydF4y2Ba ACMgydF4y2Ba 7gydF4y2Ba 12gydF4y2Ba 10.1145/2820975.2820980gydF4y2Ba 2 - s2.0 - 84961165404gydF4y2Ba AffoltergydF4y2Ba R。gydF4y2Ba 艾格特gydF4y2Ba 年代。gydF4y2Ba SieberthgydF4y2Ba T。gydF4y2Ba 大盘菜gydF4y2Ba M。gydF4y2Ba 艾伯特gydF4y2Ba l . C。gydF4y2Ba 应用增强现实技术在法医autopsy-Microsoft全息透镜作为DICOM查看器gydF4y2Ba 法医放射学杂志》和成像gydF4y2Ba 2019年gydF4y2Ba 16gydF4y2Ba 5gydF4y2Ba 8gydF4y2Ba 10.1016 / j.jofri.2018.11.003gydF4y2Ba 2 - s2.0 - 85058207256gydF4y2Ba 王gydF4y2Ba 学术界。gydF4y2Ba 蔡gydF4y2Ba N.-H。gydF4y2Ba 陆gydF4y2Ba 人类。gydF4y2Ba 王gydF4y2Ba 蔡明俊。J。gydF4y2Ba 教学应用程序的可用性评估基于谷歌眼镜的手机拆卸的任务gydF4y2Ba 应用人体工程学gydF4y2Ba 2019年gydF4y2Ba 77年gydF4y2Ba 58gydF4y2Ba 69年gydF4y2Ba 10.1016 / j.apergo.2019.01.007gydF4y2Ba 2 - s2.0 - 85060572243gydF4y2Ba 黄齐的gydF4y2Ba l . N。gydF4y2Ba 李gydF4y2Ba Y。gydF4y2Ba 巴兰gydF4y2Ba r·K。gydF4y2Ba Deepmon:移动基于gpu的深度学习框架连续视觉应用gydF4y2Ba 美国第15届国际会议在移动系统中,应用程序和服务gydF4y2Ba 2017年gydF4y2Ba 尼亚加拉大瀑布,纽约,美国gydF4y2Ba ACMgydF4y2Ba 82年gydF4y2Ba 95年gydF4y2Ba 10.1145/3081333.3081360gydF4y2Ba 2 - s2.0 - 85026268407gydF4y2Ba 劳伦斯gydF4y2Ba 年代。gydF4y2Ba 贾尔斯gydF4y2Ba c . L。gydF4y2Ba TsoigydF4y2Ba a . C。gydF4y2Ba 神经网络给出了最优泛化什么尺寸的?反向传播的收敛性能gydF4y2Ba 1998年gydF4y2Ba 普林斯顿,纽约,美国gydF4y2Ba NEC研究院gydF4y2Ba 技术报告gydF4y2Ba 越南盾gydF4y2Ba M。gydF4y2Ba 温gydF4y2Ba 年代。gydF4y2Ba 曾gydF4y2Ba F。gydF4y2Ba 杨ydF4y2Ba Z。gydF4y2Ba 黄gydF4y2Ba T。gydF4y2Ba 稀疏完全卷积网络标签gydF4y2Ba NeurocomputinggydF4y2Ba 2019年gydF4y2Ba 331年gydF4y2Ba 28gydF4y2Ba 465年gydF4y2Ba 472年gydF4y2Ba 10.1016 / j.neucom.2018.11.079gydF4y2Ba 2 - s2.0 - 85057979107gydF4y2Ba RouhanigydF4y2Ba b D。gydF4y2Ba MirhoseinigydF4y2Ba 一个。gydF4y2Ba 高级gydF4y2Ba F。gydF4y2Ba 深gydF4y2Ba3gydF4y2Ba:利用三个级别的并行高效深度学习gydF4y2Ba 第54届设计自动化研讨会论文集2017 on-DAC 17gydF4y2Ba 2017年gydF4y2Ba 美国奥斯汀,得克萨斯州gydF4y2Ba ACMgydF4y2Ba 61年gydF4y2Ba 10.1145/3061639.3062225gydF4y2Ba 2 - s2.0 - 85023611680gydF4y2Ba 斯坦姆利斯gydF4y2Ba D。gydF4y2Ba 蔡gydF4y2Ba E。gydF4y2Ba JuangydF4y2Ba 华盛顿特区。gydF4y2Ba 虽然玛卡里斯库gydF4y2Ba D。gydF4y2Ba 超级强国:权力内存受限的hyper-parameter优化神经网络gydF4y2Ba 学报2018年设计、自动化和测试在欧洲会议与展览(日期)gydF4y2Ba 2018年gydF4y2Ba 德国德累斯顿gydF4y2Ba IEEEgydF4y2Ba 19gydF4y2Ba 24gydF4y2Ba 10.23919 / date.2018.8341973gydF4y2Ba 2 - s2.0 - 85048808855gydF4y2Ba 哈尼夫gydF4y2Ba m·A。gydF4y2Ba JavedgydF4y2Ba m . U。gydF4y2Ba 哈菲兹gydF4y2Ba R。gydF4y2Ba 拉赫曼gydF4y2Ba 年代。gydF4y2Ba ShafiquegydF4y2Ba M。gydF4y2Ba 硬件软件深层神经网络近似gydF4y2Ba 近似的电路gydF4y2Ba 2019年gydF4y2Ba 柏林,德国gydF4y2Ba 施普林格gydF4y2Ba 269年gydF4y2Ba 288年gydF4y2Ba ShawahnagydF4y2Ba 一个。gydF4y2Ba 我们gydF4y2Ba s M。gydF4y2Ba El-MalehgydF4y2Ba 一个。gydF4y2Ba fpga加速器深度学习的网络学习和分类:复习一下gydF4y2Ba IEEE访问gydF4y2Ba 2018年gydF4y2Ba 7gydF4y2Ba 7823年gydF4y2Ba 7859年gydF4y2Ba 10.1109 / access.2018.2890150gydF4y2Ba 2 - s2.0 - 85060704974gydF4y2Ba 胫骨gydF4y2Ba D。gydF4y2Ba 柳gydF4y2Ba 周宏儒。gydF4y2Ba 异构深层神经网络处理器non-von诺伊曼体系结构gydF4y2Ba IEEE学报》gydF4y2Ba 2019年gydF4y2Ba 1gydF4y2Ba 16gydF4y2Ba 10.1109 / jproc.2019.2897076gydF4y2Ba 2 - s2.0 - 85062410003gydF4y2Ba SchuikigydF4y2Ba F。gydF4y2Ba 夏弗纳gydF4y2Ba M。gydF4y2Ba GurkaynakgydF4y2Ba f·K。gydF4y2Ba BeninigydF4y2Ba lgydF4y2Ba 一个可伸缩的near-memory架构培训深层神经网络在大内存中的数据集gydF4y2Ba IEEE计算机gydF4y2Ba 2019年gydF4y2Ba 68年gydF4y2Ba 4gydF4y2Ba 484年gydF4y2Ba 497年gydF4y2Ba AzarkhishgydF4y2Ba E。gydF4y2Ba 罗西gydF4y2Ba D。gydF4y2Ba 合作意向书gydF4y2Ba 我。gydF4y2Ba BeninigydF4y2Ba lgydF4y2Ba Neurostream:可伸缩和节能与智能记忆深度学习方块gydF4y2Ba IEEE并行和分布式系统gydF4y2Ba 2018年gydF4y2Ba 29日gydF4y2Ba 2gydF4y2Ba 420年gydF4y2Ba 434年gydF4y2Ba 10.1109 / tpds.2017.2752706gydF4y2Ba 2 - s2.0 - 85030640525gydF4y2Ba FuketagydF4y2Ba H。gydF4y2Ba FuketagydF4y2Ba H。gydF4y2Ba IkegamigydF4y2Ba T。gydF4y2Ba Image-classifier深9-bit卷积神经网络训练的专用硬件实现验证准确性和能源效率优于半精度浮点格式gydF4y2Ba 学报2018年IEEE国际研讨会(ISCAS)电路和系统gydF4y2Ba 2018年gydF4y2Ba 意大利的佛罗伦萨gydF4y2Ba IEEEgydF4y2Ba 1gydF4y2Ba 5gydF4y2Ba 10.1109 / iscas.2018.8350953gydF4y2Ba 2 - s2.0 - 85057093880gydF4y2Ba 坦恩gydF4y2Ba H。gydF4y2Ba HashemigydF4y2Ba 年代。gydF4y2Ba 里达gydF4y2Ba 年代。gydF4y2Ba 轻量级的深层神经网络加速器使用近似SW / HW技术gydF4y2Ba 近似的电路gydF4y2Ba 2019年gydF4y2Ba 可汗、瑞士gydF4y2Ba 施普林格gydF4y2Ba 289年gydF4y2Ba 305年gydF4y2Ba 霍华德gydF4y2Ba a·G。gydF4y2Ba 朱gydF4y2Ba M。gydF4y2Ba 程ydF4y2Ba B。gydF4y2Ba Mobilenets:高效的移动视觉应用卷积神经网络gydF4y2Ba 2017年gydF4y2Ba https://arxiv.org/abs/1704.04861gydF4y2Ba CholletgydF4y2Ba F。gydF4y2Ba Xception:深度学习与切除可分离旋转gydF4y2Ba 《IEEE计算机视觉与模式识别会议gydF4y2Ba 2017年gydF4y2Ba 美国檀香山,嗨gydF4y2Ba IEEEgydF4y2Ba 1251年gydF4y2Ba 1258年gydF4y2Ba 10.1109 / cvpr.2017.195gydF4y2Ba 2 - s2.0 - 85040604274gydF4y2Ba VasudevangydF4y2Ba 一个。gydF4y2Ba 安德森gydF4y2Ba 一个。gydF4y2Ba 格雷格gydF4y2Ba D。gydF4y2Ba 并行多信道卷积使用一般的矩阵乘法gydF4y2Ba 学报2017年IEEE 28日国际会议上特定于应用程序的系统体系结构和处理器(尽快)gydF4y2Ba 2017年7月gydF4y2Ba 美国西雅图,华盛顿州gydF4y2Ba IEEEgydF4y2Ba 19gydF4y2Ba 24gydF4y2Ba 10.1109 / asap.2017.7995254gydF4y2Ba 2 - s2.0 - 85028032883gydF4y2Ba 越南盾gydF4y2Ba M。gydF4y2Ba 温gydF4y2Ba 年代。gydF4y2Ba 曾gydF4y2Ba Z。gydF4y2Ba 杨ydF4y2Ba Z。gydF4y2Ba 黄gydF4y2Ba T。gydF4y2Ba 稀疏完全卷积网络标签gydF4y2Ba NeurocomputinggydF4y2Ba 2019年gydF4y2Ba 331年gydF4y2Ba 28gydF4y2Ba 465年gydF4y2Ba 472年gydF4y2Ba 10.1016 / j.neucom.2018.11.079gydF4y2Ba 2 - s2.0 - 85057979107gydF4y2Ba 车道gydF4y2Ba n D。gydF4y2Ba 巴塔查里亚gydF4y2Ba 年代。gydF4y2Ba 吉奥吉夫gydF4y2Ba P。gydF4y2Ba Deepx:低功耗软件加速器深度学习推理在移动设备上gydF4y2Ba 学报2016年15日ACM和IEEE国际会议在传感器网络的信息处理(IPSN)gydF4y2Ba 2016年gydF4y2Ba 奥地利的维也纳gydF4y2Ba IEEEgydF4y2Ba 23gydF4y2Ba 10.1109 / ipsn.2016.7460664gydF4y2Ba 2 - s2.0 - 84971268016gydF4y2Ba 通用电气gydF4y2Ba 年代。gydF4y2Ba 罗gydF4y2Ba Z。gydF4y2Ba 叶gydF4y2Ba Q。gydF4y2Ba 张gydF4y2Ba X.-Y。gydF4y2Ba 微脑:压缩深度视觉推理神经网络的节能服务gydF4y2Ba 学报2017年IEEE计算机通讯大会上车间(INFOCOM WKSHPS)gydF4y2Ba 2017年gydF4y2Ba 亚特兰大,乔治亚州,美国gydF4y2Ba IEEEgydF4y2Ba 1000年gydF4y2Ba 1001年gydF4y2Ba 10.1109 / infcomw.2017.8116530gydF4y2Ba 2 - s2.0 - 85041320566gydF4y2Ba 邓gydF4y2Ba C。gydF4y2Ba 廖gydF4y2Ba 年代。gydF4y2Ba 谢gydF4y2Ba Y。gydF4y2Ba ParhigydF4y2Ba K·K。gydF4y2Ba 钱gydF4y2Ba X。gydF4y2Ba 元gydF4y2Ba B。gydF4y2Ba PermDNN:高效压缩和交换架构款对角矩阵gydF4y2Ba 美国第51届IEEE / ACM国际研讨会微体系结构(微观)gydF4y2Ba 2018年gydF4y2Ba 日本福冈gydF4y2Ba IEEEgydF4y2Ba 189年gydF4y2Ba 202年gydF4y2Ba 10.1109 / micro.2018.00024gydF4y2Ba 2 - s2.0 - 85060012393gydF4y2Ba 杨gydF4y2Ba W。gydF4y2Ba 京ydF4y2Ba lgydF4y2Ba 王gydF4y2Ba 年代。gydF4y2Ba 铜gydF4y2Ba Z。gydF4y2Ba 程ydF4y2Ba X。gydF4y2Ba 程ydF4y2Ba lgydF4y2Ba 变薄的卷积神经网络混合修剪gydF4y2Ba 专业图像处理gydF4y2Ba 2019年gydF4y2Ba 13gydF4y2Ba 5gydF4y2Ba 779年gydF4y2Ba 784年gydF4y2Ba 10.1049 / iet-ipr.2018.6191gydF4y2Ba 2 - s2.0 - 85064344965gydF4y2Ba YazdanigydF4y2Ba R。gydF4y2Ba 里埃拉gydF4y2Ba M。gydF4y2Ba ArnaugydF4y2Ba 人类。gydF4y2Ba 冈萨雷斯gydF4y2Ba 一个。gydF4y2Ba 款修剪的阴暗面gydF4y2Ba 学报2018 ACM / IEEE第45届国际研讨会计算机体系结构(ISCA)gydF4y2Ba 2018年gydF4y2Ba 美国洛杉矶CAgydF4y2Ba IEEEgydF4y2Ba 790年gydF4y2Ba 801年gydF4y2Ba 林gydF4y2Ba 年代。gydF4y2Ba 霁gydF4y2Ba R。gydF4y2Ba 李gydF4y2Ba Y。gydF4y2Ba 邓gydF4y2Ba C。gydF4y2Ba 李gydF4y2Ba X。gydF4y2Ba 对紧凑型回旋网通过structure-sparsity正规化滤波器修剪gydF4y2Ba IEEE神经网络和学习系统gydF4y2Ba 2019年gydF4y2Ba 31日gydF4y2Ba 2gydF4y2Ba 574年gydF4y2Ba 588年gydF4y2Ba 10.1109 / tnnls.2019.2906563gydF4y2Ba NazemigydF4y2Ba M。gydF4y2Ba PasandigydF4y2Ba G。gydF4y2Ba PedramgydF4y2Ba M。gydF4y2Ba 节能、低延迟实现神经网络通过布尔逻辑最小化gydF4y2Ba 《24日亚洲和南太平洋设计自动化会议——ASPDAC 19gydF4y2Ba 2019年gydF4y2Ba 日本东京gydF4y2Ba ACMgydF4y2Ba 274年gydF4y2Ba 279年gydF4y2Ba 10.1145/3287624.3287722gydF4y2Ba 2 - s2.0 - 85061146724gydF4y2Ba RouhangydF4y2Ba b D。gydF4y2Ba MirhoseinigydF4y2Ba 一个。gydF4y2Ba 高级gydF4y2Ba F。gydF4y2Ba 高兴的是gydF4y2Ba 2016年进行的ACM和IEEE国际研讨会上低功率电子产品和设计gydF4y2Ba 2016年gydF4y2Ba 旧金山,加州,美国gydF4y2Ba ACMgydF4y2Ba 112年gydF4y2Ba 117年gydF4y2Ba 10.1145/2934583.2934599gydF4y2Ba 2 - s2.0 - 85026652041gydF4y2Ba 王gydF4y2Ba J。gydF4y2Ba HertzmanngydF4y2Ba 一个。gydF4y2Ba 舰队gydF4y2Ba d . J。gydF4y2Ba 高斯过程的动力学模型gydF4y2Ba 先进的神经信息处理系统gydF4y2Ba 2006年gydF4y2Ba 19gydF4y2Ba 1441年gydF4y2Ba 1448年gydF4y2Ba ·沙希瑞遇刺一周年gydF4y2Ba B。gydF4y2Ba SwerskygydF4y2Ba K。gydF4y2Ba 王gydF4y2Ba Z。gydF4y2Ba 亚当斯gydF4y2Ba r P。gydF4y2Ba de FreitasgydF4y2Ba N。gydF4y2Ba 以人类的循环:回顾贝叶斯优化gydF4y2Ba IEEE学报》gydF4y2Ba 2016年gydF4y2Ba 104年gydF4y2Ba 1gydF4y2Ba 148年gydF4y2Ba 175年gydF4y2Ba 10.1109 / jproc.2015.2494218gydF4y2Ba 2 - s2.0 - 84949985138gydF4y2Ba MarkopoulosgydF4y2Ba P P。gydF4y2Ba ChachlakisgydF4y2Ba d·G。gydF4y2Ba PapalexakisgydF4y2Ba E·E。gydF4y2Ba 1级的精确解L1-norm TUCKER2分解gydF4y2Ba IEEE信号处理信件gydF4y2Ba 2018年gydF4y2Ba 25gydF4y2Ba 4gydF4y2Ba 511年gydF4y2Ba 515年gydF4y2Ba 10.1109 / lsp.2018.2790901gydF4y2Ba 2 - s2.0 - 85040586257gydF4y2Ba 曹gydF4y2Ba Q。gydF4y2Ba BalasubramaniangydF4y2Ba N。gydF4y2Ba BalasubramaniangydF4y2Ba 一个。gydF4y2Ba MobiRNN:高效的移动GPU执行递归神经网络gydF4y2Ba 学报第一国际研讨会在移动系统和Applications-EMDL深度学习的17岁gydF4y2Ba 2017年gydF4y2Ba 尼亚加拉大瀑布,纽约,美国gydF4y2Ba ACMgydF4y2Ba 1gydF4y2Ba 6gydF4y2Ba 10.1145/3089801.3089804gydF4y2Ba 2 - s2.0 - 85029715180gydF4y2Ba 京gydF4y2Ba lgydF4y2Ba NggydF4y2Ba m·K。gydF4y2Ba 曾gydF4y2Ba T。gydF4y2Ba 字典上优于子空间结构识别谱聚类gydF4y2Ba IEEE神经网络和学习系统gydF4y2Ba 2013年gydF4y2Ba 24gydF4y2Ba 8gydF4y2Ba 1188年gydF4y2Ba 1199年gydF4y2Ba 10.1109 / tnnls.2013.2253123gydF4y2Ba 2 - s2.0 - 84880916591gydF4y2Ba 他gydF4y2Ba lgydF4y2Ba 张gydF4y2Ba H。gydF4y2Ba 迭代削减整体规范化gydF4y2Ba 模式识别gydF4y2Ba 2016年gydF4y2Ba 52gydF4y2Ba 274年gydF4y2Ba 286年gydF4y2Ba 10.1016 / j.patcog.2015.10.019gydF4y2Ba 2 - s2.0 - 84973442911gydF4y2Ba 他gydF4y2Ba lgydF4y2Ba 雷gydF4y2Ba N。gydF4y2Ba 关gydF4y2Ba Y。gydF4y2Ba 张gydF4y2Ba H。gydF4y2Ba 快速大规模光谱聚类通过显式特征映射gydF4y2Ba IEEE控制论gydF4y2Ba 2019年gydF4y2Ba 49gydF4y2Ba 3gydF4y2Ba 1058年gydF4y2Ba 1071年gydF4y2Ba 10.1109 / tcyb.2018.2794998gydF4y2Ba 2 - s2.0 - 85041524132gydF4y2Ba 吴gydF4y2Ba C。gydF4y2Ba 张gydF4y2Ba lgydF4y2Ba 李gydF4y2Ba Q。gydF4y2Ba 傅gydF4y2Ba Z。gydF4y2Ba 朱gydF4y2Ba W。gydF4y2Ba 张gydF4y2Ba Y。gydF4y2Ba 支持灵活的资源分配在移动深度学习系统gydF4y2Ba IEEE并行和分布式系统gydF4y2Ba 2019年gydF4y2Ba 30.gydF4y2Ba 2gydF4y2Ba 346年gydF4y2Ba 360年gydF4y2Ba 10.1109 / tpds.2018.2865359gydF4y2Ba 2 - s2.0 - 85051667704gydF4y2Ba HaenschgydF4y2Ba W。gydF4y2Ba GokmengydF4y2Ba T。gydF4y2Ba 普里gydF4y2Ba R。gydF4y2Ba 下一代的深度学习硬件:模拟计算gydF4y2Ba IEEE学报》gydF4y2Ba 2019年gydF4y2Ba 107年gydF4y2Ba 1gydF4y2Ba 108年gydF4y2Ba 122年gydF4y2Ba 10.1109 / jproc.2018.2871057gydF4y2Ba 2 - s2.0 - 85055016689gydF4y2Ba 汉gydF4y2Ba D。gydF4y2Ba 李gydF4y2Ba J。gydF4y2Ba 李gydF4y2Ba J。gydF4y2Ba 柳gydF4y2Ba 周宏儒。gydF4y2Ba 低功耗深神经网络在线学习处理器实时跟踪应用程序gydF4y2Ba IEEE电路和系统I:普通文件gydF4y2Ba 2019年gydF4y2Ba 66年gydF4y2Ba 5gydF4y2Ba 1794年gydF4y2Ba 1804年gydF4y2Ba 10.1109 / tcsi.2018.2880363gydF4y2Ba 2 - s2.0 - 85057824082gydF4y2Ba 富勒gydF4y2Ba e . J。gydF4y2Ba 基恩gydF4y2Ba s T。gydF4y2Ba MelianasgydF4y2Ba 一个。gydF4y2Ba 并行编程离子浮栅存储器阵列的可伸缩的神经形态计算gydF4y2Ba 科学gydF4y2Ba 2019年gydF4y2Ba 364年gydF4y2Ba 6440年gydF4y2Ba 570年gydF4y2Ba 574年gydF4y2Ba 10.1126 / science.aaw5581gydF4y2Ba 2 - s2.0 - 85065856634gydF4y2Ba 土屋gydF4y2Ba T。gydF4y2Ba 鹤冈gydF4y2Ba T。gydF4y2Ba 金gydF4y2Ba 美国J。gydF4y2Ba 离子决策者创建为小说,固态设备gydF4y2Ba 科学的进步gydF4y2Ba 2018年gydF4y2Ba 4gydF4y2Ba 9gydF4y2Ba eaau2057gydF4y2Ba 10.1126 / sciadv.aau2057gydF4y2Ba 2 - s2.0 - 85052988902gydF4y2Ba 里奥斯gydF4y2Ba C。gydF4y2Ba 血性小子gydF4y2Ba N。gydF4y2Ba 程gydF4y2Ba Z。gydF4y2Ba 内存中计算光子平台上gydF4y2Ba 科学的进步gydF4y2Ba 2019年gydF4y2Ba 5gydF4y2Ba 2gydF4y2Ba eaau5759gydF4y2Ba 10.1126 / sciadv.aau5759gydF4y2Ba 2 - s2.0 - 85061997408gydF4y2Ba FeldmanngydF4y2Ba J。gydF4y2Ba 血性小子gydF4y2Ba N。gydF4y2Ba 莱特gydF4y2Ba c, D。gydF4y2Ba BhaskarangydF4y2Ba H。gydF4y2Ba PernicegydF4y2Ba w·h·P。gydF4y2Ba 全光学飙升neurosynaptic网络具有自学习功能gydF4y2Ba 自然gydF4y2Ba 2019年gydF4y2Ba 569年gydF4y2Ba 7755年gydF4y2Ba 208年gydF4y2Ba 214年gydF4y2Ba 10.1038 / s41586 - 019 - 1157 - 8gydF4y2Ba 2 - s2.0 - 85065559430gydF4y2Ba 高gydF4y2Ba X。gydF4y2Ba 张gydF4y2Ba z Y。gydF4y2Ba 段gydF4y2Ba l . M。gydF4y2Ba 一个量子机器学习算法基于生成模型gydF4y2Ba 科学的进步gydF4y2Ba 2018年gydF4y2Ba 4gydF4y2Ba 12gydF4y2Ba eaat9004gydF4y2Ba 10.1126 / sciadv.aat9004gydF4y2Ba 2 - s2.0 - 85058603497gydF4y2Ba KrizhevskygydF4y2Ba 一个。gydF4y2Ba SutskevergydF4y2Ba 我。gydF4y2Ba 辛顿gydF4y2Ba g . E。gydF4y2Ba Imagenet与深卷积神经网络分类gydF4y2Ba 先进的神经信息处理系统gydF4y2Ba 2012年gydF4y2Ba 25gydF4y2Ba 1097年gydF4y2Ba 1105年gydF4y2Ba ZhizhenggydF4y2Ba W。gydF4y2Ba 扬声器自动验证欺骗和对策的挑战(ASVspoof 2015)数据库gydF4y2Ba 2015年gydF4y2Ba 英国爱丁堡gydF4y2Ba 爱丁堡大学语言技术研究中心(装运箱)gydF4y2Ba NetzergydF4y2Ba Y。gydF4y2Ba 王gydF4y2Ba T。gydF4y2Ba 科茨gydF4y2Ba 一个。gydF4y2Ba BissaccogydF4y2Ba 一个。gydF4y2Ba 吴gydF4y2Ba B。gydF4y2Ba NggydF4y2Ba a . Y。gydF4y2Ba 阅读数字自然图像的非监督学习功能gydF4y2Ba 诉讼的损害深度学习和无监督特征学习研讨会gydF4y2Ba 2011年12月gydF4y2Ba 格拉纳达,西班牙gydF4y2Ba RakotomamonjygydF4y2Ba 一个。gydF4y2Ba GassogydF4y2Ba G。gydF4y2Ba 的梯度直方图的时频表示音频现场检测gydF4y2Ba 2014年gydF4y2Ba https://arxiv.org/abs/1508.04909gydF4y2Ba 2015年遥感,gydF4y2Ba http://www.ehu.es/ccwintco/index.php/HyperspectralRemoteSensingScenesgydF4y2Ba UCI机器学习库,2015,gydF4y2Ba https://archive.ics.uci.edu/ml/datasets/Daily +和+运动+活动gydF4y2Ba UCI机器学习库,2015,gydF4y2Ba https://archive.ics.uci.edu/ml/datasets/isoletgydF4y2Ba 海斯gydF4y2Ba J。gydF4y2Ba 埃弗gydF4y2Ba 一个。gydF4y2Ba 定位:评估地理信息从一个单一的形象gydF4y2Ba 《IEEE国际会议在计算机视觉和模式识别gydF4y2Ba 2008年6月gydF4y2Ba 美国安克雷奇,正义与发展党gydF4y2Ba 10.1109 / cvpr.2008.4587784gydF4y2Ba 2 - s2.0 - 51949088643gydF4y2Ba 科斯拉gydF4y2Ba 一个。gydF4y2Ba JayadevaprakashgydF4y2Ba N。gydF4y2Ba 姚gydF4y2Ba B。gydF4y2Ba 菲菲gydF4y2Ba lgydF4y2Ba 细粒度的图像分类的新数据集gydF4y2Ba 第一届研讨会论文集细粒度的视觉分类,IEEE计算机视觉与模式识别会议gydF4y2Ba 2011年6月gydF4y2Ba 美国科罗拉多斯普林斯,有限公司gydF4y2Ba ThomeegydF4y2Ba B。gydF4y2Ba ElizaldegydF4y2Ba B。gydF4y2Ba 夏玛gydF4y2Ba d . A。gydF4y2Ba Yfcc100MgydF4y2Ba ACM的通信gydF4y2Ba 2016年gydF4y2Ba 59gydF4y2Ba 2gydF4y2Ba 64年gydF4y2Ba 73年gydF4y2Ba 10.1145 / 2812802gydF4y2Ba 2 - s2.0 - 84957922397gydF4y2Ba 黄gydF4y2Ba J。gydF4y2Ba RathodgydF4y2Ba V。gydF4y2Ba 太阳gydF4y2Ba C。gydF4y2Ba 速度/准确性权衡对现代卷积对象探测器gydF4y2Ba 2016年gydF4y2Ba https://arxiv.org/abs/1611.10012gydF4y2Ba UCI机器学习库,gydF4y2Ba https://archive.ics.uci.edu/ml/datasets/UJIIndoorLocgydF4y2Ba 韦安德一道gydF4y2Ba T。gydF4y2Ba KostrikovgydF4y2Ba 我。gydF4y2Ba PhilbingydF4y2Ba J。gydF4y2Ba PlaNet-photo地理位置与卷积神经网络gydF4y2Ba 电脑Vision-ECCV 2016gydF4y2Ba 2016年gydF4y2Ba 9912年gydF4y2Ba 施普林格,德国柏林gydF4y2Ba 37gydF4y2Ba 55gydF4y2Ba 10.1007 / 978 - 3 - 319 - 46484 - 8 - _3gydF4y2Ba 2 - s2.0 - 84990029599gydF4y2Ba 勒存gydF4y2Ba Y。gydF4y2Ba 议会gydF4y2Ba C。gydF4y2Ba BurgesgydF4y2Ba c·J。gydF4y2Ba 手写数字的MNIST数据库gydF4y2Ba 1998年gydF4y2Ba 斯沃夫gydF4y2Ba F。gydF4y2Ba KalenichenkogydF4y2Ba D。gydF4y2Ba PhilbingydF4y2Ba J。gydF4y2Ba Facenet:统一嵌入人脸识别和聚类gydF4y2Ba 《IEEE计算机视觉与模式识别会议gydF4y2Ba 2015年6月gydF4y2Ba 美国IEEE,波士顿,MAgydF4y2Ba 815年gydF4y2Ba 823年gydF4y2Ba 10.1109 / cvpr.2015.7298682gydF4y2Ba 2 - s2.0 - 84946751287gydF4y2Ba CIFAR-10数据集,gydF4y2Ba http://www.cs.toronto.edu/kriz/cifar.htmlgydF4y2Ba BourlardgydF4y2Ba H。gydF4y2Ba WellekensgydF4y2Ba c·J。gydF4y2Ba 马尔可夫模型和多层感知器之间的联系gydF4y2Ba 先进的神经信息处理系统gydF4y2Ba 1988年gydF4y2Ba 1gydF4y2Ba 502年gydF4y2Ba 510年gydF4y2Ba 标记的脸在野外,gydF4y2Ba http://vis-www.cs.umass.edu/lfw/gydF4y2Ba 勒存gydF4y2Ba Y。gydF4y2Ba BottougydF4y2Ba lgydF4y2Ba BengiogydF4y2Ba Y。gydF4y2Ba HaffnergydF4y2Ba P。gydF4y2Ba Gradient-based学习应用于文档识别gydF4y2Ba IEEE学报》gydF4y2Ba 1998年gydF4y2Ba 86年gydF4y2Ba 11gydF4y2Ba 2278年gydF4y2Ba 2324年gydF4y2Ba 10.1109/5.726791gydF4y2Ba 2 - s2.0 - 0032203257gydF4y2Ba SimonyangydF4y2Ba K。gydF4y2Ba ZissermangydF4y2Ba 一个。gydF4y2Ba 很深的卷积网络大规模图像识别gydF4y2Ba 2014年gydF4y2Ba https://arxiv.org/abs/1409.1556gydF4y2Ba 他gydF4y2Ba K。gydF4y2Ba 张gydF4y2Ba X。gydF4y2Ba 任gydF4y2Ba 年代。gydF4y2Ba 深层残留图像识别的学习gydF4y2Ba 《IEEE计算机视觉与模式识别会议gydF4y2Ba 2016年gydF4y2Ba 美国内华达州拉斯维加斯gydF4y2Ba IEEEgydF4y2Ba 770年gydF4y2Ba 778年gydF4y2Ba 10.1109 / cvpr.2016.90gydF4y2Ba 2 - s2.0 - 84986274465gydF4y2Ba SzegedygydF4y2Ba C。gydF4y2Ba 刘gydF4y2Ba W。gydF4y2Ba 贾gydF4y2Ba Y。gydF4y2Ba 与旋转会更深gydF4y2Ba 《IEEE计算机视觉与模式识别会议gydF4y2Ba 2015年gydF4y2Ba 波士顿,美国gydF4y2Ba IEEEgydF4y2Ba 1gydF4y2Ba 9gydF4y2Ba 10.1109 / cvpr.2015.7298594gydF4y2Ba 2 - s2.0 - 84937522268gydF4y2Ba RedmongydF4y2Ba J。gydF4y2Ba DivvalagydF4y2Ba 年代。gydF4y2Ba GirshickgydF4y2Ba R。gydF4y2Ba 哈蒂gydF4y2Ba 一个。gydF4y2Ba 你只看一次:统一、实时检测gydF4y2Ba 2015年gydF4y2Ba https://arxiv.org/abs/1506.02640gydF4y2Ba RussakovskygydF4y2Ba O。gydF4y2Ba 邓gydF4y2Ba J。gydF4y2Ba 苏gydF4y2Ba H。gydF4y2Ba Imagenet大规模视觉识别的挑战gydF4y2Ba 国际计算机视觉杂志》上gydF4y2Ba 2015年gydF4y2Ba 115年gydF4y2Ba 3gydF4y2Ba 211年gydF4y2Ba 252年gydF4y2Ba 10.1007 / s11263 - 015 - 0816 - ygydF4y2Ba 2 - s2.0 - 84947041871gydF4y2Ba 帕斯卡尔•VOC2007gydF4y2Ba https://dbcollection.readthedocs.io/en/latest/datasets/pascal_voc2007.htmlgydF4y2Ba ·索默洛gydF4y2Ba K。gydF4y2Ba ZamirgydF4y2Ba a。R。gydF4y2Ba 沙阿gydF4y2Ba M。gydF4y2Ba Ucf101: 101人类行为的数据集类的视频在野外gydF4y2Ba 2012年gydF4y2Ba https://arxiv.org/abs/1212.0402gydF4y2Ba 首歌gydF4y2Ba 年代。gydF4y2Ba 钱德拉塞卡gydF4y2Ba V。gydF4y2Ba 张gydF4y2Ba N.-M。gydF4y2Ba 纳拉gydF4y2Ba 年代。gydF4y2Ba 李gydF4y2Ba lgydF4y2Ba LimgydF4y2Ba 黄永发。gydF4y2Ba 活动识别以自我为中心生活记录的视频gydF4y2Ba 计算机视觉的亚洲会议gydF4y2Ba 2014年gydF4y2Ba 新加坡gydF4y2Ba 施普林格gydF4y2Ba 445年gydF4y2Ba 458年gydF4y2Ba 扎gydF4y2Ba W。gydF4y2Ba SutskevergydF4y2Ba 我。gydF4y2Ba VinyalsgydF4y2Ba O。gydF4y2Ba 递归神经网络正规化gydF4y2Ba 2014年gydF4y2Ba https://arxiv.org/abs/1409.2329gydF4y2Ba AnguitagydF4y2Ba D。gydF4y2Ba GhiogydF4y2Ba 一个。gydF4y2Ba OnetogydF4y2Ba lgydF4y2Ba ParragydF4y2Ba X。gydF4y2Ba Reyes-OrtizgydF4y2Ba j·L。gydF4y2Ba 人类活动的公共领域数据集识别使用智能手机gydF4y2Ba 《欧洲人工神经网络研讨会上,计算智能和机器学习gydF4y2Ba 2013年gydF4y2Ba 比利时布鲁日gydF4y2Ba BVLC CaffeNet模型,gydF4y2Ba https://github.com/BVLC/caffe/tree/master/models/bvlc_reference_caffenetgydF4y2Ba 不结盟运动gydF4y2Ba H。gydF4y2Ba 汉gydF4y2Ba B。gydF4y2Ba 学习多域卷积神经网络视觉跟踪gydF4y2Ba 2015年gydF4y2Ba https://arxiv.org/abs/1510.07945gydF4y2Ba 吴gydF4y2Ba Y。gydF4y2Ba LimgydF4y2Ba J。gydF4y2Ba 杨gydF4y2Ba M.-H。gydF4y2Ba 对象跟踪基准gydF4y2Ba IEEE模式分析与机器智能gydF4y2Ba 2015年gydF4y2Ba 37gydF4y2Ba 9gydF4y2Ba 1834年gydF4y2Ba 1848年gydF4y2Ba 10.1109 / tpami.2014.2388226gydF4y2Ba 2 - s2.0 - 84939235624gydF4y2Ba 拉希gydF4y2Ba m·J。gydF4y2Ba GokmengydF4y2Ba T。gydF4y2Ba RigottigydF4y2Ba M。gydF4y2Ba RAPA-ConvNets:修改卷积网络加速训练与模拟阵列架构gydF4y2Ba 神经科学前沿gydF4y2Ba 2019年gydF4y2Ba 13gydF4y2Ba 753年gydF4y2Ba 10.3389 / fnins.2019.00753gydF4y2Ba 2 - s2.0 - 85073884380gydF4y2Ba 塞巴斯蒂安。gydF4y2Ba 一个。gydF4y2Ba 勒盖洛gydF4y2Ba M。gydF4y2Ba EleftheriougydF4y2Ba E。gydF4y2Ba 计算相变内存:冯·诺依曼计算机之外gydF4y2Ba 物理学学报D辑:应用物理gydF4y2Ba 2019年gydF4y2Ba 52gydF4y2Ba 44gydF4y2Ba 443002年gydF4y2Ba 10.1088 / 1361 - 6463 / ab37b6gydF4y2Ba 2 - s2.0 - 85072315545gydF4y2Ba 卡地亚gydF4y2Ba 大肠。gydF4y2Ba 金gydF4y2Ba W。gydF4y2Ba 龚gydF4y2Ba N。gydF4y2Ba 可靠性和材料模拟计算的挑战吗?gydF4y2Ba 《2019年IEEE国际可靠性物理研讨会(irp)gydF4y2Ba 2019年gydF4y2Ba 蒙特雷、钙、美国gydF4y2Ba IEEEgydF4y2Ba 1gydF4y2Ba 10gydF4y2Ba 10.1109 / irps.2019.8720599gydF4y2Ba 2 - s2.0 - 85066735611gydF4y2Ba MocanugydF4y2Ba d . C。gydF4y2Ba MocanugydF4y2Ba E。gydF4y2Ba 石头gydF4y2Ba P。gydF4y2Ba 可伸缩的训练人工神经网络与自适应稀疏连接的灵感来自网络科学gydF4y2Ba 自然通讯gydF4y2Ba 2018年gydF4y2Ba 9gydF4y2Ba 1gydF4y2Ba 2383年gydF4y2Ba 10.1038 / s41467 - 018 - 04316 - 3gydF4y2Ba 2 - s2.0 - 85048843263gydF4y2Ba 刘gydF4y2Ba 年代。gydF4y2Ba MocanugydF4y2Ba d . C。gydF4y2Ba MatavalamgydF4y2Ba a . R . R。gydF4y2Ba 稀疏的进化深度学习超过一百万人工神经元在商品硬件gydF4y2Ba 2019年gydF4y2Ba https://arxiv.org/abs/1901.09181gydF4y2Ba DettmersgydF4y2Ba T。gydF4y2Ba ZettlemoyergydF4y2Ba lgydF4y2Ba 从头稀疏网络:更快的训练在不损失性能gydF4y2Ba 2019年gydF4y2Ba https://arxiv.org/abs/1907.04840gydF4y2Ba MoradigydF4y2Ba R。gydF4y2Ba BerangigydF4y2Ba R。gydF4y2Ba MinaeigydF4y2Ba B。gydF4y2Ba SparseMaps:卷积网络和稀疏的小图像分类的特征图谱gydF4y2Ba 专家系统与应用程序gydF4y2Ba 2019年gydF4y2Ba 119年gydF4y2Ba 142年gydF4y2Ba 154年gydF4y2Ba 10.1016 / j.eswa.2018.10.012gydF4y2Ba 2 - s2.0 - 85056222362gydF4y2Ba 马gydF4y2Ba R。gydF4y2Ba 苗族gydF4y2Ba J。gydF4y2Ba 妞妞gydF4y2Ba lgydF4y2Ba 张gydF4y2Ba P。gydF4y2Ba 改变ℓ1学习稀疏正则化神经网络gydF4y2Ba 神经网络gydF4y2Ba 2019年gydF4y2Ba 119年gydF4y2Ba 286年gydF4y2Ba 298年gydF4y2Ba 10.1016 / j.neunet.2019.08.015gydF4y2Ba 2 - s2.0 - 85071860204gydF4y2Ba 杨gydF4y2Ba J。gydF4y2Ba 马gydF4y2Ba J。gydF4y2Ba 前馈神经网络训练使用稀疏表示gydF4y2Ba 专家系统与应用程序gydF4y2Ba 2019年gydF4y2Ba 116年gydF4y2Ba 255年gydF4y2Ba 264年gydF4y2Ba 10.1016 / j.eswa.2018.08.038gydF4y2Ba 2 - s2.0 - 85053792168gydF4y2Ba 吉尔gydF4y2Ba D。gydF4y2Ba 绿色gydF4y2Ba w·m·J。gydF4y2Ba 未来的计算:位+神经元+量子位gydF4y2Ba 2019年gydF4y2Ba https://arxiv.org/abs/1911.08446gydF4y2Ba 王gydF4y2Ba N。gydF4y2Ba 崔gydF4y2Ba J。gydF4y2Ba 品牌gydF4y2Ba D。gydF4y2Ba 程ydF4y2Ba 彭译葶。gydF4y2Ba GopalkrishnangydF4y2Ba K。gydF4y2Ba 培训deepneural网络与8位浮点数gydF4y2Ba 美国第32会议神经信息处理系统gydF4y2Ba 2018年gydF4y2Ba 加拿大蒙特利尔gydF4y2Ba SakrgydF4y2Ba C。gydF4y2Ba 王gydF4y2Ba N。gydF4y2Ba 积累对超低位宽度扩展深度网络的训练精度gydF4y2Ba 美国学习国际会议上表示gydF4y2Ba 2019年gydF4y2Ba 新奥尔良,洛杉矶,美国gydF4y2Ba 崔gydF4y2Ba J。gydF4y2Ba VenkataramanigydF4y2Ba 年代。gydF4y2Ba SrinivasangydF4y2Ba V。gydF4y2Ba GopalkrishnangydF4y2Ba K。gydF4y2Ba 王gydF4y2Ba Z。gydF4y2Ba 壮族gydF4y2Ba P。gydF4y2Ba 准确和高效的2比特量化神经网络gydF4y2Ba 第二SysMLConference学报》上gydF4y2Ba 2019年gydF4y2Ba 斯坦福,加州,美国gydF4y2Ba GopalkrishnangydF4y2Ba K。gydF4y2Ba 款训练和推理hyper-scaled精度gydF4y2Ba 美国联合车间设备内置机器学习和紧凑的深层神经网络表示gydF4y2Ba 2019年gydF4y2Ba 美国加利福尼亚州长滩gydF4y2Ba IBMgydF4y2Ba IBM问经验gydF4y2Ba 美国纽约阿蒙克gydF4y2Ba IBMgydF4y2Ba https://www.ibm.com/quantumcomputing/technology/experiencegydF4y2Ba IBMgydF4y2Ba 量子计算中心打开gydF4y2Ba 2019年gydF4y2Ba 美国纽约阿蒙克gydF4y2Ba IBMgydF4y2Ba https://www.ibm.com/quantum-computing/technology/experiencegydF4y2Ba VuillotgydF4y2Ba C。gydF4y2Ba AsasigydF4y2Ba H。gydF4y2Ba 王gydF4y2Ba Y。gydF4y2Ba 量子纠错与环面的Gottesman-Kitaev-Preskill代码gydF4y2Ba 物理评论一个gydF4y2Ba 2019年gydF4y2Ba 99年gydF4y2Ba 3gydF4y2Ba 032344年gydF4y2Ba 10.1103 / physreva.99.032344gydF4y2Ba 2 - s2.0 - 85064043390gydF4y2Ba