深复发模型在数据中心服务器负载和性能预测

文摘

递归神经网络(RNN)已经广泛应用于许多顺序标记任务等自然语言处理(NLP)和时间序列分析,并已经证明,RNN在这些地区工作。在本文中,我们提出用RNN长短期记忆(LSTM)单位服务器负载和性能预测。经典方法性能预测关注建筑性能和时间域之间的关系,这使得很多不切实际的假设。我们的模型是建立基于事件(用户请求),服务器性能的根本原因。我们预测的性能服务器使用RNN-LSTM通过分析日志服务器在数据中心包含用户的访问顺序。以前的工作负载预测不能生成详细的模拟负载,这是有用的在测试服务器的工作状态。我们的方法提供了一种新方法复制用户请求序列利用RNN-LSTM来解决这个问题。实验结果表明,我们的模型得到良好的性能在生成负载和预测性能数据集已登录在线服务。我们做实验nginx web服务器和mysql数据库服务器,和我们的方法很容易被应用到其他服务器在数据中心。

1。介绍

在过去的几十年里,万维网(WWW) [1经历了非凡的增长和服务器系统越来越复杂和性能不足。推广的B / S结构,数据处理进一步集中到服务器,这意味着新的挑战的管理服务器性能(2]。是计算机系统的重要组成部分绩效管理预测服务器基础设施资源的性能(如CPU速率和吞吐量)和正确和有效地工作负载(用户的请求),这有助于提高质量服务的同时最小化浪费的资源利用率。

许多大数据分析的应用开发,加强云计算和web服务器基础设施的操作近年来(3]。以前的方法性能预测的工作主要分为两类:一是关注建筑性能和时间之间的关系,如神经网络(MLP)和线性回归(4多元线性回归(MVLR)[],加权5递归神经网络(RNN) [],6]甚至LSTM [7]使用;另一个不考虑顺序影响和预测性能通过分析工作量;例如,Yu et al。8)使用集群和多层感知器(MLP)做这个任务。

这两种方法都可能不探索问题的本质。波动以来,服务器的性能是由用户的请求序列,我们认为用户行为及其序列的属性时需要考虑预测web服务器的性能。基于事件序列和预测性能(用户的请求)是我们的新想法。

我们研究的工作量是加载到服务器的请求;因此预测工作负载意味着预测用户的访问请求序列实际上,一些以前的相关研究。以前从事这份工作集中在预测总请求的情况下,例如,用户的总数或请求的数量在一个时间窗口,但不考虑它的细节,如·维等的研究。9]。所以很难复制到服务器的工作负载测试服务器的性能,它可以是非常有用的服务器管理。

喜欢的性能预测,我们认为用户请求服务器是总工作量的基础,这里提到的工作是复制用户的访问序列,这可以被认为是一种用户特征。

最近深层神经网络开始展示他们的伟大的能力在语言建模10]。和最近的研究表明,RNN显著优于流行的统计算法(11]。作为一种特殊的RNN, LSTM神经网络(12)被证明是高效建模顺序数据像语音和文本13]。这些以前的研究启发我们用LSTM预测任务,因为用户的请求是一个连续的数据。

为了提高预测web服务器的性能和工作负载的性能,我们应用与requests-to-vector RNN-LSTM网络这一任务。我们的贡献可以概括为两点:(1)我们的工作是第一个应用RNN-LSTM网络预测性能和Web服务器或数据中心的工作负载。(2)我们提出调查之间的关系用户的请求序列和web服务器的性能,它之前的研究没有关注。

总之,我们的研究包括两个模型;本文工作负载预测模型是用来产生模拟负载用户的特定请求序列。和性能的预测可以预测性能通过分析用户的请求序列。

本文组织如下。部分2介绍了LSTM网络和我们的模型的体系结构。然后我们介绍我们的训练和应用程序框架3。部分4显示了我们的试验细节和结果并比较与先前的研究工作。最后,部分5是整个论文的结论。

2。模型

2.1。LSTM网络

如图1的基本结构LSTM单元由一个存储单元和三个基本盖茨:输入门、输出门 ,忘记门。

每个门的公式更新状态和细胞LSTM单位使用的输入 , ,和定义如下:

在这里意味着输入特征向量的时间。同样的,和输出向量和细胞状态的时间吗。和他们每个人都是一个维值。公式中的权重矩阵的输入部分的盖茨和细胞LSTM网络,和的复发性的部分。意味着每个公式的偏差向量。至于马克,这意味着逐点的乘法。的 , ,和函数在LSTM每一部分的激活函数,确定数量的信息,可以通过。我们用乙状结肠激活函数的三个门(公式) ,我们使用修正线性单元(ReLUs)函数(15)的函数的公式。ReLU函数是一个非常受欢迎的新的非线性激活函数,定义如下: 和使用ReLU激活函数可使网络训练几次速度比用等价物饱和神经元像双曲正切和乙状结肠15]。

使用这种特殊结构,LSTM网络强大的爆炸和梯度消失问题[12),所以它能够学习长期依赖RNN无法执行的很好,使得模型训练没有hand-generated特性。

因为LSTM的优点,我们使用LSTM作为基本的模型来捕获序列信息的请求,然后预测工作负载和性能通过使用生成的高度抽象特性LSTM层。

2.2。工作负载预测模型

我们的一个初步想法对这个模型是将每个用户的请求作为实例和某些用户请求的长度作为一个包包含的实例数量,和标签的袋子将成为下一个请求的最后一个袋子,所以预测用户请求可以被视为一个多实例学习的问题(MIL),已被广泛应用于药物发现,文本分类,图像分类(16]。以前的作品像吴等人的研究。17,18)所示好分类图分类领域的有效性。然而,请求的顺序特性并不是认为如果这样做预测。所以我们最后选择使用LSTM网络预测任务。

工作负载预测模型旨在预测用户的请求序列,这是类似于自然语言生成。如图2,我们两模型的基础层是RNN-LSTM两层,可以捕获用户请求序列的特性。我们只使用最后LSTM单元的输出预测,这是多对一的LSTM模式。这意味着我们使用之前请求预测th请求(假设序列的长度)。

(一)工作负载预测模型

(b)模型预测性能

工作负载预测模型的输出层显然是一个multiclassification任务为每个用户请求。所以LSTM的输出层设计与softmax传递到一个隐藏层函数,最终输出的每个请求的概率时间间隔。假设将softmax层的输入向量 ;我们得到了这一层的输出向量通过使用以下公式:

和模型训练输出之间的误差最小化叉整个网络和真实的价值。使用叉作为损失函数是最受欢迎的选择multiclassification领域的任务,也取得了良好的性能。想真正的标签 ,真正的向量是一个炎热的,所以损失函数定义如下: 在哪里意味着网络的参数,和象征意味着一个指标= 1时支架的条件返回true,否则,一切等于零。

2.3。性能预测模型

不同于RNN-LSTM在NLP的传统工作任务和工作负载的模型预测,输出层的设计通常是作为一个分类器,这个模型的输出层设计为一个线性回归任务为每个性能。我们想要预测性能和吞吐量,请求延迟,和CPU速度,不分类但某些数字,通过分析序列记录由服务器的请求。所以这个模型的输出层被设计成一个多层感知器(MLP),它可以适合任何连续函数有足够的神经元理论(19]。

ReLU也用作每个完全连接层的激活函数。为了防止过度拟合的神经网络,一个辍学20.)层是两个完全连接层和LSTM层之间连接有固定的概率。这个概率意味着一半的单位网络将随机选择,然后训练网络时暂时从网络中删除。先前的工作已经证明,可以显著提高网络的性能在应用辍学层在多个LSTM层(21]。

如图2 (b),该模型使用的最新要求时间窗口预测的性能th时间窗口,这是一个小而重要的差异模型工作负载,因为性能不仅受以前的请求,但是也当前操作的用户,而请求只是强烈相关的先前的请求。

对于线性回归任务,L1范数(绝对差异),L2范数(平方差异),和平滑L1 (22)是众所周知的损失函数。L1范数不顺利时,误差接近0,所以很少使用。光滑L1是一个健壮的L1损失,不如L2损失[敏感异常值22]。但我们的数据都是美联储正常化后,并没有离群值数据集;考虑到实现的简单性,我们选择L2范数作为损失函数的模型。

假设输入向量 , 是价值预测的模型,意味着网络参数,我们使用方差之间的真正价值的性能和预测的成本。所以总损失函数模型的定义如下: 之间的均方误差(MSE)预测和真正的价值,然后呢在一个批处理的组合数。

3所示。培训和应用程序框架

3.1。培训框架

培训框架模型如图2;(一)工作负载的模型预测和(b)的性能预测。

如图2、日志文件的服务器是我们模型的原始数据来源,所以数据处理的步骤是很相似的,和我们的模型的主要思想是预测web服务器的性能和工作负载通过分析日志文件。每个请求都有一个一对一的ID的整数的存储在一个字典。收集所有生成的词典是独特的请求字符串在整个数据集。使用这个ID,请求可以被抽象为一个炎热的向量维空间,我们称之为请求向量。请求ID为1的向量的请求和一个ID为2 等等。请求的特征向量在时间窗口可以通过添加每个请求生成向量,因此每一个维度,这意味着用户请求的次数服务器在一个时间窗口。用特征向量作为一个例子; 在意味着用户发送的请求ID完全在一个时间窗口。

实际上,这一步并不局限于抽象的某种形式的用户的请求。例如,请求到一个数据库和URL的记录一个网站也可以通过这种方式完成。其关键是数学的方式来描述用户的请求,这是使用ID来代表不同类型的用户行为。这被视为request-to-vector初始化步骤。request-to-vector步骤后,很长一段序列的特征向量或请求可以生成向量,输入模型。

工作负载的模型预测,以前请求向量应该送入网络,th请求向量是这个请求的真正的标签向量序列。因为使用LSTM的多对一的模型,模型的输出负载th请求,也就是作为自然语言生成的模型。虽然标签输出网络的意义是不同的,原理是一样的。所以来请求向量将是第一序列,和来是第二个,等等,这是类似于滑动窗口的长度的影响。图3(一个)显示了该模型的数据集生成过程。

(一)数据集生成工作负载预测模型

(b)数据集生成模型的预测性能

图3

数据集生成两个模型:(a)工作负载预测模型和(b)模型预测性能。蓝色的盒子是模型的输入序列,和红盒子的标签序列。工作负载(a)模型预测:输入序列是先前的请求一定数量的向量,和标签是最后的请求后,请求向量向量的输入序列。(b)性能预测模型:输入序列是一定数量的前一个特征向量,和标签的性能值的最后一个特征向量输入序列。

至于性能预测模型,特征向量应该送入网络;网络的输出应该是表演时间。这个模型的数据集生成过程如图3 (b)。与前面的特征向量和当前应放入网络,数据集生成的过程中有一个小的区别如图3(一个)。所有的性能值归一化在理论最大值除以喂养成网络,从而提高培训的效率和网络的性能23]。从理论上讲,这个模型并不局限于使用特定类型的性能,服务器的CPU和内存占用率和其他表演也可以训练如果数据退出。

最后,请求向量或特性向量序列放入LSTM层模型。和输出向量的LSTM然后传递到上层,这是将softmax层负载预测模型和MLP网络性能的一个预测。我们应用RMSPROP梯度下降算法当训练两个网络SGD算法的一个改进版本,与minibatches面糊性能(24]。

3.2。应用程序框架

关于模型的使用,我们建议一个应用程序框架,它由三种模型的选择,如图4。我们可以使用这个模型来预测服务器的工作负载和性能通过分析新的日志文件。可以使用两个模型分别,这是基本的方式使用我们的模型(图1、24)。培训工作负载预测模型后,请求序列在不同的负载条件下可以由喂食不同的种子进入网络。这个模型的训练和应用方法非常类似于使用RNN-LSTM自然语言领域的一代(NLG)。至于性能预测的模型,它能预测服务器在不同的负载条件下的性能。

和两个模型可以结合使用;工作负载预测模型可以第一个输出模拟请求序列,然后喂序列为性能预测模型(3在图4)。通过使用工作负载预测的模型,可以生成请求序列与原负载特性。这个模型的使用可以满足需要,如当新日志的数据太少,和长期的工作负载下的性能是必需的。这三种选项,以应用这两个模型,该模型可以使用更加灵活和适应情况。

另一方面,我们的模型并不局限的网络体系结构理论。我们的模型可以在负载平衡节点部署来预测整个网络的运行情况或服务节点部署在数据中心节点和计算节点来预测某些节点的运行情况。

一句话,我们的模型可以满足许多不同的预测需求无论网络体系结构,可以帮助数据中心的管理。

4所示。实验

4.1。设置

我们保持LSTM网络的长度15(15秒),因为我们假设请求不能影响web服务器的性能和工作负载后15秒。所以每15秒的请求被组织成一个序列。我们的模型训练和测试在GPU上:NVIDIA GeForce GTX 1080 ti,模型开发的框架theano和烤宽面条CUDA加速计算。6到7个小时才完成这项训练模型的GPU。作为对比,这将需要更多的时间来完成这个工作在一个普通的CPU。

工作负载预测模型,很难衡量之间的相似程度,模拟负载和真正的负载。在我们的研究中,我们只做初步的测量,使用真正的区别和模拟每个ID请求的比例来衡量这个模型的效率。所以余弦相似度是用来做这个工作,和显示的定义是: 在哪里和是真正的比例向量和生成,然后呢和是组件的向量和 ,分别,这意味着请求的比例与ID 。所以相似的价值 ,数字越接近于1,两个向量越相似。

至于性能预测,我们使用均方误差(MSE),这也是网络的损失函数来衡量模型的效率。

4.2。实验数据集

4.2.1。准备数据集

数据集的性能评价模型包含191个web服务器的日志文件节点在一天之内。web服务器设置使用nginx和已部署在生产环境中,这意味着记录日志文件是真实的。nginx的日志文件可以记录请求URL的形式。除了URL序列,我们也可以得到状态码,每个请求的延迟,为每个请求的字节数的数据传输的日志文件。我们可以获得服务器的错误率,吞吐量和平均请求延迟三个表演在这个实验中。表2这个实验展示了我们测试的性能及其描述。我们把网卡的最大吞吐量的最大吞吐量,也就是12.5 Mb / S。100 ms的最大请求延迟。至于错误率,时间间隔。

由于GPU内存的限制和大量的日志文件,我们选择使用日志文件的几个随机节点的最大日志文件培训模型。

4.2.2。数据处理

首先,我们过滤一些非用户请求的主要操作,如要求一幅画或一个json数据。然后我们得到57453有效的请求,其中包含2049个不同的url。负载预测的模型,所有的请求都设置为训练集。在requests-to-vector URL请求和节中提到的计算性能3.1与URL请求,一对一的关系和性能可以建立。最后,数据集的形式根据URL请求的顺序序列生成。我们将整个数据集分为训练集和测试集,按照四比一的比率。五分之一的训练集,验证集。

4.2.3。结果

实验性能预测,三错误率表现包括请求,请求吞吐量和延迟是模拟的。网络的功能,验证设置保存最好的结果,然后执行最后一个测试,看看我们的网络的性能通过使用测试集。

图7显示一个下降趋势的错误在训练,这意味着我们的模型收敛得很好。因为目标函数的值非常小在这个实验中,我们画的图使用的数据吗可以更清楚地显示趋势。训练后200时代,模型得到最好的结果在训练集和验证集。

表3是最终结果的数据目标函数呢在测试集,而在训练集的结果。平均的数据在表3表明该模型表现良好在web服务器性能预测的任务,这是一个使用LSTM的新领域。另一方面,两个数据集的结果(验证集和测试集)是相似的,因此我们认为该模型有一定的泛化能力。

工作负载的实验预测,模型生成43077 URL请求相同数量的不同的请求id。因为不同的ID的数量太多,而且大部分的请求就出现时间太少,我们只是比较前10的比例向量频繁请求。表1和图5这个实验的结果。如表所示,大多数种类的请求的比例不到1%,而超过一半的请求的请求ID: 2。


ID	比例
ID	2	10	18	41	35	30.	149年	96年	24	314年

真实的比例	0.5497	0.0305	0.0226	0.0125	0.0124	0.0123	0.0123	0.0117	0.0111	0.0106
生成的比例	0.5603	0.0789	0.0188	0.0193	0.0206	0.0128	0.0153	0.0141	0.0110	0.0083


性能	描述

出错率	请求错误的百分比(404,403,…)
吞吐量	总服务器传送的数据量
请求延迟	处理用户请求的平均延迟


性能	训练集	验证设置	测试集

出错率
吞吐量
请求延迟

余弦相似度为0.996607614,这意味着生成工作负载非常类似于真正的工作负载和模型可以捕捉请求序列和再生的功能。

4.3。实验数据集B

4.3.1。数据集

因为数据集的请求一个集中在几个请求,和所有请求的数量太多,我们测试我们的模型在另一个数据集,我们称之为数据集不同,B数据集包含一个数据库的日志文件也已经部署到生产环境中。用户的请求更简单,它只包含4类型的请求。另一方面,这个数据集的性能数据记录的其他工具,所以服务器的日志只提供用户请求序列和性能数据提供的工具。表4这个实验展示了我们测试的性能和它的描述。我们把数据集的最大价值的最大平均延迟和每秒正常化。至于CPU速度,时间间隔。


性能	描述

CPU的速度	服务器的CPU的入住率
平均延迟	的平均延迟请求
每秒	每秒查询

4.3.2。结果

实验性能预测,三表演包括CPU速度,平均延迟,每秒都是模拟的。表5是最终结果的数据损失函数呢 ,预计值是可以接受的误差小。


性能	训练集	测试集

CPU的速度
平均延迟
每秒

工作负载的实验预测,模型生成2000请求序列的长度15最后。统计结果如表所示6和图6余弦相似度是0.9985807,所以两个向量之间的夹角 ,这意味着工作负载非常相似的比例。


类型(ID)	生成的比例	真实的比例

1	0.41843333	0.4262904
2	0.10083333	0.1205442
3	0.48056667	0.4510679
4	0.00016667	0.0020976

这个数据集的结果表明,我们的模型也表现良好时,请求的形式访问数据库,这证明我们的理论的形式记录或请求并不影响我们的模型的结果。和我们的模型有能力适应各种情况。

总之,复发性网络可以预测web服务器的性能和工作负载请求序列分析和结果中都有良好的性能,精度和泛化能力。

4.4。相关的工作

我们的模型都是建立基于事件(用户)的请求,这是一个全新的方法预测任务的服务器或数据中心。所以我们的模型性能预测是非常不同的形式之前在这个预测的任务工作。把歌曲等的工作。7)作为一个例子,也使用LSTM在他们的工作。

如图8以前,他们的工作使用性能预测未来,这就意味着性能随着时间的拟合曲线。也是以前的工作的关键理念,但每个的拟合方法是不一样的。

作为对比实验中,我们做了一个实验数据集使用模型的歌曲等。7]。结果如表所示7和均方误差(MSE)的性能比我们的大,这意味着我们的模型达到一个更好的结果。


性能	训练集	测试集

CPU的速度
平均延迟
每秒

至于工作负载预测模型,先前的研究太少,所以我们没有做比较实验。

另一方面,本文的研究是我们的以前的工作的延伸25),如图9。我们改变的模型性能预测LSTM从多对多、多对一的版本,和我们提出的负荷预测模型和应用程序框架两个模型来提高我们的研究。

一句话,我们的工作完全是一个新的方法来做这种预测工作为服务器和数据中心。

5。结论

在本文中,我们建议使用RNN-LSTM预测web服务器性能和工作负载。性能预测模型由RNN-LSTM和多层感知器(MLP),和一个工作负载预测由RNN-LSTM和softmax层。做这项研究基于事件的一种新方法在预测领域。模型可以自动提取特征在学习过程中没有任何先验知识或hand-generated特性分割。真实数据集上的实验表明,我们的模型可以实现良好的性能和泛化性能的预测不同类型的服务器。结果还表明,我们的模型生成的负载非常类似于真实的一个,可应用于测试数据中心和其他类型的服务器。我们的研究结果表明,RNN-LSTM执行顺序标记任务;此外RNN-LSTM requests-to-vector是一种新的有效的方法来预测服务器性能和负载是值得进一步探索。大多数数据中心的服务器日志系统。只要提供日志文件记录用户的操作,我们的方法可以用来生成服务器的负载和预测服务器性能在不同的负载条件下。 This can save a lot operation and maintenance work in data center.

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作是国家重点支持的研究和发展项目赠款2017 yfb0802704和2017 yfb0802202下的中国和上海技术研究项目领导人在格兰特16 xd1424400。

引用

t·伯纳斯·李·r·卡里奥发明万维网协议,肯尼迪。Groff, b . Pollermann“全球网络:宇宙的信息,”互联网研究,20卷,不。4、461 - 471年,2010页。视图:出版商的网站|谷歌学术搜索
肯尼迪。你和R.-F。郭”的应用研究混合基于客户机-服务器程序结构,browser-server和web服务,”学报2011年国际会议业务管理和电子信息、BMEI 20112011年5月,页193 - 195。视图:出版商的网站|谷歌学术搜索
r . Buyya k . Ramamohanarao c . Leckie r . n .卡列罗斯a . v . Dastjerdi和s . Versteeg”大数据analytics-enhanced云计算:挑战,建筑元素,和未来的发展方向,”21 IEEE国际会议的程序在并行和分布式系统中,ICPADS 20152015年12月,页75 - 84。视图:出版商的网站|谷歌学术搜索
美国伊斯兰教,j·亚强、k·李和a .刘“经验预测模型的自适应资源配置云,“未来一代计算机系统,28卷,不。1,第162 - 155页,2012。视图:出版商的网站|谷歌学术搜索
戴维斯,h . Hemmati r·c·霍尔特·m·w·戈弗雷,d . Neuse和s . Mankovskii“风暴预测在云,”《2013年第五届国际研讨会工程面向服务系统的原则,2013比索2013年5月,页37-40,。视图:出版商的网站|谷歌学术搜索
罗和S.-w。你们服务器性能使用递归神经网络预测,“计算机工程与设计卷。8日,57页,2005年。视图:谷歌学术搜索
b .歌曲,y, y, z . Wang, Du,“主机负载预测随着云计算长期短期记忆,”《华尔街日报》的超级计算,2017年1 - 15页。视图:出版商的网站|谷歌学术搜索
v . y . Yu金达尔,即日圆和f . Bastani”整合集群和学习改进的负载预测在云中,”学报2016年IEEE 9日云计算国际会议(云)879年,页876 - 2016年6月旧金山,加州,美国。视图:出版商的网站|谷歌学术搜索
t···Aggarwal x Wang和郭宏源。李,“分层预测web服务器工作负载使用序贯蒙特卡罗训练,”IEEE信号处理,55卷,不。4、1286 - 1297年,2007页。视图:出版商的网站|谷歌学术搜索|MathSciNet
m . Auli m .厨房、c .怪癖和g·茨威格,”与复发性神经网络,共同语言和翻译建模”EMNLP3卷8版,2013年版。视图:谷歌学术搜索
大泽生,m . h . Yamakawa, m . Imai表示《神经形成processg-23rd国际会议,iconip 2016施普林格1 - 2016。
,的Hochreiter和j。施密德胡贝尔表示“长短期记忆。”神经计算,9卷,不。8,1735 - 1780年,1997页。视图:出版商的网站|谷歌学术搜索
m . Sundermeyer h·奈伊,r . Schluter”从前馈复发LSTM神经网络语言建模、”IEEE音频、语音和语言处理,23卷,不。3、517 - 529年,2015页。视图:出版商的网站|谷歌学术搜索
马x和e . Hovy“端到端通过双向LSTM-CNNs-CRF序列标签,”协会学报》第54届计算语言学(卷1:长论文),页1064 - 1074年,柏林,德国,2016年8月。视图:出版商的网站|谷歌学术搜索
a . Krizhevsky i Sutskever, g·e·辛顿“Imagenet分类与深卷积神经网络,”学报》第26届年会在神经信息处理系统(捏12)2012年12月,页1097 - 1105。视图:谷歌学术搜索
锅,j . Wu x朱、张,吴x,“积极的和无标号Multi-Graph学习,”IEEE控制论卷,47号4、818 - 829年,2016页。视图:出版商的网站|谷歌学术搜索
锅,j . Wu x朱、张,和p . s . Yu”多个结构视图图分类学习,”IEEE神经网络和学习系统卷,页没有。99年,硕士论文,2017页。视图:出版商的网站|谷歌学术搜索
锅,j . Wu x朱、张,吴x,“多实例学习与歧视包映射,”IEEE工程知识和数据卷,页没有。99年,页1 - 14,2017。视图:谷歌学术搜索
k . Hornik m . Stinchcombe和h白色,“多层前馈网络普遍接近者,”神经网络,卷2,不。5,359 - 366年,1989页。视图:出版商的网站|谷歌学术搜索
n .斯利瓦斯塔瓦辛顿,a . Krizhevsky Sutskever,和r . Salakhutdinov”辍学:一个简单的方法来防止神经网络过度拟合,“机器学习研究杂志》上,15卷,不。1,第1958 - 1929页,2014。视图:谷歌学术搜索|MathSciNet
诉Pham, t . Bluche Kermorvant, j . Louradour”辍学提高复发性神经网络的手写识别,”学报》第14届国际会议在手写识别领域,ICFHR 20142014年9月,页285 - 290。视图:出版商的网站|谷歌学术搜索
在r . Girshick“快速R-CNN。学报》第15届IEEE计算机视觉国际会议(ICCV 15)2015年12月,页1440 - 1448。视图:出版商的网站|谷歌学术搜索
约飞和c . Szegedy“批量标准化:加速深层网络训练通过减少内部协变量转变,”学习,3卷,2015年。视图:谷歌学术搜索
g .辛顿,斯利瓦斯塔瓦,k . Swersky神经网络对机器学习讲座6 mini-batch梯度下降法的概述,2012年Coursera演讲幻灯片。
j .彭、黄z和j . Cheng“深Web服务器性能预测复发性网络,”学报2017年IEEE第二网络数据科学国际会议(DSC),页500 - 504,深圳,中国,2017年6月。视图:出版商的网站|谷歌学术搜索

复杂性

先进的加工、采矿、和学习复杂的数据:从基础到真实世界的应用程序

文摘