文摘

目前,实时的广泛应用,如VoIP和videos-based应用程序需要更多的数据速率和减少延迟,以确保更好的服务质量(QoS)。一个设计良好的流量分类机制中起着重要作用的QoS提供和网络安全验证。出口方式和深层数据包检测(DPI)技术被用来分类和分析网络流量。然而,这些方法可以应对网络流量的快速增长,由于越来越多的互联网用户和实时应用的发展。因此,这些方法导致网络拥塞,导致丢包,延迟,和QoS不足交付。最近,深度学习的方法探索解决上述方法的时间消耗和不切实际的差距和维护现有的和未来的交通量实时应用程序。然后本研究的目的是设计一个动态流量分类器可以检测到大象流,防止网络拥塞。因此,我们积极提供有效带宽和快速传输要求许多互联网用户使用SDN能力和深度学习的潜力。特别款,CNN、LSTM和深autoencoder用于构建大象检测模型,实现平均精度为99.12%,98.17%,和98.78%,分别。深autoencoder也是有前途的算法不需要人类类贴标签机。 It achieves an accuracy of 97.95% with a loss of 0.13. Since the loss value is closer to zero, the performance of the model is good. Therefore, the study has a great importance to Internet service providers, Internet subscribers, as well as for future researchers in this area.

1。介绍

如今,互联网技术转向实时应用要求高比特率和严格的延迟为更好的服务质量(QoS)条款(1]。实时应用程序,如互联网协议语音(VoIP),视频会议,网络游戏2,3),在线交易(4),和虚拟网络教室(5实时应用程序)成为热门的研究领域,因为用户的快速增长对音频和视频的兴趣和综合系统的可用性,可以以更低的成本提供多媒体数据(6,7]。这些好处是通过建立许多多媒体机构如谷歌,Akamai, 3级,引人注目,康康6,8]。然而,实时应用需求一个可靠和高速数据(高启动和回放速度),特征流(象流)一样大或小流(鼠标流),严格的QoS和体验质量要求。

大象流数量少(10%)和展览长寿流可能填补网络缓冲区的端到端(9]。大象流导致节点拥塞、延迟和丢包如果没有适当的管理(10]。减少或避免这种差距,我们工作的目的是开发一个实现更可预测网络和动态交通模型在软件定义网络QoS (SDN)通过使用深度学习的方法。该模型旨在检测大象流向最小化网络延迟等约束,数据包丢失和控制器阻塞。已经提出了几种机制检测大象流(9]。然而,这些机制并不象检测提供一个通用和标准化的方法。各种大小固定阈值一直在探索分类流打开开关和控制器,从而导致假阳性和假阴性率高(11]。因此,有必要寻找标准化的,动态的,和最优阈值,可以考虑流量大小、持续时间、数据包大小,和应用程序类型作为启发式,即。如果这些参数作为启发式,网络是可扩展的,满足不同的QoS要求。IP网络结合文本、声音和视频数据,动态交通流分类分类所需的不同和未来的应用程序,并提供所需的服务(6]。

交通分类可以根据协议类型(例如,UDP, TCP、FTP或HTTP),应用程序类型(例如,Skype聊天,或种子),和交通类型(例如,浏览、下载或视频聊天)(12,13]。然而,在应用程序级别分类交通变得困难,因为有成千上万的应用程序和新应用程序总是被开发。因此,最好是轨道交通流在网络层分类像大象和老鼠来实现高效的QoS资源分配。因此,开发一个好的分类器是一个先决条件提供适当和足够的QoS和体验质量在先进的实时交通管理应用程序(14]。交通标识符可以定义根据分类目标,即。,典型的这项工作的目的是提供高效的QoS和体验质量配置(15]。

流量分类是一项关键的任务对于任何互联网服务提供商(isp)或网络管理员的QoS提供(16]。出于这个原因,它已经尝试使用深包《盗梦空间》(DPI) [17,18)和机器学习方法(19]。根据应用程序需求提供更好的互联网服务,机器学习方法更认可DPI和架构的实现(20.]。深度学习是最先进的机器学习方法21],启发我们开发提出了流分类模型(21,22]。具体来说,我们开发了一个大象流检测模型对SDN使用深层神经网络(款),卷积神经网络(CNN),长期短期记忆(LSTM)和autoencoder算法。这些算法有一个辍学函数删除不必要的信息(23]。此外,他们克服过度拟合的问题,underfitting在模型训练重量正规化(亚当),最佳时期,和批量标准化技术(24]。

款是一个多层感知器(MLP)类型的神经网络输入层、隐藏层和输出层在一个正向不向后传播(25]。增强神经网络和款都需要管理复杂交通从语音,视频服务。在互联网上多媒体服务的质量取决于的拥挤、失败,和其他网络中的异常。因此,我们需要一个更先进的方法来防止这些问题。是一款先进的神经网络算法开发一个良好的交通管理模式,可以保证资源QoS提供(18]。QoS测量和资源预测是可能的款分布式多媒体应用。款可以尽可能准确地预测未来的交通变化来预测用户网络行为。

CNN是一个用于过滤和预处理数据特征提取器通过定义本地网络神经元相邻层之间的相关性提供输入特征的抽象表示。损失函数呈现反馈信号的学习目的,优化器是用于确定如何学习收益(21,26]。

LSTM是RNN的扩展,提供了“长期记忆”的能力除了短期记忆。它存储一个列表的所有先前的信息在其内存并使其可用于培训当前神经网络神经元(27,28]。

深autoencoder使用一个输入层,瓶颈,和一个输出层。它提取特征在训练,它通常与CNN。CNN-based autoencoder使用CNN过滤内容轴承单词,数字,或图像值从给定的输入实例(记录)26]。

该分类器分类运输量成大象和老鼠流当前交通流量管理是耗时和不切实际的更新现有的和未来的应用程序的列表发送重加载交通。一旦我们确定大象流,可以实现一个聚类模型在SDN控制器基于大象的象流动的路线分配大小,以避免重载的链接在一个网络。

在这工作,准备回答研究问题的现有网络QoS约束。的问题包括“LSTM,多少款,CNN和autoencoder检测大象来自老鼠流QoS好吗?。“这些算法的性能也见过的准确性和执行时间在不同算法的数据集。最优时代迭代是尝试克服underfit和overfit挑战。批量大小的影响也被研究在开发在恒定流分类模型和最佳时期。

在介绍部分的介绍1,讨论了相关工作部分2。我们提出了提出了交通模型体系结构和建模概念3。节4,实验结果进行了讨论和评价。最后,我们给出了结论和未来的工作部分5

数量不断增长的应用和他们的巨大和异构交通需要更多的先进交通管理机制在互联网上实现良好的端到端质量(29日]。特别是,实时在线应用程序(音频/视频)需要动态交通管理,以防止象流动的负面影响在网络运行时(3,30.]。

多媒体流,实时交互式应用程序,在数据中心和并行处理的一些示例应用程序要求一个增强的QoS保证质量的经验(体验质量)对用户2]。需要良好的实时交通管理应用程序和QoS需求动机的许多网络领域的研究工作。努力导致的研究方法提出了几点建议。实时交通管理研究方法,提出了包括架构(2,31日,32)和出口(13,33],payload-based [34),基于机器学习(10- - - - - -12,22,30.],和深度上优于[21,24,35- - - - - -39)方法。然而,出口和payload-based选项并不是有效的在检测签名后有效载荷加密(40]。因此,QoS无法实现这些方法。为了达到良好的QoS,作者如奥利维拉(2)关注架构的解决方案中。

奥利维拉(2)提出了一个SDN-based体系提供QoS的分布式应用程序。SDN构成一个新兴范例,可以方便的创建和引入新的网络中的抽象,简化管理和促进交通流量。

SDN将网络设备(交换机和路由器)作为数据平面和控制平面。控制飞机包含网络情报(控制器)来管理消息和数据转发设备的信号。SDN架构提供了一个全局视图和增加网络编程创建灵活的能力和水平提供有效的QoS供应机制。QoS提供架构利用SDN服务功能的类。它使QoS请求和应用程序之间的谈判和SDN控制器。

然而,协商解决小型、中型和大型交通量与用户和服务提供者;流量分类不支持当前的动态交通管理机制。

与架构方法,机器学习算法最近获得了更多的识别由于其高性能实现良好的QoS需求(41]。机器学习算法,如随机森林、朴素贝叶斯神经网络和决策树分类显示更好的性能在交通数据中心部署物联网和雾处理账单和其他类似的交易平台(13,30.]。作为机器学习的目的是识别样本数据和建立一个学习模式,它通过构造分类器分类测试样品。

许多神经网络算法等不同类型的复发性神经网络用于网络流量分类,专注于特征选择和提取30.,40]。因为功能和算法的选择是非常重要的对于改善分类器的性能,SDN-based特性,比如操作,流量大小,打开流协议,持续时间,和应用程序类型非常重要,除了通常的five-tuple参数如源地址、目的地址、源端口、目的端口,协议。

其他作者也试图混合机器学习和神经网络算法来解决流量识别问题。在这方面,东和李42)提出了一个新颖的应用程序识别方法与多个神经网络层来提高应用程序识别的效率和灵活性。一个应用程序处理在一个单一的神经网络模块。朴素贝叶斯算法集成在一个单一的神经网络模块分类交通进一步从一个应用程序。

Niloofar和刘到了43确定应用程序和服务的流量。流量分类涉及到从网络数据包数据提取高级特性,然后训练与CNN基于数据包的有效载荷和interpacket到达时间参数。CNN应用于在线毫升服务,线下ML的服务达到用户的QoS保证,系统利用率高。基于预测模型,QoS-guided调度策略可以提出识别交通的最佳位置。

哈姆丹et al。11)也进行了一项研究在sdn交通流量管理。一头大象检测技术用于创建两个分类器SDN开关。在他们的工作,大多数鼠标流开关可以基于草图筛选数据。因此,鼠标流不能发送请求和信令消息控制器减少控制器上的负载。

因此,大象流检测变得更加有趣和动态建模时深学习算法(35]。深度学习是机器学习的一个分支的神经网络(44],它具有更好的学习能力比机器学习(高度复杂的任务36]。

阿里(37)使用深包括SDN深层神经网络学习算法。在他们的论文中,网络流量识别是一个重要的功能为细粒度的交通管理任务,虽然应用程序分类基于应用类型不能总是发现大象流。他们的研究没有考虑交通从未来的检测能加工成形的应用程序,尽管现有应用程序的性能分类器达到96%的精度。分类器集成控制器,控制器过载。相反,流分类器模块可以集成在OpenSwiches分担责任的控制器。应该更好的报道只大象流控制器进一步大象流集群。此外,最佳路线选择和分配的任务可以通过控制器和往常一样。因此,OpenSwitches的分类和聚类控制器可以优化QoS在SDN协同工作。提高QoS的分类器需要更具活力和使用深度学习算法。艺术的状态是一个深层神经网络学习算法,如深(37],CNN [43],LSTM [45],和深度autoencoder [39),检测流量分类。

Lopez-Martin et al。46]介绍了CNN的潜力分类任务的算法,我们打算实现它象流检测。CNN是一个自动分类算法,最初可以代表过滤的流量。通过连接多个cnn,包括辍学层,maxpooling和批处理标准化层,复杂的功能可以自动提取。辍学层提供正规化(看不见的泛化的结果数据)通过省略(设置为零)一定百分比的前一层的输出。这允许网络不是太过于依赖一个特定的输入,防止过度拟合和提高泛化。max-pooling层选择最大价值的流量价值减少的特性和网络的计算复杂度。结果是一个代表输出减少抽样。批正常化加速训练,可以提高性能的结果。

根据Ren-Hung [45),LSTM用于分类的流量很多现代软件系统和应用程序异构服务的数据中心(云)。大数量的增长已经导致了这些服务QoS的关键标准,其中包括等因素响应时间、位置、和成本。作为动态QoS属性随时间的价值,需要先进的算法,如LSTM准确预测未来QoS值来识别线路或知道提前服务可能会失败。因此,LSTM-based神经网络预测未来QoS的价值观是很重要的。

根据弗兰克et al。47),一个autoencoder可以分为四种类型根据深度学习的结构层和正规化。这些都是香草autoencoder、去噪autoencoder稀疏autoencoder和变分autoencoder。我们关心的是变分autoencoder (VAE)。VAE深生成模型,该模型可以同时学习一个解码器和编码器的数据。VAE的一个有吸引力的特性是,它估计一个隐式密度模型通过解码器对于一个给定的数据集。在学习数据,生成模型感兴趣的解码器是关键对象。编码器从数据中提取有用的特性和学习一个好的表示。学习好的数据表示在构建模型之前是非常重要的。这是深度学习的原因,特别是VAE,解决了机器学习算法的基本问题转移到新的培训任务。

的损失函数autoencoder比较这些预测与目标和产生的损失值在压缩autoencoder瓶颈(16]。比较的结果是失去价值,这是一个衡量网络的预测如何匹配的期望。优化器使用这个损失值来更新网络的权重(26]。

卷积神经网络(CNN)与变量autoencoders显示非凡的分类性能。然而,CNN模型容易受到噪音和冗余信息封装在高维原始输入数据,导致不稳定和不可靠的预测。可以解决这个问题通过使用autoencoders,这是无监督降维技术,过滤掉噪音和冗余信息产生健壮和稳定特性表征(48]。实验结果表明,autoencoder-based二进制分类使得分平均精度为97.49%,此前10倍交叉验证的大象和老鼠流(48]。因此,CNN-based AE可以的一个有前途的大象流检测算法除了纯监督算法包括款,CNN, LSTM和其他学习算法为了QoS优化。

总结之前的工作提出了表1。第一组深度学习(DL)技术用于流量分类(TC),算法数据集,实时应用程序,其先进的深度学习算法。第二组使用机器学习(ML)。第三个分类架构的解决方案,采用网络体系结构中用于网络管理优化等软件定义网络(SDN)架构。黑圈在最后一列显示的重点工作和最后一行的担忧我们的工作。

3所示。动机

精确的流量分类是各种网络活动的基础,包括网络流量管理和网络安全审计(38]。网络流量分类和分析已经完成使用和出口,DPI和机器学习技术。然而,近年来,在互联网用户的数量迅速增加,互联网流量导致网络拥塞。因此,出口和DPI方法变得效率低下由于互联网应用的指数增长,产生高计算成本。机器学习的方法,特别是深度学习的方法,表明潜在的检测交通异常与SDN交通控制能力。因此,我们的动机是开发软件定义网络的深度学习模型,可以准确区分象流从鼠标流。SDN和深度学习技术是最先进的交通管理技术,我们用来检测大象流QoS优化。这个动态QoS优化允许网络管理员或ISP运营商动态预测交通,防止资源未充分利用和网络拥塞由于资源overutilization [45,51]。鉴于目前海量交通、互联网服务提供商需要通过互联网预测流的应用程序类型,为了安全,监控,充分分配互联网用户的QoS要求提前(20.]。(1)直观地说,有几个原因网络流量分类可以受益的互联网用户,网络管理员和ISP运营商。(2)开发一个动态模型在他SDN可以减少或避免交通拥堵的问题,即。由于僵化的,互联网是限制或不可用交通处理。这使得网络运营商的网络更加灵活和可编程。这也保证了更好的QoS性能(34]。

将深度学习模型集成到SDN减少人工干预,即。,it increases automation, and network administrators or operators can customize the network in terms of topology, configuration, and additional module integration in OpenSwitches and controllers. Thus, it opens doors for network administrators to manage the network in their context.

上述直觉激发我们探索网络流量分类在SDN使用深度学习模型。拟议中的大象检测模式鼓励互联网用户与服务提供者根据其QoS需求谈判。

4所示。材料和方法

本节提出了数据准备和模型开发方法,和交通分类模型描述和模型评价技术。

4.1。数据集和有魅力的

训练数据集从现有的VoIP数据准备,数据传输流媒体视频和音频。VoIP的数据来自HTTP和GTalk应用程序从网络信息管理和安全组(年来)数据集52),其中包含大约303549个交通流记录。我们还利用Unicauca-dataset, 75年与15001年网络流量数据集实例和特性。SDN评估提供QoS, SDN数据集和测试使用的选择深度学习算法。

这三个数据集被修改假设QoS并存储在一个CSV文件。数据集被用来提高QoS需求有大象和老鼠流的应用程序类(53]。分类是基于数据包大小、持续时间、流量大小,字节数和应用程序类型作为启发式。我们添加了一个类参数,包括大象流(1)和鼠标流(0)类作为最后一列。特定的启发式我们用于分类老鼠和大象流持续时间、数据包大小或流大小和流的字节数。老鼠流平均至少需要10秒(54]。每个短流需要小于大约15包(55),每个包包含500字节(15]。数据预处理是完成基于参数化的实时和非实时应用程序。期间和之后的数据处理,数据包抽样问题被广泛做(39]。因此,我们使用分层10倍交叉验证(12)来评估模型的性能与新看不见的交通预测。10倍交叉验证方法一般用于精度的前提下交通数据集被分成十个部分,其中9构成的训练数据1表示测试数据(13]。

以下4.4.1。特征选择和提取

重要的是要考虑交通特性的影响和应用类别分类的发展模式。数据包有效载荷信息成为一个巨大障碍识别算法的交通流。相反,我们必须看到排队网络流量的流动相关的许多特性和应用范畴。特性相关为0时,表示这两个变量是独立的,如果功能相关性是1,它显示了两个变量有严格的功能关系50]。结合两个或两个以上的功能特性如数据包大小、交通时间和类型的应用程序可以产生更好的流分类精度。

网络流量由特定功能。我们使用了功能准备年来的数据集作为一个例子(52)并添加一个额外的列大象和老鼠流类。我们使用思科系统使用的数据包大小阈值在数据中心来确定动态阈值(55]。思科称为大象流如果流包含超过15包大小,即。、短流不到15包。我们也考虑字节大小指流大象和老鼠。包的大小通常是大于或等于500字节/包(55]。老鼠流有一个大小为10 KB OpenSwitches数据中心(15,54和平均持续时间为1054]。

我们可以看到在桌子上2,最后一行描述了大象和老鼠类别。网络流是由一组描述统计功能,可以计算出从一个或多个数据包流和计算特征值(52]。

4.2。深度学习技术

深度学习技术流行由于数据的爆炸性增长和可用性(大数据)和高性能计算的增加硬件等图形处理单元(GPU)培训大量的数据56]。需要较长的训练时间收益率更高的准确性由于其能力来处理大量的功能(57]。

深入学习算法将数据通过一些培训批次和层传递到收益率之间的复杂关联(模型)特性(57]。

深度学习模型最近研究了网络流量分类知识。目前,深度学习技术包括深层神经网络(款),卷积神经网络(CNN),长期短期记忆(LSTM) autoencoder深处,深玻耳兹曼机,生成对抗网络等等(21]。

4.3。提出流量分类模型描述

网络流量分类是网络管理的重要组成部分和QoS管理。因此,采用深学习方法可以区分网络交通量和分布式和多媒体应用程序(58]。提出流量分类模型使我们获得更好的分类结果和减少分类时间通过整体优化没有过多的人工干预,特别是在深autoencoder模型(59]。

提出的交通发展与深入学习算法的分类模型。深入学习算法,包括款,CNN, LSTM, autoencoder,使用损失函数和优化器组件来构建和评估大象检测模型。大象检测模型训练一直持续到最后的分类器建立按时代(高达50)和批量大小设置(128)。最终的分类器是获得许多更新后的重量。

选择的算法通常产生更好的分类性能比其他通用机器学习算法(52]。因此,我们使用这些深学习算法对交通流量进行分类成大象和老鼠流基于有形属性包括流量大小、流量大小、总包大小、协议类型、应用类型和流持续时间为QoS提供作为启发式信息。大象流流多久时间和有大量数据包大小,而鼠标流那些规模相对较低传输在短时间(15]。深度学习分类不仅象流和鼠标流,也有助于进一步集群大象流更容易管理的交通流量。适当的部署流量负载分析提供了有价值的见解,包括一个链接是多忙,平均延迟,平均数据包大小明智的使用道路资源。因此,基于深度学习的流量分类模型有优势在最少的时间复杂性,取得好的结果的QoS数据集(38]。选择深学习算法构建提出了流量分类模型进行了讨论。特别是深Autoencoder更多的描述和表现,因为它是一种具有成本效益的方法由于其自动训练能力无监督方式而无需人工干预。

4.3.1。款

款是典型的前馈网络类型的多层感知器(MLP)从输入层到输出层数据流在一个正向不落后(25]。训练一个神经网络由一系列层,组合成一个网络的输入数据(流量)和相应的预期目标(大象和老鼠)。制定一些神经网络模型用于识别实时应用程序层协议,和工作的收益率较低的时间和空间复杂性(42]。

这款组件创建链和映射的输入数据来预测。图层1层、2层和层n基本数据结构的构建块深学习模型公式。模型的网络层,可以一个公式或算法26]。可以输入层,隐藏(密度)和输出。每一层可以有不同数量的神经元,它可以使用参数,计算输入( ),体重( )和偏见( ),和输出( )因为它是制定以下方程:

激活函数使DL模型学习复杂的模式。最常用的激活函数是ReLU我们用它来我们的流量分类模型(60]。

之间的差距实际输出(y)和预期的输出(y′)是记录为损失。这个损失函数对比预测价值目标价值产生损失的价值。模型是预测的分类器(象流检测器)看不见的流向目标类别按类的赋值数据专家手动(真正的目标)。

损失价值向我们展示如何网络的预言与我们所期望的事情。如果损失值高,优化器更新权重,以减少损失的价值。损失函数集学习的反馈信号的目的。我们测量不仅训练期间发生亏损,但也的性能模型的准确性。

优化器是用于确定如何学习收益,让体重更新。

4.3.2。美国有线电视新闻网

前馈神经网络可以进行端到端的培训从输入层通过利用现有的深度学习技术(61年]。CNN需要一个输入过滤功能和数据预处理机制通过定义本地网络神经元相邻层之间的相关性提供抽象表示的输入特性(26]。它是深学习算法1 d, 2 d和3 d maxpooling过滤器来减少网络规模和进一步减少计算负荷池过滤。我们使用1 d交通数据,地方特色相结合形成了全球功能;池过滤器是用来去除不必要的信息获取抽象数据减少的大小(23]。

我们可以开车,我们员工的CNN是一种特殊的MLP为大象流检测。正常CNN模型由不同类型的层允许学习的模型和提取特征相关类(62年]。

(1)卷积层。这是一层n大量的过滤器应用于提取功能基于给定大小的内核。

批正常化。批标准化规范化使用一个卷积的输出作为输入到另一个卷积。这导致有效的培训和帮助减少过度拟合(63年]。

(2)最大池。马克斯池层是用来减少维数的特征映射通过选择最大值基于内核的一个特定区域的大小。

(3)辍学层。这一层是用来减少过度拟合从模型中删除指定的百分比的特性。如果辍学(噪音)被应用于训练时间,模型中的随机变化可能发生在培训时间和努力防止过度拟合训练。如果不是被应用在验证时间,然后验证准确性可能高于训练精度(63年]。

(4)完全连接层。这是最后的致密层的网络主要是用于分类。不像池和卷积,它有一个全球行动能力。需要输入特征提取阶段,全球分析所有的前层和分类的输出流量数据作为象老鼠(1)或(0)(25]。

4.3.3。LSTM

递归神经网络(RNN)提供的能力“短时记忆”,允许使用先前的信息在一定程度上仅用于当前的培训任务。LSTM是RNN的扩展提供的能力“长期记忆”,在一个列表的所有以前的信息可用于培训当前神经网络神经元(27]。LSTM的主要组件是记忆细胞和输入,忘记,盖茨和输出。这些组件允许LSTM网络已经从以前的时间步长和连接层,在每一个输出是输入的影响以及历史输入(28]。

LSTM使用反馈循环,让体重更新为正确的类赋值在模型训练(27]。所以,在这项工作中,我们也利用LSTM交通分类任务。大象流可以使用多个检测LSTM层,每一层由许多LSTM单位,和每个单元包含输入,忘记,盖茨和输出。为了防止过度拟合问题,我们使用重量正规化(亚当),辍学,最佳时期,和适当的批量标准化技术(24]。

4.3.4。Autoencoder (AE)

AE是在无监督学习分类算法。它是一种神经网络,它不需要人工标注的数据。

它可以输入到输出的减少维度(64年]。AE训练通过瓶颈重建其输入层比数据空间维度较少。输入(训练数据)和网络地图在一起有不同的层包括输入、编码器、瓶颈,解码器,输出。AE第一编码输入到一个隐藏的表示(代码)较低的维度,然后解码回重建。

尽管AE是一个聚类算法,它可用于交通分类通过学习动态阈值。阈值获得了模型的动态学习过程。阈值识别分类器配方时AE的首要任务。类标签是没有必要为大象和老鼠分类,而类标签从数据集的训练方式不同款,CNN, LSTM。只有阈值标准是用来检测大象流优化QoS提供(65年,66年]。

大象流检测完成如果流量大小和持续时间大于阈值。例如,如果阈值大于0.5,大象流的交通流分配范畴,除非另有老鼠流。

AE是描绘在图1,需要网络流量数据然后过滤器从每个实例代表神经元,autoencoder继续压缩寻找阈值过滤数据。

流量输入(T)给autoencoder网络,然后编码编码形式在瓶颈层以最小的特性。编码的特点是解码产生输出层(O)。阈值计算在网络的重建。我们使用的编码值(阈值),大象和老鼠流分类的任务。在图1,Unicauca-dataset用于设计autoencoder结构。Unicauca-dataset有87列属性和我们添加一个额外的类。总有88个参数作为输入从T1 T88。

可视化,如图1,我们可以把一个无标号数据集和给autoencoder学习任务。让我们以原始输入T (T1、T2、T3、T4、T5…, T88),和输出,O作为(O5 O1、O2、O3 O4,…, O88),输出的是一个重建。可以训练Autoencoder通过最小化重建误差,e (T) O),衡量我们的原始输入之间的差异和随之而来的重建。这建筑的损失产量的阈值分类的任务。

因此,autoencoder接近身份的交通交通实例是否象老鼠基于阈值,即:,隐藏层有两个出口,一个大象流,另一个是老鼠流(37]。

流量分类模型的工作流也呈现在图2在输入流量数据(大象和老鼠)。

首先,大象和老鼠流量输入到工作流。AE模型然后制定提供一个阈值在大象作为边界流检测,即。,AE模型收益率公式确定的阈值值大象非线性超平面的方式。

一旦发现公式(超平面边界),交通预测是基于阈值来执行的。如果交通input-weight大小大于这个阈值边界,流检测一样象描绘在图2。除非另有;这是老鼠类分类。所以,网络设置不会改变,因为交通不会导致网络拥塞。

5。试验和评估

网络流量测量和分析减少或避免交通拥堵的挑战49),但在数据传输之前,必须验证各种分类器的性能指标。我们提出四个深度学习模型的结果在三个数据集,我们适应了。我们也比较模型的性能。设计一个健壮的评估框架,我们运行每一个模型在20到50时代。每个算法的平均表现被认为是有前途的潜在的大象检测模型。我们使用的准确性和损失评价指标模型。我们还检查过度拟合的影响和underfitting模型进行实验时代重复和训练数据批处理大小。

5.1。数据集

本研究的目的是开发一个模型最适合检测大象流。为了实现这一目标,我们选择一个非弹性和一个弹性基于应用程序的数据集。因此,我们使用特性从一年来的数据集和非实时HTTP应用程序作为一个例子,Gtalk作为实时应用程序制定模型(52]。然后我们改变了类列如大象流(1)和鼠标流(0)。我们还使用另外两个SDN-based数据集在OpenSwiches测试该模型的性能。数据集分为训练、验证和测试集分层交叉验证的10倍。

训练参数,时代、批量大小、学习速率,优化器使用在表列出在这个模型3

5.2。实验装置和工具使用

我们安装了蟒蛇版本3的英特尔(R) (TM)核心i7 - 4500 u @ 1.80 GHz 2.40 GHz CPU笔记本电脑。我们也已安装组件来帮助我们进行深度学习实验。一些组件是跳跃的,熊猫,Matplotlib处理各种数据和实验结果的图表。控制流量和支持QoS,我们组的传入流量在大象和老鼠流。

所需的时间完成一个回合的执行每一个模型都记录在秒。构建的模型是使用Python版本3.9编程语言和张量流tripwire Keras 2.4.5框架。

在深度学习,训练输入数据通过自动学习结构化特性表示使用Keras框架(37]。Keras是一个强大且易用的Python库为开发和评估基于Tensorflow深度学习模型。Tenssorflow使网络模型的定义和培训作为一个多维数组或列表(26,67年]。Keras和Tensorflow模块是安装在蟒蛇获得深度学习基础autoencoder库。我们实现款,CNN, LSTM autoencoder SDN数据集的算法。我们运行CNN和LSTM深学习代码Googlecolab获得快速的计算性能。

5.3。模型评价

该模型评估分层使用10倍交叉验证测试集。分类结果有四例:真阳性(TP),假阳性(FP),真正的负面(TN),假阴性(FN)。对于我们的目的,我们使用相同的输入形式,相同的训练集,同样的学习速率,优化器相同。

对于交叉验证,我们分层SDN数据集到10倍。SDN数据集包含了大量的实例。自动数据集分成训练集和测试集,训练和测试数据集分区分层的方式,从折叠1到折10,如表所示4

测量性能,使用的指标是准确定义如下:

5.4。实验结果的讨论

在本实验中,我们用款,CNN, LSTM, autoencoder流量分类算法。为每个研究并给出了实验结果;深度学习算法进行了讨论。我们用实验结果的培训历史来衡量绩效模型的准确性和损失为每个使用算法。

实验1。在多大程度上做款,CNN, LSTM和autoencoder神经网络算法检测大象来自老鼠流QoS好吗?

5.4.1之前。尝试象流检测用款

网络的大象检测模型可以将大象和老鼠的类别目标输出。当我们看到的性能使用亚当优化模型的准确性,增加训练精度和训练精度达到99.99%时代下50年来的数据集。同一时代下验证准确性达到100%在3 s和5 ms。

模型训练模型的历史和性能精度算法如图款3(一个)。它显示了训练精度和验证模型的准确性。最后交通分类器模型然后(也就是最好的验证。,最高)验证的准确性68年]。

3 (b)显示了培训损失和验证模型的损失。最后一个模型是最低的检查点验证损失,0.0037是接近于零(68年]。

培训损失减少了从0.0793到0.0022,因为它是在上面(b)。分层模型的试验验证使用10倍交叉验证提出了图的混淆矩阵4

假阳性和假阴性错误减少到零的明智地使用启发式,考虑数据流的持续时间,数据流的大小,应用程序的类型和大小的包。

我们也验证了交通流的性能分类器与标签应用程序数据集,Unicauca-dataset。整个数据集有001和87参数实例。我们修改了数据集考虑的QoS要求应用程序和存储在一个CSV文件。我们添加第88列类列,大象流(1)和鼠标流(0)类。鼠标流的时间至少需要10秒。每个流都有至少15包,每包包含500个字节,因为它是在我们的方法。这种启发式信息,我们创建一个学习模式,可以发现大象流。模型执行97.36%的训练精度在7 ms和97.24%的测试精度Unicauca-dataset上使用深层神经网络(69年)如图5(一个)。验证准确性是恒定的,而训练精度增加彻底从70.03%到96.52%。

培训期间发生的损失Unicauca-dataset显示激进的削减从0.6443到0.1199,如图5 (b)。培训损失,培训损失得分方法为零作为最终模型是最低的检查点验证损失。

模型的验证证明了他混淆矩阵图6

这项工作的主要目的是SDN交通分类数据集使用先进的款,CNN, LSTM, autoencoder算法。生成数据集从RYU控制器。它有104346个实例与23特性。我们修改的最后一列和代替大象(1)和老鼠(0)类确定时间后,数据包大小,字节大小、流量大小和应用程序协议作为启发式参数。

获得的实验结果款在50时代是99.97%的训练精度和验证精度100%,1 s 5 ms如图7(一)

我们检查了分类器的性能通过执行10倍分层交叉验证与测试集在评估。我们实现了测试精度100%,承诺模型性能(70年),解释为测试精度不应高于训练精度。当模型不是overfitted,培训模式分类的新样品作为测试样本训练模型优化后(63年]。

培训损失减少从0.2587到0.0014,通常是接近于零,如图7 (b)。0.0014噪声是一个正常的发生,从机器我们不指望100%完美,作为人类自主自然限制执行100%。人类发现白天与晚上平均80%的准确性。总体精度通常表示为百分之一,有100%的准确度是一个完美的模型;实现100%的机器(识别是一个非常困难的任务71年]。

让我们解释使用混淆矩阵模型的性能。预测的类模型预测值和实际值的总数的预测(20.]。预计值这些值,预测的模型,与实际值是真实值为给定的观测标记,如图8真阴性:192条记录被分配到鼠标流一样我们注释鼠标流。真阳性:我们预测大象流是积极的(1)和10187条记录实际上真正映射到大象流数据中心。假阴性:模型预测的大象和老鼠流没有任何错误。假阳性:模型预测4鼠标记录作为大象误。因此,误差仅为0.04%。

(1)讨论款算法的性能结果。模型的准确性和解释相关的许多深层神经网络的实际应用,如我们的流量分类任务。因此,我们发现大象分类模型是97.36%,99.99%,和99.97%年来,Unicauca, SDN数据集,分别。当我们计算训练精度,款是99.12%的平均表现为大象检测模型。模型的性能意味着我们的大象检测模型可以导致更好的泛化性能[款下72年]。款优化分类任务对训练数据异构的方式作为我们测试了在不同的交通包括遗留和SDN网络数据集生成。有足够的参数的灵活性,这些类型的模型可以适应可概括的特性和记住nongeneralizable并发特性在训练(73年]。深度学习的模型符合通用标准构建模型,即。,the validation and test accuracies are greater than 96% and all validation and test accuracies were less than the training accuracy [63年]。

从图表数据我们可以推断3 (b),5 (b),7 (b)培训和验证减少进一步的损失,通常接近为零。小噪声是一个正常的出现,因为我们不希望100%完美机器作为人类不能执行100%自主71年]。

(2)尝试使用Autoencoder大象流检测。autoencoder的目标是找到最优的模型参数的最小化损失函数。怪物带有损失函数训练样本发现的最大损失值74年]。对于这个工作,均方误差损失函数(怪物带有)和亚当优化器使用损失趋于0如图9

深autoencoder分布模型,重建损失分布可视化、统一和损失减少,趋于0培训历史。特别是,损失减少从1到0.13。基于列车损失,许多重建损失值计算(73年]。最好的重建损失有助于找到最优阈值。因此,我们发现大象通过重建输入流量。大象流检测的阈值是0.1555模型验证的准确性为97.95%,如表所示5。如果重建样品损失大于这个阈值,然后我们可以推断出该模型是看到一个模式,它是不熟悉鼠标流。测试精度获得的分数是96.58%的准确率。

5.4.2。讨论Autoencoder的性能结果

损失函数量化多好或多坏时给定的预测是将输入数据集的数据点。损失越小,越好分类器是在建模的输入数据和输出类标签之间的关系(70年]。损失是每个时代累积噪声。在每个时代的开始,是9.5。每一次,损失计算添加到损失度量(70年]。看到随着时间的推移,在绘制结果是培训和确认损失的总损失降低。这种损失减少意味着网络的权重越来越准确。通常,阅读这样的低损耗接近零表明,模型检测象流动的潜力。

隐式地预期,分类精度平均损失价值成反比,即。和确认损失,培训的损失降低和稳定在一个特定点20圆的时代。

通常,验证损失大于培训损失。这可能表明,该模型是适合某种程度上(下63年]。尽管结果显示小损失,结果表明需要进一步的培训,以减少损失在训练更多的性能改进。另外,我们还可以增加训练数据通过获取更多的样本或增加数据75年]。

(3)实验大象流检测使用CNN和LSTM算法。我们比较款的性能状态的艺术CNN和LSTM算法。我们跑的CNN SDN数据集,它的性能验证结果是98.17%的准确率和98.13%的准确性。损失的1.83%是发生在训练。总培训需要8秒构建大象检测模型。我们也开发使用LSTM大象检测模型。训练训练精度和性能结果分数98.78% 97.55%验证准确性,分别如图10 ()。培训需要57秒的平均最低(3.2%),如图10 b

5.4.3。讨论LSTM的性能结果

增加验证准确性的训练精度略高,时代11是由于过度拟合问题,稳定训练11时代后的正常状态(63年]。LSTM模型显示11时代之后相当增加准确性。因此,损失值从7.84%下降到0.56%,接近于零。接近于零的低损耗表明大象和老鼠分类器模型对交通流进行分类目标交通类(76年]。

初的训练,过度拟合模型的SDN数据集。图10 ()表明在一定时期后,验证精度提高而训练精度降低。时代5后,训练精度高于验证准确性,这是由于辍学技术我们注册。在这里,训练精度和验证准确性都平衡,这是明智的在构建最好的模型。图10 (b)显示培训损失之间的差距随着时间的推移和确认损失。培训和验证损失损失都接近于零。确保培训的场景进行了在正常情况下是免费的从过度拟合和underfitting问题。因此,LSTM显示良好的拟合,验证准确性,和训练精度很高,与前者略低于后者63年]。LSTM不仅显示了良好的健康,但也达到了最高精度(98.78%)其他深学习算法用于这项工作。

实验2。DL技术的比较
深入学习算法比较的有关复杂性包括性能精度,模型运行时,可训练的参数,和损失。
模型的最优性能精度表示各指标参数。99.12%,平均精度,同款获得的最高的性能。虽然这是最高的性能、LSTM CNN和autoencoder还提供承诺模型准确率大于96%。
除了准确性,我们也比较了时间产生的模型,如表所示6。从比较的结果,我们的模型通常运行在不到60秒。特别是,款最低运行时使用的算法,在4秒。深autoencoder 59秒,这是一个相对缓慢的性能由于额外的压缩和解压缩任务(20.,77年]。
比较结果在三个算法数据集、NIMIS Unicauca, SDN,也提出了参数的数量,24岁,75年,分别和21。因此,数据准备和参数化是大象流检测过程中重要的步骤。持续时间、流量大小、包大小和应用程序类型被用作启发式参数。因为这项工作的重点是在SDN, SDN数据集款,CNN, LSTM,深autoencoder使用。

实验3。生产所需的最佳时期是什么流分类模型?
当我们试图找到最优或正确数量的时代训练一个神经网络模型,我们尝试不同的时代数字和批处理大小检查如何影响精度。它还可以用于检查是否过度拟合和破坏发生在网络流量分类培训。首先,我们对年来执行训练数据集2隐藏层,输入层和输出层,通过初始化时代50。
时代是一种hyperparameter中扮演着重要的角色在模型的训练过程,帮助决定是否训练过度的数据(67年]。因此,我们发现时代扮演着重要的角色在获得很好的精度训练神经网络模型在交通训练数据集(70年]。
神经网络能够通过改变权重的分配学习。可以近似的函数在输入模式的代表。刺激的关键思想是黑盒的新刺激(数据),直到获得足够结构良好的表示(78年]。因此,在不同的划时代的迭代测试数据集。因此,我们测试不同时代间隔找到的最佳时代数据集年来使用CNN-based AE,如表所示7
我们选择CNN-based autoencoder评估时代的影响在模型在混合算法用于构造模型的行为在工作:CNN和AE。这种混合算法的结果如表所示7。我们可以看到模型的准确性的六种不同的时代价值。显示,分类结果训练5、10、20、50、100和1000年时代,分别与常数堆栈大小。网络计算错误为训练集和验证集。我们停止训练当验证误差达到最小。

6。讨论

当我们试图找到训练深度学习的最佳时期,一个实验进行了各种数字时代的检查模型的准确性如何影响性能,以及是否有过度拟合训练过程中发生。

如表中所示的结果7随着时代价值的增加,系统的精度提高时代5到50时代开始。

我们可以得出结论,模型的准确性是有前途的检测大象流相同的堆栈大小和数量的类;所以每个时代大多数模型具有良好的精度76年]。然而,时代50后性能开始下降。这是由于这样的事实:50时代,大多数记录分为一类基于最优权值更新。因此,分类浸透当选择时代直到时代50,然后分类精度降低,因为流量已经分配给他们的阶级,即。,更新后的重量是总结了超出预期的计算结果70年]。换句话说:如果增加训练数据的准确性,但验证数据的准确性保持不变甚至降低,这意味着模型overfitted,反过来意味着我们应该停止训练过程(78年]。因此,我们可以得出结论,验证错误正在增加。在1024年时代,精度就高(98.22%),但这是一个过度拟合训练误差等于0 (70年]。所以我们必须停止50时代。我们可以停止训练过程在早期时代50到模型的获得更好的性能。50时代以来取得了98.74%的准确率,这是最佳,并承诺与SDN集成控制器或OpenSwitches交通管理提高QoS。

实验4。在多大程度上批大小变化影响交通流量分类模型在恒时代?
我们测试的性能象检测模型,当许多大小不同。如表所示8,最好的模型性能是实现批处理大小为512,虽然时代在50当使用CNN-based AE是恒定的。
批量大小显示多少数据集用于每个训练步骤。数据集的训练过程是一个逐步的过程分为批次(76年]。在我们的例子中,我们测试了我们的数据集,将它划分为32,64,512,1024批次。512的堆栈大小达到最佳性能,98.74%的准确率,见表8上面提到的。我们测试了堆栈大小的变化了解其施工对交通的影响模型。我们测试了堆栈大小从32,64年、128年、512年和1024年持续50时代的最佳数量。堆栈大小与50时代98.74%的准确性。最好的结果在交通分类精度得到堆栈大小512年和1024年的例子。栈大小越大,流量分类精度越高(79年]。它可以得出结论,一个模型与堆栈大小为512的例子和一个时代的50例子是有前途的小流量数据集和显示了QoS供应机制的潜力。

7所示。结论和未来的工作

7.1。结论

深度学习技术已经成为一个最有趣的和实用的话题在网络工程。在本文中,我们提出一个流量分类模型,检测大象流,可以结合SDN控制器,以确保良好的QoS。特别是,我们使用深层神经网络,CNN, LSTM, autoencoders。考虑模型的最佳模型,它的性能进行了测试与训练数据集,验证数据集和测试数据集。流分类模型被发现的最有影响力的模型分类在SDN大象和老鼠流。大象通量的平均检出率为98.77%,98.17%,和98.78%的用款,CNN,分别和LSTM三个数据集。因此,我们可以得出结论,深度学习的潜力和能力为大象流算法检测在SDN承诺更好的QoS。

因此,我们可以得出结论,深入学习算法的潜力和前途的大象流检测SDN更好的QoS。

7.2。的研究意义

深度学习技术已经成为一个最有趣的和实用的话题在网络工程。在本文中,我们提出一个流量分类模型,检测大象流,可以结合SDN控制器,以确保良好的QoS。特别是,我们使用深层神经网络,CNN, LSTM, autoencoders。考虑模型的最佳模型,它的性能进行了测试与训练数据集,验证数据集和测试数据集。流分类模型被发现的最有影响力的模型分类在SDN大象和老鼠流。大象通量的平均检出率为98.77%,98.17%,和98.78%的用款,CNN,分别和LSTM三个数据集。因此,我们可以得出结论,深度学习的潜力和能力为大象流算法检测在SDN承诺更好的QoS。

7.3。未来的工作

在我们未来的工作,我们计划进行研究SDN通过整合最好的模型获得这项工作,这样我们将审查之间的QoS和体验质量改进用户和网络管理员。在未来,我们计划增加的数据量和扩展这个研究通过使用不同深度学习方法在SDN环境中。这将提供一个机会非常准确,快速,可靠的分类。特别是,大象流检测任务应该更好的测试生成对抗网络(GAN)自甘显示了良好的性能在模式识别。产生敌对的深卷积网络有助于有效的适合和扩大交通数据集大象和老鼠类之间保持平衡的数据集,这增强了数据集稳定(36]。此外,可辩解的人工智能的影响(EAI)改善SDN网络中的服务质量调查(11,12,80年- - - - - -82年]。

数据可用性

本研究的数据集用于支持这些发现已经沉积年来QoS数据集:https://projects.cs.dal.ca/projectx/Download.htmlUnicauca_Dataset: https://www.kaggle.com/datasets/jsrojas/ip -网络交通流标签- - 87应用程序SDN数据集:https://github.com/getahunwassie/Researches-papers.git

信息披露

建国丁教授是作者的博士主要主管。

的利益冲突

作者宣称没有利益冲突。作者是一位在亚的斯亚贝巴大学博士生。

确认

作者感谢作者的数据集52,69年,83]准备交通数据和公开销售。