恶意网址检测基于改进的多层递归卷积神经网络模型

文摘

传统的恶意的统一资源定位符(URL)检测方法过分依赖于匹配规则制定的网络安全人员,很难完全表达的文本信息的URL。因此,一种改进的多层周期性卷积神经网络模型基于YOLO算法意思来检测恶意URL。首先,单个字符被映射到密集使用单词嵌入向量,和密集的向量是参加培训的整个过程模型根据URL的方法的结构特点。然后,CSPDarknet基于改进神经网络模型YOLO算法提取的特征意思URL。最后,提取的特征是用来评估恶意URL的双向LSTM递归神经网络算法。为了验证算法的有效性,共有200000个网址收集,其中包括100000名正常url标记为“好”和100000年恶意url标记为“坏”。实验结果表明,该方法检测恶意url更快更有效,精度高,高召回率,和高准确性与Text-RCNN相比,BRNN和其他模型。

1。介绍

随着互联网技术的快速发展,网络犯罪越来越严重,为个人网络隐私和财产安全带来了重大损失(1]。然而,众所周知的url与恶意url造成用户混淆,实现入侵攻击主机是最常见的一种攻击方法。目前,检测到恶意url使用规则匹配和黑白名单(2,3]。但这些方法过分依赖于安全人员的知识广度,从而增加假阻断恶意url的可能性。此外,当这些检测模型是用于检测未知攻击类型的钓鱼网址,将会有一个伟大的虚假阻塞或错过了阻塞的概率。

要解决这些问题,国内外学者已经做了大量的研究。安瓦尔等。[2]和李et al。4)提出了一个方法结合线性和非线性空间转换为URL识别和检测。该方法极大地提高了URL识别的准确性和检测使用支持向量机和神经网络。Vu et al。5厂商)提出了一种新的分类器来检测恶意url在大型企业网络。方法将输入URL分为良性的,未知的,和恶意和使用成本矩阵选择最相关的错误分类的特性和控制模型。它可以有效地减少虚假恶意URL的检出率。杨et al。6URL]提出了一种基于恶意特征表示方法关键词。该方法使用卷积的复发性单元(格勒乌)神经网络取代原池层的特性集合时间维度,获得高精度的结果。元等。7)提出了一种并行神经联合模型算法分析和检测恶意URL。语义特征和文本特征相结合通过合并并行关节神经网络和递归神经网络独立的算法,可以提高检测精度的钓鱼网址未知的攻击类型。杨et al。8恶意url]提出了一种多维特征检测方法基于强化学习。方法首先提取给定URL的序列特征,把他们迅速通过深入学习,和融合的统计特性,网页代码功能,和网页文本特性添加到多维特性检测,可以获得更高的检测精度的恶意URL。王等人。9)提出了一种基于卷积神经网络的双向LSTM算法递归神经网络和独立。恶意URL的算法提取特征信息的二进制文件,并使用Word2Vec算法训练URL词向量特征和提取静态URL的词汇特点,可提高检测精度的恶意URL。陈等人。10)提出了一个multifeature信息fusion-based识别算法在复杂的环境中,而达到更好的效果。

这些方法很难找到合适的向量空间来表示一个字符在URL的过程中由于随机性数值表达式组成字符的URL字符串,导致恶意URL的识别精度较低。恶意网址检测模型的基础上,结合多层卷积神经网络和双向递归神经网络提出了。首先,分隔字符和特殊字符过滤的模型根据URL的结构特点。然后,模型结合所有URL字符的长度,拦截时间越长URL和用零填充短URL。通过参与训练的神经网络模型,通过嵌入层,这个词中的每个字符的URL可以映射成一个密集的向量在嵌入空间中,所以每个URL可以表示为一个二维张量。接下来,改善连续多层卷积神经网络,它是基于CSPDarknet YOLO模型意思神经网络,用于特征提取。卷积层网络中使用一维卷积神经网络提取本地序列中的上下文。最后,特征提取的结果输入到双向递归神经网络,和网络检测到恶意url在积极和消极的方向。

总结了论文的主要贡献如下:(1)CSPDarknet YOLO算法提高了意思的网络模型一维卷积神经网络用于特征提取的URL序列(2)双向递归神经网络用于过程序列特征提取后的URL(3)翻译不变性的一维卷积神经网络结合序列RNN的敏感性

本文的其余部分组织如下。部分2介绍了字符数据和编码的URL。部分3介绍了如何结合卷积神经网络和递归神经网络,提出了一种改进的多层递归神经网络模型基于卷积YOLO算法的意思。部分4进行仿真实验和数据分析,通过对比实验验证该方法的进步。部分5总结了结论。

2。URL数据预处理

2.1。URL字符串预处理

本文的研究主要采用Windows系统,它是不必要的匹配任何URL,所以可以转换为URL中的大写字母小写的。最小的粒度,性格,选择最小的处理单元。基于频率的统计数据中各种人物大量的积极的和消极的数据集,本文删除低频特殊字符,以确保每个URL尽可能提供最有用的信息,同时减少复杂的URL。本文收集了超过400000的URL和计数频率的字符在每个URL。结果如图所示1。横坐标代表字符的索引,纵坐标代表字符出现的频率。从图可以看出145后的字符出现的频率指数很低,所以45后的字符索引可以从URL中删除,和影响特征信息在URL中可以忽略。在这一点上,每个URL的长度是不一致的,所以每个URL的长度需要标准化。本文统计数据集中的每个URL的长度以及发现的平均长度是48个字符。因此,数据集的所有url都统一加工成48个字符长度。长部分截断,短用零来确保每个URL具有相同的长度。

2.2。字符编码

URL可以被视为一系列文本序列,但大多数机器学习算法,深度学习模型不能直接接收原始文本序列作为输入,它只能处理数值张量。因此,如何编码的URL作为一个数值表达式中包含的信息是一个重要的模式识别和检测的先决条件。目前,常见的编码方法是基于n元(11),一个炎热的12),字嵌入方法(13]。语法是一个分词方法,不保存文本顺序。通常在浅自然语言处理,而URL检测取决于文本顺序。一个炎热的编码通常将文本序列映射到一个高维稀疏的张量。这个方法不能计算张量之间的相似,很容易落入高维灾难在实际的神经网络训练。然而,在许多情况下,恶意url之间的某些相似之处。为了解决这些问题,本文运用这个词嵌入方法,可以将更多的信息集成到较低的维度。本文比较了在一个炎热的词向量与嵌入向量,如图2。在图2广场的每一行代表一个特征向量,每平方,不同的颜色代表不同的值。例如,一个炎热的词向量将每个字符与一个独特的整数索引我和这个整数指数转换成二进制特征向量的长度米。这个角色向量的值只有我th指数为1,其余为0。在这个词中嵌入向量,每个方块都代表不同的值。因此,这个词嵌入向量可以充分表达更多的信息比一个炎热的词在低维向量。

(一)

(b)

为了获得嵌入空间模型映射字符密度向量,本文使用嵌入层学习单词嵌入和参加培训的整个过程神经网络模型。在模型训练过程中,重量参数嵌入层通过反向传播调整整个网络。整个网络模型的渐进收敛,字符映射向量的嵌入空间模型也将趋于稳定,以便获得嵌入空间结构可以方便的使用下游神经网络模型。

3所示。恶意URL基于改进的多层递归卷积神经网络检测模型

3.1。卷积神经网络

近年来,神经网络实现了机器视觉领域的一个重大的突破。的重要原因之一是卷积神经网络的出现,使神经网络对图像进行卷积运算,提取特征信息从图像的一部分14]。同时,按顺序一维卷积神经网络也表现得非常好处理,语音识别和机器翻译等。本文将实现恶意URL检测,这也取决于字符序列。因此,本文运用一维卷积神经网络处理URL的特征向量,实现特征提取。一维卷积神经网络的工作原理如图3。

图3是一个二维数值张量由字符级向量化的一个URL。周围的窗口滑动在这张量提取功能块的位置,然后每一块做相同的权重矩阵的张量积(或称为卷积内核)。重用的多个不同的卷积核将形成多个集向量,和一维卷积操作完成所有向量的空间重组。

3.2。双向递归神经网络

复发性神经网络(RNN)有一个额外的信息记忆功能在其隐层与完整的连接层。在每个时间步隐层的输入不仅包括输入当前时间步的也是以前的输出时间步隐层(15]。这有利于神经单位在同一层之间的信息交互,实现过去的记忆功能的信息。RNN的方法处理顺序遍历每一个元素的序列,保存状态,分别。时事的输出步骤是作为下一个时间步的状态输入神经网络使用一个内部循环。RNN-specific网络结构如图4。

在图4,代表的输入层tth时间步,代表的输出值tth时间步,代表国家价值tth时间步。U,W,V代表权重矩阵。输出值在方程计算(1),状态值年代_t在方程计算(2)。在哪里表示输出层神经元的激活函数f代表了隐层神经元的激活函数。

从理论上讲,RNN记得它遍历的所有信息很多次的步骤之前。但实际上,它是不可能学会这种长期依赖因为梯度消失的问题。因此,本文使用长期短期记忆(LSTM)来构建神经网络模型。从本质上讲,LSTM RNN网络是一个变体。它增加了一个方法来携带信息跨多个步骤的时间。具体而言,它允许过去的时间步骤重新遍历的信息网络在未来的时间步骤,以解决梯度消失的问题(16]。单位LSTM神经网络结构如图5,它由遗忘的大门,LSTM单元状态,输入通道和输出通道。

在图5,代表输入向量t,代表了隐藏状态的时间t,代表了LSTM单元状态的时间t。忘记门口接收隐藏状态在前面的时间和输入向量在当前时间和传送到乙状结肠函数。输出值的范围是[0,1]。如果输出值接近0,这意味着信息被遗忘,如果它是接近1,这意味着信息保留。因此,忘记门决定放弃和保留的信息。输出值的计算过程忘记门的如下: 在哪里和 ,分别代表忘记门的重量和偏见。

输入接收门隐藏状态前一刻和输入向量在当前的时刻。他们是传播同时乙状结肠函数和双曲正切函数。输出值的范围乙状结肠的函数是[0,1]。输出值越接近于0,重要的信息越少,输出值越接近1,更为重要的信息。输出值的范围的双曲正切函数[1],用于输出一个新的候选向量。然后,乙状结肠的输出值函数和双曲正切函数相乘,因此乙状结肠的输出值函数可以确定哪些信息是重要的候选向量输出的双曲正切函数,可以保存。乙状结肠函数输出值的计算过程和双曲正切函数的输出值方程所示(4)和(5),分别为: 在哪里和 ,分别代表了重量和偏见的乙状结肠函数的输入和门和代表了重量和偏见的双曲正切函数输入门,分别。

LSTM单元状态接收单元的状态以前的时候,用输出值遗忘的门,然后添加输入的输出值门的细胞状态在当前时间,更新单元状态LSTM神经网络。的计算公式如下:

输出门接收隐藏状态前一刻和输入向量在当前时刻,转移他们乙状结肠函数。与此同时,获得LSTM单元状态是转移到双曲正切函数。然后,乙状结肠的输出值函数乘以双曲正切函数的输出值获取隐藏状态在当前的时刻。的计算过程如下: 在哪里和 ,分别代表了重量和偏见的乙状结肠函数在输出门。

恶意网址检测是严格依赖于字符顺序,和LSTM复发性神经网络处理在一个序列。因此,这篇文章中,为了进一步探索未来和过去状态之间的关系,采用双向递归神经网络,这是处理前后,前后颠倒的方向,分别为(17]。最后,这两个组合的处理结果来实现更全面的数据挖掘。实现双向递归神经网络结构如图6,它主要由输入层、隐层和输出层。

在图6,第一列代表双向递归神经网络的输入层,和中间的两列代表远期隐藏状态,相反的隐藏状态,分别。它们的计算公式如下所示: 在哪里代表隐藏层的激活函数,代表输入时间t,h代表积极的和消极的隐藏单位的数量,和代表积极的重量,和代表负权值,和分别代表积极的偏差和负偏差。然后,向前隐藏状态与相反的隐藏状态获得以上,获得隐藏状态H,然后隐藏状态H输出层的输入吗。计算过程如下所示: 在哪里代表了隐藏状态的时间t,问代表输出单元的数量,代表从隐藏的单位重量输出,代表输出偏差。

3.3。恶意网址检测网络模型的建立

灵感来自于YOLO算法意思,本文应用CSPDarknet神经网络模型来提取特征向量的特征。YOLO算法用于图像目标检测的意思。实现高精度和高效率的实时检测。本文基于YOLOv4算法实现恶意URL检测多层卷积递归神经网络模型。YOLOv4算法主要由三个网络组件:骨干,脖子,头18]。颈部网络组件主要用于生成特征金字塔在图像目标探测和识别目标检测不同大小的缩放张量不同的尺度。头网络组件主要用于图像目标检测的最后锚定生成目标类别概率时,目标分数,和边界框的位置矢量。CSPDarknet主要用于从图像中提取丰富的特征信息。它集成了特征信息特征映射从上到下,逐步降低了尺寸。当使用URL的CSPDarknet网络来提取特征数值张量,它可以downsample高维URL张量到一个低维空间,提高了检测的速度模型。此外,本文使用一维卷积神经网络来处理序列CSPDarknet网络中张量。当CSPDarknet网络学习一定URL上的本地功能序列,因为一维卷积神经网络具有平移不变性,它可以识别这个地方特性在任何位置的任何URL。在处理每个URL时,本文首先使用字嵌入进行数值向量化以字符为最小单位获得二维张量。然后CSPDarknet网络可以提高,应用于复发性神经网络处理的预处理步骤序列的前端,以集成的信息特征提取后卷积神经网络和双向LSTM用于识别恶意url。 The whole network structure is shown in Figure7。

在图7通过词,模型第一次接收URL嵌入处理字符级向量化,形成一个二维数字张量。每平方的张量是一个特征向量。这个二维张量的两个维度分别代表了URL的字符长度和空间向量的每个字符。然而,当处理多个url时,添加一个尺寸来表示数量的url。因此,字嵌入可以将url转换成一个三维张量。然后,CSPDarknet网络框架,它主要由煤层气,ResUnit, CSPn,用于提取三维张量的特征。CBM组件由一维卷积神经网络、批正常化,和米什激活功能。一维卷积神经网络可以处理三维张量得到字嵌入后的URL。此外,卷积核的大小的一维卷积神经网络是3,步幅是1。批标准化是标准化不仅输入层,而且每一个中间的输入(之前激活函数)层。 It is conducive to gradient propagation [19]。米什激活函数方程所示(11),其形状类似于ReLU激活函数。然而,米什激活功能还允许相对较小的负梯度流入的负值。米什激活函数确保积极的价值是无限的,避免饱和的现象。

网络组件ResUnit表明剩余两个煤层气操作后连接。梯度消失的残余联系解决问题20.]。它的原理是将前一层的输出作为后者的输入层,以创建一个快捷方式直接进入深层网络让信息,有效地避免了问题的梯度和梯度爆炸消失。CSPn的计算组件有两个处理方向。第一个处理方向是通过煤层气网络计算输入值。计算结果通过连接n乘以剩余工资,然后连接结果通过煤层气网络计算。第二个处理方向是通过煤层气网络计算输入值。但计算结果将被连接到第一个处理方向和输出的结果。多层卷积神经网络提取特征信息后,获得的序列特征张量是由双向LSTM复发性神经网络处理和执行的检测是两个不同的方向:前回来,回到前面。然后,这两个张量处理两个方向拼接成一个三维张量,然后扩展到一个一维张量。最后,实现整个模型的输出通过致密层和乙状结肠激活功能。本文规定,越接近模型的输出为“1”的URL标记为“好”,越接近模型的输出是“0”URL贴上“坏”。

4所示。实验结果和分析

本文收集了200000 url,其中包括100000名正常url贴上“好”和100000年恶意url贴上“坏”。本文随机选择90000正常的url和90000恶意url作为训练数据集,剩下的10000正常的url和10000恶意url作为测试数据集。选择20比例的训练数据集的验证数据集模型训练的过程。

在本文中,我们使用嵌入层学习字符嵌入和参与整个神经网络模型的训练过程。因此,每个字符的URL可以学习的独特空间向量表示在整个网络模型的收敛过程。实验后,为了更清楚地分析特征向量,URL字符向量是通过PAC减少到一个三维空间的算法,如图8。图中的每一种颜色代表不同的性格。尽管维数减少,但仍然可以看到,借助从“0”到“9”更集中,字母字符“a”和“z”更集中,以及数字字符和字母字符之间的分工更加明显。也可以得出与实际URL信息在URL中,大部分的特性是由字母,数字和通常用于表示参数。因此,它可以被认为是特征向量训练得到的模型具有良好的效果,为下面的特征提取提供了一个良好的基础和恶意的检测。

本文使用25 url培训每一轮小批量,最多20轮。与此同时,为了避免过度拟合的出现,添加一个回调函数,当训练模型,模型的检查点设置和提前终止。如果目标指标监控培训过程中不再是改善内指定的20轮,可以提前终止训练,重量可以保存模型。模型的准确性和损失值数据所示9(一个)和9 (b),分别。红色曲线代表的准确性和损失值训练数据集,和蓝色曲线代表的准确性和损失值验证数据集。从数据可以看出,随着迭代训练,训练精度和损失值往往收敛,和验证数据的准确性和损失值与训练数据是一致的。它表明该模型能有效地识别恶意url。

(一)

(b)

为了证明恶意URL识别方法的发展提出本文比较实验中进行基于YOLOv3 Darknet网络模型,传统的双向递归神经网络,传统的递归神经网络,RCNN神经网络,神经网络基于完整的连接层。数据10 ()和10 (b)的训练过程是基于YOLOv3 Darknet网络模型。与训练的迭代的数量的增加,训练数据集和验证数据的准确性也逐渐增加。同时,损失价值的训练数据集和验证集正逐渐减少。最后的精度可以稳定在94%左右,和损失价值可以稳定在0.19左右。可以看出,训练的结果基于YOLOv3 Darknet网络模型和基于YOLOv4 CSPDarknet网络模型是相似的。

(一)

(b)

数据(11日)和11 (b)是基于传统的双向递归神经网络训练过程。可以看出,验证数据的准确性高于训练数据集的开始阶段,和损失价值低于验证数据集的训练数据集。然而,随着迭代的增加,验证数据的准确性是逐渐低于训练数据集,并验证数据集的损失价值逐渐高于训练数据集。这些表明,发生过度拟合模型的后期培训,和模型的泛化能力降低。

(一)

(b)

数据12(一个)和12 (b)基于RCNN神经网络模型的训练过程。可以从这两个人物,整个模型不再提高在第九迭代的训练,也就是说,它往往是收敛和稳定。验证数据的准确性是稳定在92%左右,和损失值稳定在0.22左右。它也可以得出结论,RCNN第四迭代开始出现过度拟合模型。

(一)

(b)

数据(13日)和13 (b)神经网络模型是基于RNN的训练过程。从这两个数字可以看出,虽然精度和训练数据集的损失值逐渐收敛,验证数据的准确性和损失值也逐渐收敛,但在收敛过程中模型是不稳定的。可以得出融合结果的准确性的验证数据集是不超过90%,和最小损失值不小于0.32。

(一)

(b)

数据(14日)和14 (b)神经网络模型是基于完全连接层。可以从这两个数据,模型的训练效果不再十迭代改进。此外,该模型是严重的过度拟合。验证数据的准确性将大约是86%,和损失价值约为0.33。但是,它仍处于不稳定状态。模型的效果是非常比其他五个类型的模型。

(一)

(b)

它可以看到从数据的比较分析9和14,在整个培训过程中,如果我们以损失值减少到0.2为标准,损失价值的两个模型,即基于YOLOv4 CSPDarknet网络改进的模型和改进模型在YOLOv3 Darknet网络的基础上,将大致相同。但是如果我们以精度提高到94%为标准,改进的模型基于CSPDarknet十迭代已经完成,和改进的模型基于Darknet 17迭代后完成。因此,基于CSPDarknet改进模型具有更快的收敛速度,而且精度略高于基于Darknet改进模型。传统的RCNN双向递归神经网络模型,模型,和基于全连接网络模型层存在过度拟合现象,按顺序和过度拟合的严重程度增加。虽然没有过度拟合现象,基于传统的递归神经网络模型,模型的识别精度低,收敛过程中有大的波动。如果六个模型根据排序的准确性验证数据集,然后他们从高到低排名如下:基于YOLOv4 CSPDarknet网络模型,基于YOLOv3 Darknet网络模型,传统的双向递归神经网络,RCNN神经网络,传统的递归神经网络,神经网络基于完整的连接层。

上述训练模型中使用的测试数据集。测试数据集包含10000个正常的url和10000年恶意url。评价结果如图所示15。

图15展示了六个模型性能的20000年数据的url。显然,基于CSPDarknet改进模型和基于Darknet改进模型具有较高的识别精度和较低的损失价值。同时,自激活函数中使用模型的输出层乙状结肠,损失价值函数的差异并不大,和改进模型的准确性基于CSPDarknet大于基于Darknet改进模型。认为改进后的模型基于CSPDarknet略优于基于Darknet。最后,可以看出,其他四个模型的准确性和损失值的测试数据集是不如改善多层卷积递归神经网络模型提出了。

同时,如果RNN模型相比,基于完整的连接层的网络模型,我们可以得出这样的结论:检测恶意URL是依赖于字符序列,和上下文之间的关系人物在URL中可以找到基于RNN,从而提高模型的精度。如果RNN模型与BRNN模型相比,我们可以得出结论,双向递归神经网络可以在两个方向:处理URL序列前回来,回到前面。通过结合过去未来的序列和序列之间的关系在当前时间步,模型的精度进一步提高。如果RCNN模型与BRNN模型相比,我们可以得出这样的结论:当一维卷积神经网络结合双向递归神经网络,卷积神经网络可以首先在URL中提取特征信息,然后交给双向递归神经网络,可以有效地提高识别精度。

为了更好地评估每个模型识别恶意url的优越性,本文选择精度,记得,F1值和AUC值作为评价参数的模型。为方便下面的描述,现在认为积极的样本代表正常的url和负样本代表恶意url。精密代表实际上是一个积极的样本在所有的概率预测积极的样本。召回率代表的概率预测作为正样本在实际正样本。的F1值考虑了精确度和召回率,让达到最大的平衡。如数据所示(16日)和16 (b),precision-recall曲线(P-R曲线)和ROC曲线基于递归神经网络改进的多层卷积模型,分别。

(一)

(b)

因为它是图所示(16日)P-R曲线的横坐标代表了召回率,纵坐标代表的准确性。与模型的召回率的增加,越来越多的实际积极样品将作为正样本,预测模型仍然具有较高的精度。因为它是图所示16 (b),ROC曲线的横坐标代表的比例假阳性样本实际负样本,纵坐标代表召回率。当的比例逐渐减少假阳性样本的预测模型,该模型仍有较高的召回率。它可以得出结论,改进的多层卷积递归神经网络模型提出了最佳分类效果和识别能力。最后,我们分别计算准确性,召回率、精度、F1值,AUC值下的六个模型测试数据集。结果如图所示17。

从图可以看出17改进的多层卷积递归神经网络模型优于其他五识别模型准确性,召回率、精度、F1值,AUC值。因此,可以得出结论:本文提出的方法具有较高的识别精度和更好的泛化能力比其他现有的恶意URL识别模型。

5。结论

恶意URL识别和检测是两个重要的维护方法在维护网络信息安全。传统的恶意网址检测方法过分依赖于相似性匹配规则,和URL文本的信息丢失数值向量化后,这些很难识别URL的上下文关系,有判断失误和遗漏。因此,本文提出了一种改进的多层卷积递归神经网络模型来检测恶意url。首先,模型使用字嵌入参与整个神经网络模型的训练过程,和获得的字嵌入空间可以vectorize输入URL文本字符级别的。然后,一个URL可以转化为一个二维张量,特征提取是基于多层卷积神经网络模型进行改进YOLO算法的意思。最后,提取的特征张量是输入双向LSTM恶意URL的神经网络识别和检测,并判别结果输出。实验结果表明,当嵌入层用于参与整个模型的训练过程,获得的嵌入空间特征向量之间的相对关系密切,同时具有良好的表征能力。CSPDarknet网络改进的基于URL的YOLO算法能有效提取特征意思二维数值张量。同时,通过多层卷积神经网络,它可以减少维度URL的数值张量,降低模型的复杂度。双向LSTM复发卷积神经网络用于处理数值张量,可有效发现URL中的上下文之间的关系,进一步提高检测精度的恶意URL。 Through the evaluation of the model, it can be concluded that the improved multilayer convolution recurrent neural network model proposed in this paper can effectively improve the detection efficiency and recognition accuracy of malicious URLs by network security personnel and ensure the information security of network users. It also has a good prospect in the field of network security maintenance. However, since this paper adopts the truncated method to standardize the length of all URLs, it is inevitable to lose some information when facing a longer URL. Therefore, in the process of URL text vectorization, how to avoid missing information still has certain research value.

数据可用性

使用的数据来支持本研究的结果可在https://github.com/faizann24/Using-machine-learning-to-detect-malicious-URLs上。

的利益冲突

作者宣称没有利益冲突。

确认

这项研究部分由国家自然科学基金支持的中国(Ref。61903137)。工作也支持由中国国家重点研发项目为国际科技合作项目(2019 yfe0118700)和湖南省自然科学基金(Ref。2020 jj5201)。

引用

m . Sameen k .汉,s . o .黄”PhishHaven-an高效实时AI钓鱼网址检测系统,”IEEE访问,8卷,第83443 - 83425页,2020年。视图:出版商的网站|谷歌学术搜索
安瓦尔,f . Al-Obeidat a Tubaishat et al .,“打击恶意url在物联网使用一个基于知识的方法和模拟专家”IEEE物联网,7卷,不。5,4497 - 4504年,2020页。视图:出版商的网站|谷歌学术搜索
x, y, b .崔张,t·郭和c·李,“学习”URL嵌入恶意网站检测,IEEE工业信息,16卷,不。10日,6673 - 6681年,2020页。视图:出版商的网站|谷歌学术搜索
t·李·g·寇,和y .彭,“提高恶意url通过特性检测工程:线性和非线性空间变换方法,”信息系统卷。91年,1卷,2020页。视图:出版商的网站|谷歌学术搜索
l . Vu p阮,d . Turaga”厂商Firstfilter:恶意URL检测方法在大型企业网络中,“IBM杂志》上的研究和发展,60卷,不。4,4:1-4:10,2016页。视图:出版商的网站|谷歌学术搜索
w·杨,w .左,崔,“通过关键字检测恶意url卷积gated-recurrent-unit神经网络”IEEE访问7卷,第29900 - 29891页,2019年。视图:出版商的网站|谷歌学术搜索
s . j .元,g . Chen田,x裴,“恶意URL检测基于并行神经联合模型,”IEEE访问9卷,第9472 - 9464页,2021年。视图:出版商的网站|谷歌学术搜索
p .杨、g .赵和p .曾“钓鱼网站检测基于多维特性由深度学习,”IEEE访问7卷,第15209 - 15196页,2019年。视图:出版商的网站|谷歌学术搜索
h。王,l . Yu S.-W。田,Y.-F。彭,X.-J。裴,”双向LSTM恶意网页检测算法基于卷积神经网络和递归神经网络独立,”应用智能卷,49号8,3016 - 3026年,2019页。视图:出版商的网站|谷歌学术搜索
m . Lu, y, z . Chen和c·陈,“基于信息协同熵特征信息融合识别在铝电解的操作条件,”信息科学卷,548年,第294 - 275页,2021年。视图:出版商的网站|谷歌学术搜索
j·r·廖r . Zhang关,周,“一种新的无监督装箱方法宏基因组序列的基础上N克和自动功能权重。”IEEE / ACM事务计算生物学和生物信息学,11卷,不。1,42-54,2014页。视图:出版商的网站|谷歌学术搜索
f . Jafarzadehpour a Sabbagh Molahosseini a . a Emrani Zarandi, l·苏萨,“有效模加法器的设计基于温度计和一个炎热的编码,“IEEE超大规模集成电路(VLSI)系统,27卷,不。9日,第2155 - 2142页,2019年。视图:出版商的网站|谷歌学术搜索
z . Li f·杨、罗y”背景下嵌入基于Bi-LSTM semi-supervised生物医学词义消歧”IEEE访问7卷,第72935 - 72928页,2019年。视图:出版商的网站|谷歌学术搜索
l . Lu y,黄,k . Wang和王,“整合当地全球美国有线电视新闻网CNN和脚本识别在自然场景图像,”IEEE访问7卷,第52679 - 52669页,2019年。视图:出版商的网站|谷歌学术搜索
r . s . Wang姚明,t . a . Tsiftsis n . i Miridakis n气,“在上行时变OFDM系统信号检测用RNN双向LSTM,”IEEE无线通信信,9卷,不。11日,第1951 - 1947页,2020年。视图:出版商的网站|谷歌学术搜索
c . j . Ma h . Liu彭,t·邱“未经授权的广播标识:深LSTM复发性学习方法,“IEEE仪表和测量,卷69,不。9日,第5983 - 5981页,2020年。视图:出版商的网站|谷歌学术搜索
t·戴·l·朱、王y和k . m . Carley“细心堆叠去噪与bi-LSTM autoencoder个性化环境敏感引文的建议,“IEEE / ACM交易音频、语音和语言处理28卷,第568 - 553页,2020年。视图:出版商的网站|谷歌学术搜索
美国Albahli:尼达,a . Irtaza m . h . Yousaf m·t·马哈茂德,“黑色素瘤病变检测和分割使用YOLOv4-DarkNet和活动轮廓,“IEEE访问,8卷,第198414 - 198403页,2020年。视图:出版商的网站|谷歌学术搜索
m . m . Kalayeh和m .沙”,训练速度更快的分离模式batch-normalized模型的变化,“IEEE模式分析与机器智能,42卷,不。6,1483 - 1500年,2020页。视图:出版商的网站|谷歌学术搜索
j . Naranjo-Alcazar s Perez-Castanos Martin-Morato, p . Zuccarello f·j·费里,和m . Cobos”剩余块替代方案的比较分析端到端音频分类”IEEE访问,8卷,第188882 - 188875页,2020年。视图:出版商的网站|谷歌学术搜索

安全性和通信网络

机器学习:网络安全、隐私和新兴应用程序的公共安全的机遇和挑战

文摘

1。介绍

2。URL数据预处理

2.1。URL字符串预处理

2.2。字符编码

3所示。恶意URL基于改进的多层递归卷积神经网络检测模型

3.1。卷积神经网络

3.2。双向递归神经网络

3.3。恶意网址检测网络模型的建立

4所示。实验结果和分析

5。结论

数据可用性

的利益冲突

确认

引用

版权

更多相关文章

相关文章