文摘
恶意网站的数量逐年上升,全球许多公司和个人遭受损失。因此,恶意网站的检测是一个任务,需要不断发展。在这项研究中,一个联合神经网络算法模型结合注意力机制,双向独立递归神经网络(Bi-IndRNN)和网络(CapsNet)提出了胶囊。这个词向量工具word2vec火车这个角色,也能进行统一资源定位符(URL)静态嵌入向量特性。同时,该算法还将提取指纹纹理特性,可以比较不同恶意的内容差异web URL二进制文件。然后,提取的特征融合和输入到神经网络算法模型。首先,多线程的注意机制是用来提取通过调整权重和Bi-IndRNN上下文语义特性。第二,CapsNet动态路由是用于提取深层语义信息。最后,乙状结肠分类器是用于分类。本研究使用不同的方法从不同角度提取更全面的功能。 From the experimental results, the method proposed in this study improves the classification accuracy of malicious web page detection compared with other researchers.
1。介绍
持续改进的网络环境,网络应用已经深入渗透到生活的各个方面。同时,庞大的互联网应用组织还吸引了许多网络攻击通过恶意软件盈利,垃圾邮件,网络钓鱼网站。根据检查的报告(2020年1),超过100000人使用恶意网站窃取用户的个人信息或破坏用户的系统每天都在世界各地。卡巴斯基的报告(2)表示,恶意url被web杀毒组件的数量在2020年是1.73亿年。除此之外,该报告还提到,恶意url占66.07%的20个最活跃的恶意程序。随着越来越多的恶意网站的出现,越来越多的个人和企业将遭受不可估量的损失。
网页所代表的恶意URL包含恶意交互的代码,比如HTML标记(3),JavaScript (JS) [4)和层叠样式表(CSS) (5]。包含恶意的攻击者编写源代码JS标签进入网站,从而执行恶意代码,而用户访问该网站。例如,远程下载程序在后台执行,当一个用户点击广告被黑客植入恶意代码。用户终端最终控制收集用户个人信息。此外,网络钓鱼网站也恶意url的主要战场。攻击者建立一个非法网站,用户通过诱导成恶意网页和其他手段来完成网络欺诈等恶意行为。消除用户的防范心理,攻击者会建造这些网站非常相似的合法网站,人眼无法分辨。加速发展的恶意网址检测已成为网络安全的一个重要的任务在这样一个网络环境。
到目前为止,前人已经提出很多恶意URL检测方法。在恶意网站上之前的研究发现,研究人员通常手动提取一个或多个下列特点:web内容功能HTML, JavaScript代码,WHOIS主机信息功能,web URL轻量级的特性,和可视化功能,然后输入到机器学习或启发式学习系统来检测恶意网站。例如,Kumar et al。6)使用HTML解析器和JavaScript模拟器提取网页内容整合成一个启发式系统特性和输入。楚et al。7)使用与领域相关的信息为主要特征和机器学习用于检测研究。然而,机器学习技术的工程特性是更多的麻烦和依赖于研究者的主观判断。深度学习的出现解决了这一点。任等。8)这个词提取嵌入URL的有效字符识别恶意URL。彭et al。9)添加纹理的指纹特征提取URL和主机信息,然后基于深度学习模型用于检测研究。本研究只关注URL功能并使用深度学习技术来检测和研究恶意网站。
设计师通常设计url作为促进记忆有意义的话,和一些毫无意义的词汇通常传达信息的字符序列。因此,我们使用文字嵌入和字符嵌入技术提取的语义特征的url。因为生成的URL相同的工具或组织有相似的结构,我们也提取指纹纹理特性(部分的URL3)。因此,联合模型的神经网络算法获取URL功能。首先,注意机制是用来给关键特性更高的重量。其次,我们使用了一种改进的递归神经网络独立(IndRNN) [10)称为双向IndRNN (Bi-IndRNN)模型编码信息融合功能。最后,CapsNet是提取高层语义特征。通过实验,发现堆放CapsNet方面取得了显著进展,并联合模型是一种珍贵的探索。本研究的创新总结如下:(1)我们建造了一个联合神经网络算法模型,该模型结合了注意力机制,检测Bi-IndRNN, CapsNet恶意URL(2)获得更具体的和自然特性,综合不同恶意URL特征信息提取结合语义和图像信息(3)一系列的对比实验表明,在这项研究中提出的联合网络模型实现更好的性能比一些先进的方法
本研究的后续章节组织如下。部分2介绍了以前的研究者恶意url,贡献部分3介绍了该方法的细节,部分4解释了实验结果和分析,部分5总结了本研究。
2。相关工作
恶意网址检测的主要目的是为了区分恶意URL和良性的URL。先前的研究人员提出了问题的恶意网址检测方法主要分为以下几类:黑名单,规则,基于机器学习和深入学习检测。
2.1。黑名单
基于黑名单的方法来检测恶意网站,标记它们,并将它们存储在数据库中,它包含相关信息的恶意URL。一个全球分布式网址黑名单服务系统提出了基于P2P技术(11]。贡献者分享黑名单信息存储节点,客户机使用一个插件的形式,确保用户的正常的浏览体验。福岛等。12)提出了一个黑名单系统基于IP地址块的声誉和攻击者使用的教务主任。积极去发现更多的恶意网站,一些研究人员提出扩大黑名单的方法分析恶意网站的特点。秋山et al。13)使用现有恶意URL搜索社区结构发现未知的恶意网站并验证他们扩大网址黑名单。普拉卡什et al。14)提出了一个预测系统由多个启发式组件来生成新的url。然后,正则表达式和散列映射用于近似匹配的URL来验证是否恶意。相比,被动地提交网址黑名单,这个方法可以发现和验证恶意url相同的恶意,但是局限性也明显。是不可能找到新出现的恶意域名,也就是说,没有更好的泛化能力。基于黑名单的方法虽然操作简单,数据存储和更新将面临挑战,当恶意网站每天都添加了相当多。
2.2。规则匹配
研究人员提出一个规则匹配的方法来解决上述问题,它使用一些特性来制定规则来过滤恶意url。曹et al。15)提出了一个规则匹配的方法称为自动化个人白名单(AIWL),自动使用朴素贝叶斯分类器的运作和维护登录用户界面的列表(他)用户所熟悉。这种检测方法将警告用户访问时不可信的网站或向这些网站提交机密信息。阮et al。16)提出了一个系统,计算六个启发式值类似Levenshtein距离域名和Google搜索引擎拼写建议和加权和添加的这些值以确定它是一个钓鱼网站基于阈值。刘和张17)提出了一种两轮钓鱼页面检查方法。第一轮检查域名、URL和电子邮件的当前页面,如果它超过阈值,它直接确认为一个钓鱼页面。如果它不超过第二轮,密码,链接,图片检查。如果所有的检查不超过阈值,这是一个普通的页面。然而,这种方法只是在金融领域中使用。Shekokar et al。18)提出了一种两级网络钓鱼页面检测方案。第一阶段使用LinkGuard算法来分析不同视觉链接(链接呈现由浏览器)和实际的链接(在HTML隐藏)。第二阶段之间的相似性比较可疑网页快照和合法网页通过计算离散余弦变换。尽管这种方法不需要维持一个庞大的数据库的恶意网站,它无法检测未知恶意url因为规则的建立依赖于现有的恶意url。此外,它需要太多的主观经验来分析恶意网页。基于规则的方法可以找到一些更明显的恶意网站。如今,恶意网页的特点是多元化,许多基于规则的方法是无助的。
2.3。机器学习
随着大数据变得越来越流行,机器学习与泛化和抵抗实际攻击已经成为恶意url的主流检测方法。实现一个自学习模型,研究人员必须有足够的恶意网站数据。此外,已知的网站是用来训练算法模型,和未知的网站已经分类的训练算法模型。这些步骤之后,模型将有特定的动态检测功能。Shahrivari et al。19)提出了一个方法,使用功能工程构建一个数据集,从URL中提取30特性,网页内容,和主机信息;然后,12等机器学习方法随机森林和决策树是用来检测网络钓鱼网站。Crisan et al。20.)使用单词嵌入代表URL信息和提高朴素贝叶斯的性能,通过添加通用逻辑回归和支持向量机模型领域特定的特性。该方法放弃的选择特性从复杂的页面内容和简化了数据处理过程。然而,机器学习方法需要太多的功能设计。一旦这些函数是已知的恶意网站设计师,很容易绕过这些安全设置。Singhal et al。21)使用机器学习分类恶意网站并提出概念漂移检测来发现数据分布的差异特征向量之间的古老的训练数据集和新收集的数据集。目的是防止攻击者绕过检测规则通过改变URL后意识到的特征提取的URL。提出的方法Eshete et al。22使用机器学习算法进行训练和定制相应的算法来进一步提高该方法的泛化能力。首先,七个机器学习算法训练通过提取39特性三类:URL,页面源代码和社会声誉。然后,web页面类别由confidence-weighted多数票决定分类算法。
虽然机器学习可以提高检测精度和有一定的概括能力,手动提取特征仍然是一个耗时和劳动密集型任务,只能提取浅特性。
2.4。深度学习
不同于机器学习,深度学习基于预处理的数据可以自动提取高维特性。又一次验证,深度学习也成为主流恶意URL检测方法。深度学习的出现打破了传统机器学习算法的僵局。深度学习可以自动提取特征和机器学习的特征提取方法相比,从而使工程手册的时间特性。魏et al。23)提出了一个使用CNN恶意URL检测方法。该方法首先提取字符级特性的URL。然后,CNN是用来提取特征和分类。Bahnsen等。(24)提出了特征提取和分类方法的恶意url基于长期和短期记忆网络。该方法分析14 URL词汇特性,比如子域名长度和URL熵,建立工程特点和LSTM分类。实验结果表明,恶意网页检测基于URL的词汇特征比完整可行的内容分析。江等人。(25]提出了一种在线检测方案基于深层神经网络检测恶意url。该方法将URL和DNS映射到向量,然后使用CNN提取恶意功能和自动训练分类模型。然而,这个模型也可以调整,使模型的预测更加准确。Das等。(26)一个简单RNN的应用相比,简单LSTM, CNN-LSTM架构恶意URL分类的研究。在比较准确、精度和召回率,CNN-LSTM架构的性能比其他两个好。本研究的启示如下。特征提取的不同的模型有不同的想法。建议优化融合模型特征提取的过程。
一般来说,深度学习技术已经大大改善了恶意URL的性能检测。我们的方法可以处理数据的速度比先前的研究结果,应用中是至关重要的恶意网址检测任务。此外,纹理指纹特征的融合使模型和复杂的结构,有能力处理url和融合的特性使模型有更好的识别精度。实验结果表明,我们的方法提高恶意URL的性能检测和分类。虽然机器学习可以提高检测精度和有一定的概括能力,手动提取特征仍然是费时和劳动密集型和只能提取浅特性。
3所示。我们的方法
3.1。特性分析
恶意网站的恶意行为通常表现在URL和网站内容。然而,提出的方法(27绕过了网站内容,直接使用URL来提取特征和分类,并取得了良好的实验结果。本研究只会受到启发,关注网站的URL。掌握全球特征的恶意网址,我们提取的指纹纹理特征的网站的url。然而,这种类型的功能只是一个表面的特性,并不完全反映的本质属性url。所以,我们做一个静态分析网站的URL中提取的语义特征的网站的URL。总的来说,这项研究提取两种类型的特点:纹理指纹特征和语义特征。
3.1.1。语义特征
通过分析PhishTank发布的恶意网址(28],Openphish [29日),我们发现一些钓鱼网站的创建者通常模仿普通页面的内容和绑定一个类似的域名,如“http://www.amazzonn.online”。此外,一些特殊字符可能被用来迷惑用户,如“@”和“-”。更重要的是,它把用户通过延长无意义的字符的字符串或增加域名的深度(即“。”的数量),如“mlwdkaflzkpqccqdaxjuqlltyexdfcfuzufo -点-神秘- - 290917. ey.r.appspot.com。”因此,我们提取的URL词功能。首先,象征着输入URL,并将字符串分解成其组成单词。如图象征性的描述1。
使象征着电脑,要处理的数据必须嵌入在上述步骤获得的单词,并将其转换成数字向量包含单词的语法和语义信息。具体方法是将象征数据嵌入到一个V×D通过反向传播矩阵和更新它,V代表的是词汇量的大小,D是字嵌入的维度。当我们使用word2vec大部分单词的向量,毫无意义的文字和符号会混淆我们的模型,所以我们也URL字符特征提取。这个过程类似于字嵌入的过程。在这个阶段,我们提取两个颗粒嵌入水平从网站URL:单词级别和性格。
3.1.2。指纹纹理特征
我们也从URL中提取视觉特征。王等人的实验。30.),得出的结论是,相同的恶意网页家族相似性结构指纹。在以前的研究中,苏et al。31日和杨和温32]证明了灰度图像深度学习模型的有效性。受这些结论的启发,url也转化为灰度图像。二维纹理指纹特征的8位无符号整数转化为有效指纹纹理特征对应的灰度图像的灰度值范围。
具体来说,如图2以二进制形式读取原始数据,并使用每个8位解读为基本单位(填充0如果最后读小于8位)。然后,每个基本单元转化为一个无符号整数,所以,每一个整数值是保证在[0,255]。每个整数都映射到一个灰度图像,表示每个像素的灰度值。“0”意味着纯白色,“255”是指纯黑色。最后,灰度值存储在一个固定宽度的矩阵。
3.1.3。特征融合
进一步提高检测的准确性,这三个特性的性格,也能进行嵌入向量和纹理指纹特征融合。给定一个序列代表了th词,代表了th的性格 ,和代表了th像素的灰度图像。下面的公式可以用来表达共同向量: “[]”表示向量的级联,然后呢表示的嵌入 。在特征融合后,他们被发送到模型进行训练和预测。
3.2。模型的框架
深度学习框架基于Bi-IndRNN检测恶意url和CapsNet提出了研究。的主要结构框架如图3。首先,可显示的字符和单词是嵌入到多维特征空间使用字符嵌入和单词嵌入组件。URL是同时的指纹纹理特征提取。随后,合并选择的特性和输入的注意机制,分配概率权重的混合特征来获取特征与更高的权重。接下来,一种改进IndRNN叫Bi-IndRNN用于从长序列中提取特征。我们输入的特征提取注意到Bi-IndRNN机制。特征提取由Bi-IndRNN输入CapsNet建立高层次的特征信息。最后,乙状结肠分类器是用来计算的概率。
3.2.1之上。注意机制
每个关节向量特性的贡献表达恶意url是不同的。作为注意力机制可以给更高的体重主要特点突出关键特性对下游的影响模型,我们把注意力机制堆在顶层的向量。Bahdanau et al。33)第一次使用机器翻译的注意模型。注意机制的主要任务是提取模型的最重要的信息从大量的给定输入通过模拟人们的关注行为尽可能提高模型训练的效率同时最小化功能损失。在宏观层面,关注模型可以被理解为一个从一个查询映射到一系列键值对。本质上,注意机制进行加权求和的值。然后,查询和关键是用来计算相应的权重系数值。
在这项研究中,介绍了多线程关注结构的一个子集URL高维特性。多线程的关注也是基于查询,钥匙,和价值,为代表 (代表URL的数量特征,分别代表了URL的维度特性),将获得通过应用线性预测。不同于一般的关注,多线程注意使用扩展点积注意计算分数的重视。鉴于 代表了URL融合特征向量,代表了th特征向量,输入到关注模型:
多线程的注意力的关键是使用上面的注意多次,和的数量””表示的次数来执行上面的注意。然后,它应该计算如下URL获取所有的注意特征向量:
然而,线性的投影 和计算每个头是不同的。多线程的注意力模型th头作为一个例子: 在哪里 。后计算,将计算结果:
最后,计算输入的加权和联合向量和获得的关注获得下一层的输入,特征向量 。上面的计算后,我们可以确定哪些信息是Bi-IndRNN流程当前任务时更为重要。给这个更高的体重的重要信息,以获取尽可能多的信息为当前任务从URL联合向量。
3.2.2。Bi-IndRNN
递归神经网络(RNN)可以有效地处理数据序列特征。然而,RNN培训将面临的问题由于长距离依赖梯度消失和爆炸。RNN的一种变体,长期和短期记忆网络(LSTM)可以方便保存信息的RNN很多步骤前,但这并不保证梯度不会消失或爆炸。为了突破当时的情况,李et al。10)提出了一个独立的递归神经网络。该方法有效地解决了梯度消失和爆炸的问题,因为它可以应用ReLU和其他非线性激活函数和可以调整基于时间的梯度反向传播。IndRNN单元结构如图4。隐藏层IndRNN可以形容 在哪里 , ,和代表输入重量、复发重量和偏见,分别表示阿达玛的产品,表示输入向量。
然而,IndRNN只能获得通过转发功能信息处理序列时启用模型集成特性信息更好的和更好的建模能力。改进IndRNN称为Bi-IndRNN被用于这项研究。Bi-IndRNN基于IndRNN并添加双向递归神经网络的概念(BRNN)。也就是说,每一次t,输入将两个独立的IndRNN单位前后方向的同时,和输出将共同决定的两个单向IndRNN单位。
联合矢量是语义和视觉信息的描述,包括重要的文本结构和人物之间的空间位置分布。为了使关节向量所代表的内容有更健壮的信息表示能力,我们使用Bi-IndRNN模型从联合中提取特征向量。给定一个特征向量 多线程的关注,从融合特征提取的Bi-IndRNN我们实现,IndRNN向前发展读取功能序列来 ,和向后IndRNN读取功能序列来 。隐藏的状态表达式可以表示如下:
接下来,我们结合这两个向量Bi-IndRNN的输出。通过这种方式,每个隐藏状态信息的整个序列,这是集中的th序列的输入向量。然后,Bi-IndRNN将提取的特征向量输入到胶囊网络进一步提取深度特性。
3.2.3。胶囊网络
本研究介绍了胶囊网络建立先进的特征信息。提取的特征数据胶囊时可以发挥巨大的优势网络是建立在Bi-IndRNN层的顶部。为了解决一些缺陷的卷积神经网络来适应新的深度学习任务,Sabour et al。34)在2017年提出了胶囊网络。胶囊网络也是一种神经网络。从普通神经网络的不同之处在于,胶囊的神经元网络是向量而不是标量。每个维度的向量表示一个对象的属性。因此,胶囊网络保留姿态信息和空间对象来最大程度之间的关系。作为整体模型的一部分,胶囊的结构网络图所示3。首先,输入特征提取Bi-IndRNN卷积标准层。卷积操作如下: 在哪里是element-wise乘法,表示的偏见 表示卷积过滤器,用卷积过滤器的大小 。这意味着卷积操作是幻灯片过滤器在给定输入提取特征和收集功能映射。
接下来是胶囊层,它将功能映射到一个胶囊通过group-convolution操作: 在哪里表示一个胶囊向量的维数,代表了我th维胶囊向量,和功能意味着非线性南瓜函数,它由以下公式表示:
每个胶囊的th层网络中需要预测输出的 层分别胶囊:
然后,计算所有预测向量的加权和高层次的胶囊 : 在哪里获得的耦合系数的动态路由算法。胶囊网络可以最大程度保留最有价值的信息,然后保存它完全并提交上胶囊。
最后,输入到乙状结肠分类器获得的结果得到最终的概率。到目前为止,我们的模型可以完成检测的恶意URL。
4所示。结果与讨论
4.1。试验装置
在表1、注意层Bi-IndRNN层,CapsNet层代表关注的数量,Bi-IndRNN,分别和CapsNet层。注意单位和Bi-IndRNN单位代表了多线程的注意力和Bi-IndRNN隐层单元数。头表示正面的个数多线程的关注。胶囊数字和胶囊维度表示的数量和尺寸胶囊,分别。我们的模型使用了亚当优化器默认的学习速率为0.001。
4.2。数据集
这个研究的数据集包括善意的和恶意的实例。我们获得一个良性的url集合从顶部的Alexa排名谷歌验证了安全浏览,和收集恶意url获得从公共网站,如host-file.net和phishtank.com。最后,32378良性的url和33549恶意url。
4.3。评价指标
我们用5倍交叉验证。数据同样是分为五个部分,其中四个部分被用作训练数据和1份作为测试数据,和实验依次进行。精度(ACC)、精密(P)、召回(R)和F分数(F)用于评价分类结果。在评估之前,有必要计算实验结果正确的数量分为恶意(TP)和良性(TN)样品和不正确的数量分为恶意(FP)和良性(FN)样本。评估计算如下:
4.4。模型参数对实验结果的影响
在模型训练过程中,我们发现,模型参数对实验结果的影响很明显。适当的参数设置会有积极的影响模型训练和分类的结果。来确定这些参数,得到最优分类结果,我们测试这些变量参数,如功能类型、特征维度,在相同的数据集,并确定最优参数根据评估指标。
确定使用哪个功能类型的分类性能,我们首先使用三种类型的特点:字符嵌入,嵌入,指纹和纹理特性测试分开,然后结合这三个特性进行测试。结果在表2。可以得出的结论是,使用字符和单词嵌入单独分类可以有良好的性能,分别达到99.82%和99.89%的召回率。相比之下,纹理指纹分类器的性能稍弱,召回率达到97.48%。从表中也可以得出结论,虽然使用字符嵌入特性可以得到好的结果的准确性达99.74%,这三个特性相结合的方法,有一个稳定的各项评价指标的改善。
特征向量的维数也有特定的对实验结果的影响。我们使用不同的维度变量参数来确定特征维度和将他们分成六组不同特性的比较的维度。如图5,在这六组实验中,十个特征维度添加每次执行下一组实验。功能维度从90增加到130时,所有评价指标增加,但继续增加特征维度的结果并不理想。当维数增加从130年到140年,所有其他评价指标除了轻微的召回率增加,减少和精度降低比较明显。从这一点,我们已经确定,特征的维数是130。
4.5。模型组件的必要性
在本部分中,几组实验是为了验证模型的每个部分的有效性。比较三个注意机制后,我们发现,这些关注具有良好的性能。如图6self-attention的准确性,分层的注意,和多线程的注意力可以达到99.75%,99.67%,和99.78%,分别。然而,多线程的注意机制在各评价指标得到了显著提高,和召回率可以达到99.90%,这有利于检测和分类的恶意url。所以,多线程的注意力被用作组件模型的研究中。
我们的模型结合了注意力机制,Bi-IndRNN CapsNet组件。为了验证每个组件的有效性,其他三个模型设计。表中的三组模型(我)引起IndRNN(空气):提取特征信息和分类通过引起IndRNN没有CapsNet顺序模型。(2)引起CapsNet (acap):提取特征信息和分类通过引起CapsNet没有IndRNN顺序模型。(3)IndRNN + CapsNet (IRCaps):使用IndRNN和CapsNet顺序没有注意机制模型检测和分类。
这样的比较实验让我们看到在模型中每个组件的贡献。下表3,空气模型没有CapsNet低精度,精度和召回率比在这项研究中使用的模型,它显示了胶囊网络的有效性。acap不IndRNN,结果类似于空气模型,和所有评价指标也低于我们的模型。此外,IRCaps模型消除了注意力机制,和我们预期的结果。模型的性能不如我们的模型由于无法选择更多有用的信息,这也说明了注意机制的必要性。
为了验证我们提出的模型更适合恶意URL检测和分类,一组实验被设计通过使用其他深度学习模型与方法。实验结果如表所示4。在这个实验中,我们固定hyperparameters和输入相同的数据集在相同的实验环境下不同的模型来验证我们的模型的改进。
这些方法有良好的恶意网址检测和分类的性能。万达和江35)也使用字符嵌入技术和一个CNN架构提取特征和分类,精度99.7%。然而,它在准确性和略差F价值。Bahnsen et al。24和梁等。36]使用LSTM和Bi-LSTM模型,分别就可以得出结论,Bi-LSTM模型的准确性达99.74%性能略优于LSTM。在王的37)方法,融合后主机特性和URL信息功能,Bi-IndRNN用于检测和分类,最后,召回率为99.93%。除此之外,一个单独的关注,IndRNN模型实验中,类似的结果。此外,CapsNet可以节省更多的功能,可以发挥自己的优势。一个CapsNet [38)超过其他单一模型在某些评价指标。然而,在这项研究中提出的模型结合了这些优势,可以超越前面的各评价指标模型。通过比较LSTM Bi-LSTM, IndRNN, Bi-IndRNN,可以得出的结论是,使用双向网络具有更好的性能比使用单向网络模型。与其他模型相比,我们的模型在所有指标有所提高,精度和召回率达到了99.78%和99.98%。
4.6。的成本模型
研究该模型的时间成本,我们在之前提出的方法进行了比较实验研究。实验分为五组。每组实验使用早期停止防止模型过度拟合,所以每个模型训练的时代是不一样的。实验测试了一个时代所需的平均时间的模型,平均总所需的时间培养一个完整的模型,模型的可训练的参数,测试精度。实验中使用的硬件的参数表5,时间成本的实验结果给出了表6。
从实验结果可以知道,经典的模型也可以在短时间内取得良好的效果。例如,一种引起Bi-LSTM模型称为AB-LSTM提出(8)可以得到99.69%的测试精度。在追求更高的精度,研究人员提出了更复杂的模型来检测恶意url。TException方法提出了(39)使用多个TException块组成的一维卷积,批处理规范化,Maxpooling, ReLU层和深层神经网络(款)层执行功能处理字符级和句的url。这种方法使用多个批处理标准化层加快训练,但这也将减少随后的激活函数的表达能力,导致改善精度有限。同时引起CNN-LSTM (ATT-CNN-LSTM)方法提出了(40)和CNN,引起分层RNN (ATT-CNN-HRNN)方法(41CNN和RNN)结合相关的方法,可以有效地提取相关特征,实现检测恶意URL。从表可以看出2与其他新方法相比,我们的方法确实需要一个长时间训练的一个时代,是由路由协议算法的胶囊的内部循环网络。但是,较小的训练参数使我们的方法收敛速度快,具有相同的数量级总培训时间和其他先进的算法,并有更高的测试精度。
5。结论
本研究提出了一个联合神经网络算法模型结合引起双向独立复发性网络(Bi-IndRNN)和胶囊网络(CapsNet)来识别和检测恶意url。它可以从实验得出结论,该方法的性能检测恶意url明显比这些更好的一个深层神经网络和浅神经网络。本研究的关键是使用生成的词向量模型word2vec训练获得URL字和特征矢量特性,提取纹理URL的指纹特征,融合这三个特性。然后,提取关键特征是基于多线程的注意机制和Bi-IndRNN的重量,最后,使用胶囊网络构建高维特性和分类。此外,在相同的实验环境下,我们比较不同的功能类型和维度,不同的模型组件和算法模型。总之,本文提出的方法可以有效地提高检测效率和精度的恶意url。
它可以改善,虽然方法在这项研究中表现良好。在后续过程中,我们将考虑将动态和静态特性来验证其有效性。与此同时,我们将继续更新模型,将新组件集成到系统,优化模型的时间成本来实现一个更优秀的方法。
数据可用性
使用的数据来支持本研究的发现已经存入GitHub库(https://github.com/yipeng-liu-rep/malicious-url-data)。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作是支持的新疆自治区重点研发项目(2021 b01002),中国国家自然科学基金(U2003208)和赛尔创新项目(NGII20190412)。