文摘

与网络中数据的增加,服务器的负载和交流变得越来越重的链接。边缘计算可以缓解这个问题。由于海上Darknet恶意内容,它具有较高的研究价值结合边缘检测和分析计算与内容。因此,本文举例说明了一个基于机器学习的智能分类系统和Scrapy能够检测和判断快速地服务与恶意内容的类别。因为Tor Darknet保密和生存时间短的域名,获得统一资源定位器(url)和资源网络的挑战。在本文中,我们专注于网络基于洋葱路由器(tor)匿名通信系统。我们设计了一个爬虫程序获得Tor网络和标签的内容分为六类。我们也建立一个数据集包含url,分类,和关键词。边缘计算是用来判断网站的类别。的准确性基于机器学习算法的分类器高达89%。 The classifier will be used in an operational system which can help researchers quickly obtain malicious contents and categorize hidden services.

1。介绍

Darknet有大量的数据。边缘计算可以处理大量的数据终端设备和处理结果传输到服务器,减轻服务器的压力计算和通信链路的负载1]。Tor(洋葱路由器)Darknet [2),也被称为洋葱网络和黑暗的网络,是一个网络使用匿名通信技术(3]。很难隐藏服务的访问和获取资源从它不使用特定的软件或代理机构。他们的网站不仅是搜索引擎索引通过谷歌或其他标准也迅速失效(4]。由于良好的隐蔽Tor Darknet很多非法内容退出,如毒品,枪支,和黑客技术。COVID-19爆发之后,许多医疗产品和供应也出现在Darknet市场(5],不利于社会的稳定。

AlQahtani和El-Alfy6匿名技术进行了广泛的研究和洋葱网络。Tor网络的隐蔽性很强了,但是有一些缺陷在Tor隐藏服务的设计和实现技术(7- - - - - -9]。此外,由于特殊的网络结构和隐藏通信双方身份的特点,改进后的洋葱网络技术也适用于其他应用程序如互联网的车辆(IoV)特设网络(10]。因为大量的优质资源,获得他们的困难从黑暗的网络,Tor网络资源的挖掘和分析一直是学术界的主要研究热点。

有许多研究Tor网络资源的方法。网络爬虫技术可以提高获取网络资源的效率。Iliou et al。11)和Monterrubio et al。12)提出了一个通用框架,爬行在Tor网络自动获取web资源。王等人。13和他et al。14)提出了一种方法来识别匿名Tor的交通网络。Biswas et al。15)提出了一个方法,自动识别Tor网络服务的基于感知哈希,确定服务只有通过快照的服务。除了上述方法外,web页面文本的分析也是一个常用的研究方法(16]。它可以采用数据挖掘和机器学习的方法来分析数据在黑客论坛和Darknet市场并迅速筛选出相关威胁情报(17- - - - - -19]。

在黑暗的web内容的分析之前,有必要获得大量的url和分类的主题网站,进行有针对性的研究。菅直人和Nguyen Thi获得网站的主题通过分析url (20.]。然而,由于在Tor Darknet域名的特殊性,相同的方法不能直接用来确定网站的类别。

艾尔Nabki et Al。21)和吐唾沫的et al。22)全面分析了隐藏服务Tor网络基于网页内容和分类的主题网站。科夫et al。23)获得隐藏服务描述符通过端口扫描和分类的内容。他们发现Tor的内容隐藏服务多样化。艾尔Nabki et Al。24手动]Tor网络地址分为26个类别和选择九个类别适用于训练三个不同的监督分类器。然而,他们并没有把爬行和分析过程形成一个视觉交互系统。Buldin和伊万诺夫25)再使用算法来识别Darknet web页面的四类。Graczyk和Kinningham26在匿名)分类产品市场的基础上,支持向量机模型。然而,他们的分类模型的精度约为79%。

这项研究集中在六个不同的类别的Tor Darknet网站。他们是“假币”、“伪造的信用卡”,“秘密货币”的方法,“黑客”和“药物”,分别。这五个类别对社会造成极大的危害,在Tor Darknet资源丰富。其余的类被分配到一个6日类别,我们称为“别人”。

获得Tor的网站的内容,程序基于Scrapy框架设计。然后,我们创建了一个数据集来训练一个分类器的基础上再使用web-text预处理算法(资讯)技术从网页中提取特征,可以突出主题。然而,模型的最优参数选择使用交叉验证和网格搜索。

最后,我们提高了分类器的准确性为89%,高于10%的基于支持向量机(SVM)分类器算法(26]。此外,我们设计了一个系统自动抓取的内容和分类在Tor Darknet网站存在。它将帮助研究人员更容易获得大量的内容和确定Tor Darknet类别的网站。

2。提出模型Tor Darknet资源检测边缘计算

2.1。系统概述

系统结合的功能检测和分析Tor Darknet资源设计我们的工作。它使研究人员能够轻松获得Tor Darknet网站的内容和网站为未知类别进行分类。如图1,系统分为三个模块。

边缘计算模块主要负责检测和预处理Tor Darknet内容。传统的云计算系统正在经历网络延迟和带宽拥塞结果的巨大数据由物联网(物联网)设备。边缘计算出生的需要巨大的物联网设备网络和实时性能的高需求的应用程序。主要应用程序、服务和数据存储是沉没到网络的边缘,使加工更接近数据的来源。在云计算模式,这将解决问题,如过度应用延迟和严重的网络负载所产生的巨大的数据上传到云数据中心进行分析。网页的url分类将检测到的爬虫。预处理后,内容将上传到一个分类器,使数据处理压力在训练模块和减少网络传输的负担。访问隐藏服务的效率是有限的,由于访问的复杂性Tor网络和路由协议的特点。此外,服务通常有一个生命周期短,容易故障。因此,web页面内容应该在边缘检测设备,和原始数据应该被加工成独特的词最好描述网站的类别。 The classification result may be returned more quickly and correctly after submitting the processed corpus to the classifier.

需要训练的分类器训练模块。首先,词汇特征数据集必须是矢量化和加权。数据被分成两组,训练集和测试集,并被用于训练分类器。

输出模块用来显示结果。未知的url输入时,履带开始工作和他们所收集的数据被发送到分类器进行分析。系统将显示分类器的结果和性能报告。此外,用户可以选择保存任何对象和生成词云。

2.2。域名收藏

在Tor Darknet,域名的完整格式是“[摘要]。洋葱”,它是由两部分组成:第一个(消化)是一个随机字符串的数字和英语,第二个是Tor的统一的后缀链接,jsaljfslj4sfd5ad。例如,洋葱。它不会表现出任何结果,当我们搜索网站的后缀“.onion。“因此,为了Tor Darknet的内容进行分类,域名需要以不同的方式获得。摘要Tor域名被收集在两个方面:一是收集他们Darknet目录网站;另一种方法是使用开放数据集。url主要来源于公开数据集被称为“Darknet使用文本地址”(DUTA)。它包括网站的域名、类别和语言类型。然而,由于缺乏文本内容相关的网站,我们应该设计爬虫获取它们。内容会被尽可能多的单词可以反映web类别。 Simultaneously, we built a new dataset for training a classification model.

2.3。Tor Darknet的沟通原则

术语“隐藏服务”(HS)是用于描述一个网站,Tor Darknet上运行。除了域名的唯一性,社区与他人的方式也很有趣。你需要在本地运行Tor代理软件访问网络。图2和算法1描述特定的客户端之间的通信过程和一个隐藏的服务网络。

建立了网络的通信通过一个电路由众多路由节点称为“洋葱路由器”(或)。发射后的商品,一个洋葱代理(OA)将随机选择一个路由器作为引入点路由器(IPO),通过隐藏服务将连接到Tor网络。OA会创建一个隐藏的服务描述符(HSD)包括上市信息,时间戳,HS公钥,和其他信息,并上传一个隐藏的服务目录服务器(HSD)。

用户通过洋葱代理客户机连接到网络。OA获得Tor网络中路由器的信息从一个目录服务器(DS)和选择表现最好的路由器建立一个通信电路。默认情况下,客户机连接到hsd通过3-hop或。根据客户端发送的域名地址,服务器查询对应的隐藏服务描述符并返回,然后,客户端解决IPO地址。客户的OA选择一个或会合点路由器(RPO)随机传送的RPO HS通过IPO的信息。RPO将作为匿名中心端和HS之间的数据交换。学习后的信息RPO, HS构建6-hop链接形成一个通信电路和与客户开始数据传输。

输入:
输出:
(1) 客户端发送请求到DS
(2) ( ( ]) DS / / 将路由信息返回给客户机
(3) 1到 n
(4) 路由器的选择性能好
(5) 结束了
(6) 客户端连接到hsd和发送
(7) 如果 是失败的然后
(8) 返回假
(9) 其他的
(10) 客户端获取信息从hsd IPO
(11) 如果
(12) 1到 n
(13) 客户选择一个或RPO并将其信息发送给海关通过IPO(首次公开募股)
(14) 结束了
(15) 还真/ /数据传输可以开始了

网络配置客户端可以访问Tor Darknet之前是必要的。有两种方法来连接到网络:一是使用Tor浏览器代理,另一个是配置环境。

袜子协议是用于网络通信。然而,一些爬行模块不支持这个协议,所以他们不能直接获取和解析返回的响应。

在这个实验中,结合scrapy框架,最初的配置修改和代理转换软件Polipo用于袜子协议转换成HTTP协议,从而达到收购Tor Darknet资源。图3显示该机构转换:

2.4。资源为Tor Darknet检测

我们创建了一个基于Scrapy爬行程序框架Tor Darknet完成自动获取资源由于需要收集大量的url和每个网站的内容。

程序的运行流程如图4和算法2

蜘蛛程序读取所有url列表中的“start_urls”并发送他们的引擎,整个框架的中心,负责处理组件之间的数据流和触发一些操作。引擎将接收url时间表,将url添加到调度队列,等待处理。URL处理后,引擎将收到一个请求发送的时间表和触发下载工作。收到通知后,根据设置下载器将处理一个请求在下载Tor Darknet中间件和访问网站。下载器会发送一个处理请求,即响应,蜘蛛的进一步处理。如果下载失败,引擎将通知时间表,然后标记,以后重新制作操作。

当蜘蛛接收到响应,“解析”功能的蜘蛛程序将处理下载的内容根据自定义项目。然后,物品在“解析”将被传递给解析引擎进行进一步的安排。引擎将物品发送到项目管道进行数据处理和存储在一个文件中,直到完成爬行的URL。

调度队列中的url将继续下去,直到所有url都被处理。Scrapy不重复访问的网站访问,而解决问题的多个访问相同的URL域名设置。

从Tor Darknet数据下载后,该系统将使用数据集来训练一个分类模型,它将被下载到边缘设备。边缘设备使用的模型分类未知的网站的内容,最后获得每个网站的类别。

输入: ( )
输出:
(1) 队列 排队( )
(2) 非空
(3) 出列( )
(4) 如果 没有被处理然后
(5) =下载( )
(6) 其他的
(7) 继续
(8) 如果
(9) 如果网站的状态= 200然后
(10) 解析( )
(11) 其他的
(12) 马克,可重复操作
(13) 继续
(14) 如果
(15) { }
(16) 结束时
(17) 返回
2.5。数据预处理

网站页面的展示内容和布局是通过HTML代码实现。在爬一个网站获得文本,HTML元素的文本需要删除过滤掉的话。数据清洗过程如图5

在步骤1中,在一个web页面的源代码下载,我们使用“lxml.html解析HTML页面的内容。document_from_string LXML库”功能。然后,“lxml.html.clean.cleaner () .clean_html()函数是用来过滤脚本和HTML标记获取文本内容显示在网页上。有许多转义字符(ESC),回车,标签和其他无意义的字符内容。因此,我们结合用Python字符串类型上的操作来取代他们的空间。

在步骤4中,语料库没有html标记,看上去更像普通文本。文字格式,另一方面,是不一致的。这将降低选择功能词的影响,增加特征空间的维数。我们使用了“casefold()函数来改变所有单词小写,这样我们可以统一处理。所有标点符号和阿拉伯数字都使用一种算法过滤。我们减少变形词使用抽梗机包基本形式,这有助于对文本进行预处理,话说,标准化和文档文本。我们把“创造”和“创造”到“创造”为例。

所有全集的格式统一时,他们将在第7步中做进一步的处理。所有的单词出现在英国停止词语料库被移除。这些话,这样,他们是谁,等等,不能代表任何网站的特点。最后一步是删除字符串超过十二个或少于两个。这些字符是奇怪的条款不符合网站的主题。

所示的具体实现方法的算法3。每个网页的文本内容后清洗,语料库是集成到一个数据集包含url、类别、关键字。一种机器学习算法,然而,然后应用于这样的样本训练一个分类器在后续实验的目的。

输入:网络设置
输出:语料库集 ( [0], ( ])
(1)
(2) 内容=获得的HTML内容
(3) 使用“lxml()函数,解析内容,然后删除HTML标记,脚本等
(4) 文本=保存文本内容显示在页面上
(5) 在文本
(6) 如果 = ' = ' 然后
(7) = "
(8) 如果
(9) 结束了
(10) 小写的所有英语单词
(11) 在文本
(12) 如果 是一个标点符号一个数字然后
(13) = "
(14) 如果
(15) 结束了
(16) PorterStemmer(文本)/ /统一所有单词格式
(17) word_list ( , )= text.split (”)
(18)
(19) 如果word_list [ ] stopwords ( , )2 len (word_list [ ]) 12然后
(20) delete_wordlist[我]
(21) 如果
(22) 结束了
(23) word_list ( , )。加入(")/ /词是连接字符串
(24) 结束了
(25) 返回

3所示。分类模型

为每种类型的网站,必须有一些词,突出其特点。因此,后vectorizing语料库,我们结合机器学习算法来训练一个分类器适合Tor Darknet网站。

3.1。文本向量化

web内容的分类之前,有必要改变单词基于文本表示成一种可以识别和计算。换句话说,词汇需要转换成向量和相似性的计算文本语义转化为计算向量之间的距离。

如果单词之间的相关性和网站主题是根据词频直接测量,测量结果将相关web页面的大小,有时的话,不能真正计算高度的相关性。

例如,““经常在一个页面上出现,但它也出现在其他页面,所以它没有多大的重要性。“黑客”出现在页面上相对很少,但它只存在于页面。因此,更重要的是比“”页面。

因此,一个更好的加权方法应采用计算词更多的相关网页的主题。结合的想法TF-IDF(术语frequency-inverse文档频率),本文采用一种新的加权法来计算词向量的值。

访问所有的域名后,我们得到每个网站的内容,然后构建一个web页面 = ( ),在哪里 代表中包含的内容 web页面。

首先,频率加权方法用于计算所有功能词的发生时间在相应的网页文本,见公式(1), 代表功能词的出现时间 在网页 而且, 代表了 词的网页。

网页包含功能词的数量 是由

根据公式(2),k网页集和的大小吗 表示平滑系数,确保分母不为零,我们计算逆文档频率(IDF)的功能词 在web页面 这是由

然后,我们乘的两个值 获得的TF-IDF价值功能词 在web页面 ,所示

最后,所有功能词的TF-IDF值归一化根据公式(4)。分母是根号的加权值的总和所有单词在web页面 ,分子是所有特性的加权值的话。

计算所有功能词的加权值后,一般来说,价值越高,更好的web页面的功能。

如图6,一套web页面有两个样本。每个值在矩形是一个词的加权值。页面的内容和页面B是“黑客攻击药物药物。根据上面的公式,每个单词的加权值计算页面。明显,“黑客”的加权值高于句话说在同一页面,“黑客”一词,可以更好地呈现web页面的主题。

3.2。Darknet基于资讯分类模型的算法

资讯(再)是一个著名的监督机器学习分类方法与一个成熟的理论和直观的推理。后计算之间的距离“数据分类”和“已知类别的样本,这些样本进行分类比较。定制的K值,并选择K例子是最相似的样本训练集的分类。K样本类别的比例是用于确定目标类别的样本分类。

假设web页面的所有功能词集 ,网页的文本内容 表示为一个 - - - - - -维向量( ), ,在哪里 在文本表示的重量特性。计算页面之间的距离 和页面 根据公式(5), 代表的重量 功能页面的文本内容

如图7以二维空间为例,预测广场是一个web页面。三角形和圆形两种不同类别的网站。根据公式计算每个样本点的距离(5)。然后,我们把 样品最接近广场。因为三角形的数量在圆形的面积是最大的,预测广场类别和三角形是一致的。

资讯应用算法的实现方法Tor Darknet分类算法所示4

输入: ( ),网页 是预测
输出:的类别
(1)
(2) 计算每个样本之间的欧氏距离
(3)
(4) 结束了
(5) = / /按升序排序
(6) 样本 铅丹 / /选择 样品最短的距离
(7) / /计算每个类别的数量 样品
(8) 马克斯 / /输出数量最多的类别是预测类别
(9) 返回
3.3。模型优化

hyperparameter资讯分类模型K会影响预测结果的算法。当我们选择一个值K太小,很容易导致过度拟合的分类模型。相反,太大可能导致underfitting。然而,并没有合适的理论指导的选择K值,这可以通过手动选择经验,然后由交叉验证方法。

网格搜索法的调整参数。遍历所有候选人参数和尝试每一种可能性。表现最佳的参数是最好的参数我们想要申请分类器。见公式(6), 表示模型的价值K , 代表模型的准确性 , 代表了最高精度最好的模型。

交叉验证,也称为循环验证,模型效果评价的方法,以避免片面的结果由一个单独的测试。验证集的概念引入到优化参数后评估模型的准确性,但它不参与训练,这将更客观地评价训练集以外的数据之间的匹配度和目标属性。

如图8,数据集被分成十组十模型评估。每一次,一组数据作为验证集,剩下的九组作为训练集,验证集不同,实验会产生十模型及其精度 平均十个模型的准确性 是最终的分类器精度hyperparameter吗 ,见公式(7)。

结合网格搜索和10倍交叉验证的准确性 应用的计算公式(6)选择最高的模型精度。

4所示。实验分析

Python数据抓取和分析是最好的选择。这是许多开发人员喜欢的地方,因为它的简单性和强大的功能。因此,为了实现我们的设计目标,我们的实验是基于Python 3.7开发Windows下10根据实际情况。

4.1。然而,模型基于频率加权

在这个实验中,我们利用网格搜索找到一个合适的K1至7级。然后,资讯分类模型与不同参数的结果评价结合10折交叉验证。如图9相同的模型K价值,不同的分区数据集的结果不同,因此所需的平均值终于比较。

如图10黑条是频率加权的结果。白色的酒吧是TF-IDF权重的结果。每个酒吧都代表不同的值的模型的准确性K。的平均精度是最高的价值K是三。表1显示了评估报告的分类模型K是三。分类精度只有0.78。这个精度太低被应用到系统,和将会有一个大的错误,所以该模型仍然需要改进。

4.2。然而,基于TF-IDF权重模型

11后10倍交叉验证的准确性与TF-IDF加权特征向量。

如图10被TF-IDF加权后,分类模型有不同的结果K网格搜索值进行比较。当K值为4,平均模型的精度是最高的。这个分类器的精度达到0.89。表2显示了该模型的报告的hyperparameter等于四。

如表所示3反复实验,TF-IDF功能向量化后的分类模型具有较高的精度和性能hyperparameter时是最优的K是四个。因此,这个模型将用于后续系统的分析功能。

4.3。比较的相关研究方法和结果

如表所示4,研究[2426]手动标记类别的域名,选择9类适用于分类模型的训练。它采用了一种基于TF-IDF加权朴素贝叶斯(NB)模型。最后,模型的交叉验证的准确性是0.86。

这项研究在25)四种类型的非法网页分类算法基于资讯。0.80测试样本的准确性。工作(26)设计了一个模型为匿名市场自动分类产品。它使用TF-IDF提取特征,然后使用主成分分析的文本选择功能。这12个产品类别分类使用SVM方法,模型精度高达0.79。

在这篇文章中,我们六个分类类型的网站和四终于确定最优hyperparameter分类算法相结合的网格搜索和交叉验证。资讯应用训练的数据分类模型基于这个参数,我们终于改善了精度为0.89。

4.4。系统功能测试

选择一个文件来存储网络环境后的域名已经成立。在那之后,它将能够访问所有域名。停用和访问域名也不会被再次使用。

抓取的内容将会显示在显示区域的分类结果,如表所示5。数据显示部分的内容。

如图12可以选择,任何域名系统接口,系统将自动生成和显示这个词云映像的网站。

这个函数有助于研究人员直观地获取网站功能词和创造更好的视觉效果。

5。结论

隐藏的服务通常只保留服务状态有限的一段时间,以避免被跟踪,导致频繁的域名地址和短寿命的变化。因为它需要特殊的软件和数据必须加密和解密通过每个节点的通信电路,使用Tor Darknet是缓慢的。

对于上述原因,手动分类网站创建大量的劳动力。此外,针对性是如此之低,无法快速达到某个域名类型。

因此,我们创建了一个视觉交互系统基于边缘计算可能帮助研究人员迅速获取网站内容和分类类别。分类模型的准确性高达89%,这将提高人员效率识别非法网站和重要的实际应用。此外,只有六个类别在这个实验中由于有限数量的域名已经聚集。在未来,我们将收集更多的域名的其他类别和获得不同类别的特征词汇扩展的数据集将包含更多的网站类别。

数据可用性

在这个实验中使用的数据集是DUTA-10k,是一个典型的开源数据集收集Darknet地址和可以从相关网站下载。在这个实验中使用的数据集从GVIS下载平台(http://gvis.unileon.es/dataset/duta-darknet-usage-text-addresses-10k/)。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是支持国家重点研究和发展项目的一部分,中国yfb1005804格兰特在2020部分由中国国家自然科学基金资助下61632009和62172159,在部分程度上是由于2017 a030308006广东省自然科学基金资助下,和部分下的湖南省自然科学基金资助2021 jj30294。