文摘
在无数的应用自然语言处理(NLP),协助执法机构(LEA)检测和预防网络犯罪是一种最新的和有前途的。通过数字手段促进暴力或讨厌被认为是网络犯罪,因为它利用了网络支持非法活动在现实世界中。手头的论文提出了一个解决方案,使用基于神经网络(NN)的NLP监测可疑活动在社交网络允许我们识别和预防网络犯罪有关。集群的LEA可以找到类似的帖子分组,然后确定他们的极性,并识别用户帐户的一个子集,促进暴力活动广泛审查的努力防止犯罪特别是恶意操纵社会(HSM)。不同的实验也证明方案的可行性。
1。介绍
信息和通讯技术(ICT)已经彻底改变了我们的社会,特别是人工智能目前领导这样的革命,在附近的一个核心作用能显著影响人类的未来(1]。因此,研究人员致力于人工智能提出了以下问题:机器可以取代一些人的功能,成为一个中心轴为下一代在生活的某些方面?从这样的一个问题,不同的进步已经在这方面,在本文,我们专门审查人工智能理解人类语言的能力。
自然语言处理(NLP)是人工智能领域的专注于解释人类交流通过计算机器学习模型(2]。揭示人类语言的本质是NLP的目标之一,它允许算法得到完整的句子的意思表达的人。通过这种方式,一个NLP模型可以理解一个短语的表达,解释一个人的欲望与情感从某些词的使用,甚至建立句子之间的相似之处的意图(3,4]。因此,NLP人类语言的理解带来了广阔的前景,这可能是有用的在不同的场景中,如客户服务、广告、语音翻译,和嫌疑犯的分析(5]。
反过来,NLP相似模型是用于查找两个文本之间的亲密关系根据其意义(6]。机器学习过程每一个文本和执行任何任务,它必须首先转换成数值格式。的理解一个短语的语义相似的决心可以使用在各种各样的领域等不同目的,(我)寻找相似的用户问题在网络论坛上给它们分配相同的答案,(ii)发现类似的在线文档检测剽窃,(3)推荐类似的新闻在线报纸来提高新闻研究,或(vi)识别相似之处张贴在社交媒体和概要文件用户组。
即使在网络安全中使用NLP模型最近的一个研究领域,有一些建议,旨在构建分类器的激进和nonradical在线用户(7)和开发注释和文字嵌入方法(8]。其它建议使用NLP模型在网络安全的目标是设计模型来检测仇恨言论在网络空间(9)和与犯罪嫌疑人在线配置他们的利益有关儿童性虐待(3]。
手头在这种背景下,本文提出了一种解决方案通过NLP发现网络犯罪在社会媒体。它使用一个NLP相似模型来识别组织社交媒体的用户帐户,生成的消息推动暴力和仇恨,从而影响公共安全。这最后的情况是一个不受欢迎的ICT的使用超出合法社会抗议被认为是网络犯罪,因为它可能是一组协调的活动的一部分,旨在引起不稳定。不稳定引起的威胁代理称为HSM运动和网络是一个最困难的行动推出时可能面临的典型挑战的全球网络事件(10](没有主权,匿名性,缺乏监管,等等),很难识别这些活动背后的实际威胁代理(11]。因此,我们的解决方案旨在支持LEA预防网络犯罪的劳作,帮助用户概要嫌疑人通过集群的生成和理解他们的极化。
本文的其余部分的结构如下。部分2描述了一些显著的相关发现文学作品。部分3提出解决方案应用NLP模型,作为科学数据生命周期的一部分,为检测和预防网络犯罪。然后,应用程序之前的在网络安全上下文中提出了部分建议4,其中包含结果的评估和分析。分析应用程序的NLP模型作为一个全国性的网络防御战略的一部分包含在部分5。最后但并非最不重要的部分6包含了一些亮点来自于工作,揭示了一些未来的研究方向。
2。国家的艺术
一些科学家已经在NLP支持网络安全和网络防御活动(12),如保护系统,检测怀疑运动和团体,监控风险场景,或寻找犯罪档案,我们可以看到在桌子上1。
在网络安全,田村和松浦13]提出了马尔可夫链和数据包流的组合相似度来提高异常检测在工业控制系统扫描攻击(女性)。包被指定为嫌疑人如果马尔可夫链模型和相似模型发现违规行为在时间和内容方面,分别。网络攻击的检测与社交媒体网络服务可以补充饲料。一方面,钱伯斯et al。14)两个NLP模型实现的,一个连续bag-of-words (CBOW)模型和基于主题的生成模型(部分标记狄利克雷分配,PLDA)处理微博为二进制分类(攻击或nonattack)和描述用户行为的话题。另一方面,Khandpur et al。15]利用相似性模型(卷积树核),域生成算法,动态查询扩张,和集群检测“账户劫持,”“数据泄露,”和“DDoS攻击”在推特上。这种类型的攻击也提取,在同一个社交网络,由Ritter et al。16)通过命名实体识别的就业(NR)和semisupervised期望正规化。
审查安全Android应用程序的另一个方法是通过香港et al。17),设计系统AUTOREB分类谷歌玩应用程序审查在四安全类别(“垃圾邮件”,“金融问题,”“超水准许可,”和“数据泄漏”)和总整体应用风险水平。后者是通过bag-of-words(弓)和稀疏支持向量机(SVM)分类器和前众包技术。此外,从公共资源中提取的妥协(IOC)指标,廖et al。18)在其自动化来提高网络威胁的情报。他们尤其提出iACE,模型使用NLP(依赖解析和主题术语提取通过词性标注(POST)),分类,和图挖掘分析技术和区分国际石油公司和他们的背景。
此外,人们在社交媒体表达自己的想法,在极端情况下可能假设仇恨犯罪。从这个意义上说,一些工作在文献中有一个专注于仇恨言论的检测。Kohatsu et al。9HaterNet提议,一个智能系统,采用长短期记忆神经网络多层感知器神经网络,结合一系列的分类器(例如,线性判别分析(LDA),二次判别分析(QDA),随机森林(RF),岭回归(RLR)和支持向量机(SVM))来推断一个tweet,其中包含一个讨厌的消息。类似的方法提出了汗et al。19),注释推为“仇恨言论”,“进攻”,或者“nonoffensive”使用序列卷积神经网络(基本)。Gamback和Sikdar20.]还利用卷积神经网络(cnn)根据四个预定义类别分类tweet(种族歧视,性别歧视,non-hate-speech)。与前面提到的作品相比,Malmasi和Zampieri21应用线性支持向量机(SVM)与三种标记注释tweet(“恨”,“攻势”,或“ok”)。此外,为了提高仇恨言论的性能检测、钱等。22]介绍了内部和interuser表示学习通过考虑用户的历史文章通过相似性和加强他们与所有其他用户。建议采用双向长基于短期记忆(Bi-LSTM)和梯度深强化学习模型。
在恐怖主义和激进化的背景下,Araque和伊格莱西亚斯7]探索情感特征和语义相似度检测的激进化在线报纸和社交媒体,因此分类用户逻辑回归和线性支持向量机(SVM)。Nouh et al。23)也使用宣传杂志来构建一个激进的语料库(TF-IDF分数和字嵌入)和推断出他们的心理/行为的信号。由此产生的特性进行了测试在不同的分类器对样本进行分类的tweet激进与否,随机森林和神经网络达到最佳性能。陈(24)合并黑暗网络论坛来衡量激进化,设计一个方法通过一个支持向量回归(SVR)来推断是否一个论坛发布了“暴力”“愤怒”“恨”或“种族主义。“欧洲H2020红色预警项目25)是一个雄心勃勃的软件工具包支持草原在打击网上宣传、招聘、或动员成员等恐怖活动。后者包括强大的NLP模块、社会网络分析(SNA)和复杂事件处理(CEP)。
网络犯罪而言,伊克巴尔et al。26)设计了一个基于命名实体识别的WordNet模型,语义分析和相似模型来识别和提取法医相关信息从大型可疑的聊天记录。Pastrana et al。27)应用逻辑回归、社会网络分析、聚类、主题提取论坛帖子描述cybercriminal趋势和防止在早期检测潜在的受害者。Bhalerao et al。28]也探索地下论坛,专门针对网络犯罪的发现供应链。他们测试了不同的分类器(Facebook AI FastText(英尺),逻辑回归(LR)、支持向量机(SVM)和梯度增加树(XGBoost))在产品类别标签的文章(如“恶意软件”,“僵尸网络”,和“DDoS服务”)根据它们的类型和分类回答(“购买”,“出售”和“其他”)。
如上所述,几种方法了NLP解决网络安全问题,仇恨犯罪,激进,或者网络犯罪。然而,我们观察到没有一个独特的框架采用对抗这些威胁,和作者设计方案根据特定字段,场景,和目标的案例研究。一般来说,NLP的应用是不够的,因此通常补充与其他基于ai或面向数据的技术。手头在这方面,本文打算检测和监视Twitter的暴力运动,提出了一种组合,我们还没有看到在文献中,采用相似模型和情绪分析确定积极的tweet,并应用聚类和社会网络分析来推断的怀疑用户组写相关内容。
3所示。科学数据生命周期基于NLP模型
科学数据生命周期包含以下阶段(29日):(i)业务理解,(2)数据采集,(3)建模,及(iv)部署和行动提供了一个高层次的角度,必须开发建立一个功能数据科学的解决方案。这个小节展示我们的建议的应用这些科学数据生命周期的阶段在建设我们的解决方案,旨在揭示网络犯罪在社会媒体NLP模型。
3.1。业务的理解
社交网络的力量增加了在过去的几年中由于言论自由的人们展示等社交平台。同时,社交网络允许用户找到同行具有类似口味,甚至促进创建组(30.]。社交网络的全盛时期引起了无数的团体出现,包含一个多样性的信息数据科学家很有趣,例如,推断和检测模式(31日]。
因此,社交网络成为一个丰富的数据(32)包含的信息用户帐户配置文件中包含的特点和信息用户的思想,隐式地包含在微博和用户活动。然而,一些用户可能有更深的兴趣创建内容,促进暴力等社会反抗,网络欺凌,骚扰,甚至阴谋产生有害结果相关的特定利益,影响他人的信仰和行为33]。这种现象在信息战叫做“恶意操纵社会”(11,34]。
在这种背景下,本研究的目的是开发一个NLP的解决方案能够促进暴力活动,以便分析社交网络账户草原可以改善他们的努力在预防犯罪。这个解决方案是面向实现以下具体目标:(我)它应该表现出多个可疑用户之间的关系(2)它应该提供一个分析可疑的tweet的相似性和极性(3)它应该被应用在环境类似于由说西班牙语的国家(iv)应该加快草原的反应来实现网络犯罪预防。
3.2。数据采集
在所有社交网络中,Twitter是一个最常用的分享观点和信息,甚至创建运动与政治、社会或经济利益,成为大数据来源。推特公开了一个大国的普通人之间的通信,由用户账户的增加证明和微博在过去的几年里35]。每天大约5亿条推讯发送Twitter上,和350000每分钟发送tweet (https://www.omnicoreagency.com/twitter-statistics/),表明Twitter在分享意见非常活跃,因此,它可以是非常有用的为当地执法当局监控网络内不同寻常的社会行为。所有这些上述原因,Twitter是《社交网络》选为原始数据的提供者,喂养我们的建议。
此外,微博需要矢量化处理,所以同样重要的是要依靠一个嵌入的数据集,其中包含的向量表示给定语言中最常用单词。重要的是要有这样大量的字与各自的嵌入的,因为这将确保大多数单词内部的微博将有一个表示数值向量后可用于NLP算法。推的向量化需要使用深度学习架构,例如,连续bag-of-words (CBOW) [36)和连续skip-gram (37),学习单词从训练文本的向量表示。CBOW,上下文词语的顺序并不重要,预计从本地上下文的话,一个社区定义参数。skip-gram,预计从这个词,和当地社区参数是随机取样的均匀离散分布在一个固定的范围(38]。
3.3。建模
建议的解决方案的方法是图所示1描述了主要步骤,被认为是为了保证管道接收原始数据由聚集tweet,清理并翻译所有感兴趣的微博,通过不同的NLP模型处理微博,获得可操作的信息,可能是使用的草原来分析可能有的网络犯罪的场景。
3.3.1。预处理
要分析的微博应该首先清洁标签,提到,和url,以避免下一阶段得到的模型建立与不定期字混淆。正常化的过程也应该适用于所有的文本转换小写,目的是避免这两个词意思相同但不同的情况下,可能被认为是不同的。此外,emojis可能是重要的一部分,一个用户发布的一条微博的意思,这些不应该被移除,相反,这些应该转换为一个短语,表示其意义。微博后清洗和所有有意义的碎片已经转换为文本,这些应该翻译使用的语言在嵌入过程中,例如,英语。
3.3.2。处理方面的相似性
接下来,微博必须使用嵌入的数据集矢量化中选择部分3.2。在这方面,每个tweet转化为一个向量,进而构成的向量表示的平均每个单词写微博。然后,收集到的微博由一个矩阵表示 ,在哪里向量的维数和吗是微博的数量。然后,处理,目的是构建一个矩阵的相似之处,该元素在哪里 矩阵的存储余弦距离和推特 。余弦距离角的余弦值吗两个向量之间和可以用点积和向量的大小,观察到以下方程:
此外,作为一个补充的结果,验证数据集与测试的目的是建立相似模型是如何能够排名相似的tweet。为此,确定排名的相似性进行每个tweet和计算排名根据其对剩余的相似性tweet。然后,对于每个tweet ,微博最相似少和两个类似的tweet 随机选择之间类似推特排名确定的越少。因此,验证为每一行的数据集,其中包含以下结构 是由。这个数据集需要一行一行地检查和调整手动为了创建一个适当的验证数据集。反过来,相似的测试模型的类似推特排名可能通过指标达到[39和折扣累积获得(常规心电图)40]。
(电子邮件保护)是一个计算的指标的数量,也就是说,微博发现类似于推特吗通过相似模型如方程所示(2),这个词代表一组与实际更类似于推特的微博 。艾弗森括号用于内部的术语和,代表了一个函数,它接受两个可能值:1或0,1如果推特发现的相似模型在其他情况下设置或0。
另一方面,(电子邮件保护)或折扣累积获得测量发现的相关性或相似与另一个微博,我们可以观察到在方程(3)。这个指标排名收到微博列表,这是用 。tweet的顺序排名列表中是很重要的,因为如果一个tweet少下推分析相似,常规心电图指标预计推特位于远离。对数函数尺度每个tweet的相关性。
指标支安打,常规心电图的主要区别如下:在撞到兴趣是验证一条微博是否类似推特的集合,在常规心电图的兴趣也在这样一套推成这样。这两个指标应该应用于相似模型的验证能力找到类似的tweet。
3.3.3。聚类
前面步骤中获得的相似性的矩阵是被用来制造集群类似的tweet。有不同类型的聚类算法,我们可以使用,例如,谱聚类(41],高斯混合[42),和k - means方法(43]。谱聚类是一个图论技术,使用特征值计算图表和找到连接使用边缘。另一方面,高斯混合组数据,属于一个类似高斯分布,和k - means使用欧氏距离构建集群。此外,最优数量的集群是由肘法(44]。
然后,每个集群中的每个tweet情绪分析可以分析模型38标识如果微博反映了积极、消极或中性的感觉。不同的算法存在使情绪如伯努利或朴素贝叶斯分析,使用贝叶斯定理(45]解释消息的含义。另一个算法用于相同的目的是单层感知器(SLP),这是一个人工神经网络,使得分类使用线性分离[以二进制的方式46]。此外,还有更多的基本算法如维达基于规则的模型,用于VaderSentiment (https://pypi.org/project/vaderSentiment/python库,把短语使每个单词的极性的和根据其语义(47]。从这些算法获得的主要结果是极性和主体性。
极性允许识别情绪的积极或消极的侵略性,它是由一个数字,表示的范围 ,1描述了一个非常积极的声明和−1描述了一个极其消极的语句。微博在−1极性通常包含攻击性的意见,他们中的大多数用人坏词;微博约在极性表示积极的语句;和微博0在极性表示中立的观点。另一方面,主体性是指个人观点的存在,情感,或判断一个句子,而不是客观,这是指事实信息。主体性由数字表示的范围 ,其中0意味着事实信息,1表示主观的意见。微博约在主体性一般指人非常热衷于交流意见。因此,这种情绪分析允许提取极性(消极、中立和积极)和tweet的主体性(实际和主观)组合每个集群。
一个词可能为每个集群映射到识别单词,更主要。这样的话地图通常由创建一个列表的频率的单词组成每个集群的tweet。最高的单词频率将在这个词最主要的地图。最后,平均集群最负极性选择通过图表分析深入的分析。
3.3.4。图表分析
一旦积极用户分组在一个集群中,最积极的用户在这样一个集群的因素也应该被确定。由于每个tweet的攻击性水平是由极性,最暴力的创造者的推文可以确定通过孤立点检测的技术。可视化技术,如直方图、箱形图和散点图是有用的为异常值检测和四分位范围(差)。最后,异常值的存在可能与统计检验验证如Grubbs、卡方和迪克森问测试。
用户帐户和tweet识别之前需要准备和丰富建筑图。首先,账户信息,如数量的粉丝和追随者,账户相互关系(从动件和后),照片,创建日期,Twitter ID、发送的微博数量,平均每日微博数量可以获得和分析。这些信息可以通过网络来获取情报工具如SpiderFoot (https://www.spiderfoot.net/),Maltego (https://www.maltego.com/),或者TinfoLeak (https://tinfoleak.com/)。所有这些信息然后出口到一个表和重组,这样每一行代表一个两个用户之间的联系,所以它可以进入图表构建器,例如,Gephi。
图论是传统上用来分析用户和检测的社区用户之间的交互(48]。所以最极化集群决定从上一节分析识别账户有关它们之间的某种类型的连接(直接关系)和相关账户通过第三账户(间接关系)。用户之间的关系是由一个有向图,每个节点代表一个用户帐户,并且每个边缘建立连接的类型( , , )在这两个用户帐户。
过滤器适用于图通常是基于图中心测量节点度等特征向量中心或网页排名(49]。最常见的中心测量节点度考虑邻居节点的数目来确定图中的一个节点的重要性;然而,它并不考虑自己的邻居连接。另一方面,特征向量中心不仅计算节点的度,并考虑其邻国的连接数。然而,特征向量中心可以引入一个中心偏见当第一个节点,只有很少的连接连接到中心节点与许多邻国,指出这样一个第一个节点中心显然是重要的,但这并不一定是正确的。消除最后一个偏见,PageRank中心考虑的方向连接节点之间或用户和分配更加重要节点输入更高学位。这样,无关的用户可能被消除使用测量,描述一些以前和最可疑用户的信息可能简化。
3.4。部署
建议的解决方案的目的是作为草原的关键信息系统运作,可以咨询不断地获取有价值的情报信息。此解决方案应该具有高可用性和弹性的操作将会异常的基本保证主动监视活动在社会网络和实时解决预防网络犯罪行为。
4所示。实验
本节包含的结果应用部分中描述的建议3在两个不同的场景相关的一些抗议活动发生在2020年在哥伦比亚和美国项目可用的数据和代码的存储库(https://github.com/alejandrarchbold/NLP-Model-for-prevention-of-Cybercrimes)。在这两种情况下,Twitter社交网络被用于提供要处理的原始信息。收集了在这两种情况下使用标签(https://tags.hawksey.info/),这是一个应用程序集中在tweet的集合,允许建立和运行一个自动收集使用不同的查询操作符在一个7天的时期。一段时间的几天可能被认为是短;然而,期限取决于集合的特定的运动分析;例如,一些活动只存在一个显著的纪念的日子或计划的事件。
嵌入过程是基于使用Google新闻嵌入和工具word2vec (https://code.google.com/archive/p/word2vec/),它包含通用嵌入的3000000个英语单词;每个人都在300 -维的向量表示。word2vec提供深度学习的实现架构CBOW [36]和skip-gram [37)计算向量表示的单词。这个特定嵌入被选中,是因为它的规模和质量,使它的一个最使用嵌入的数据集。改善分析,随后的追随者和账户的账户中提取最激进的集群使用网络情报工具TinfoLeak (https://tinfoleak.com/)。最后,该工具Gephi (https://gephi.org/)是用于社交网络图的构建集群的兴趣在这两个场景。
4.1。场景1:抗议腐败的时候COVID-19在哥伦比亚
这个场景中隐含的收集17454条包含# Marcha15deJunio (# ProtestJune15th),删除转发后,从880减少到1287条推讯。这些tweet指国家抗议的6月15日2020年在哥伦比亚解决主要针对不同的腐败行为发现COVID-19检疫期间,加上一些国家警察滥用有争议的情况下(https://www.lafm.com.co/bogota/en-vandalismo-acabo-marcha-por-la-vida-digna)。对于这个场景,推特上一天的集合的抗议,在5月28日,2020年,和2020年6月3日。
tweet预处理,适当清洁使用的相似性模型将使用后的管道。预处理的第一步是删除网址,提到和标签。第二步是将所有微博的特点转化为小写的。然后,表情符号取代了他们的词的意义通过使用Python库emoji (https://pypi.org/project/emoji/)。预处理后,空的微博被删除,总共1105条,这是翻译使用Google API服务(从西班牙语,英语https://pypi.org/project/google-cloud-translate/)。这个翻译的目的是统一的语言使用的一个Google新闻嵌入,可以推特进行向量化。
然后,收集到的tweet 被处理为表示节吗3获取训练数据集组成的一条微博 ,微博最相似和另外两个随机选择的tweet 在类似推特排名越少。因此,每一行的数据集,其中包含以下结构 是组成,共1105行。数据集是一行一行地检查和调整手动创建一个适当的验证数据集,验证数据集和原始数据集进行对比来验证模型的正确性,得到结果见表2,表明相似模型能得到更好的结果的指标相比,训练时的常规心电图指标相互作用增加。
接下来,收集到的tweet 被处理的相似模型中提到的部分3构建一个矩阵的余弦距离。这样一个矩阵的确定是由每个tweet和计算排名对剩余的相似之处tweet。之后,微博的最优数量的集群是由肘部(参见图的聚类方法2),最优数量的集群是4。因此,1105条被分为四个集群使用PCA(主成分分析)算法(50)数据方差分解为两个组件最终创建组根据以下聚类算法:k - means,谱聚类和高斯混合。
此外,Calinski-Harabasz (CH)值是用来确定最准确的聚类算法51]。CH价值代表within-cluster色散之间的比例和大类间色散,在更高的CH价值显示了更好的聚类数据。表3显示了k - means聚类算法的结果,谱聚类,和高斯混合,k - means指向是一个更好的结果。因此,k - means被选为聚类算法得到结果如图3。
此外,情绪分析应用于每个集群找到主要的极性。图4显示了四个集群映射这个词。最相关的词抗议政府在哥伦比亚和打算走上街头,尽管COVID-19的大流行。的话也回应人们想想那一刻的趋势:种族主义、审议腐败,和威胁社会领袖等等。的情绪分析使用两种python库四个集群:TextBlob (https://pypi.org/project/textblob/),采用单层感知器(SLP)算法和VaderSentiment (https://pypi.org/project/vaderSentiment/)使用维达基于规则的模型。表4显示了这两个算法的执行的结果在四个仔细地确定集群。两种聚类算法认为集群4更高比例的负面消息。此外,图5显示了积极的,消极的,中性的tweet每个集群根据SLP算法。因此,从极性和主观分析,集群4可以确认为最积极的一个,因为它包含了最多的- tweet。
因此,从微博推特用户的账户中包含集群4提取共有161个可疑用户。这组可疑用户减少到只考虑活跃用户帐户相关的微博与极性水平低于−0.3,也就是说, ,共有36个用户帐户。用户与这些帐户可能被认为是作者最积极的推文,所以网络情报分析,在每个识别用户,完成TinfoLeak使用工具,它允许为每个Twitter帐户确认一些细节:追随者,账户(朋友)后,账户相互关系,形象,账户创建日期,名字在Twitter上,完整的用户名、描述帐户,Twitter ID、发送的微博数量和平均每天的微博数量,数量的喜欢,数量的列表,报道位置,时区,和习语。
从网络获得的信息情报分析进行了36个用户帐户被用来建立关系图工具Gephi(见图6)。图被过滤的用户至少有两个关系,重点分析在用户和一些与他人的关系,而不是单独的节点。这种滤波器是通过方法实现K-core那得到了最大的子图的所有顶点节点连接和至少有一个程度的k(52]。集群4的用户表示为黄色节点,而追随者,朋友,以下用户表示为蓝色节点。节点的大小是根据定义输出(学位)的数量。边缘的颜色代表节点之间的关系(从动件,朋友/后,共同)。对于这个场景,有141个节点,256边缘。特别是这张图允许识别可疑账户之间的关系甚至识别新用户帐户相关的可疑的。
4.2。场景2:黑人生命物质运动在美国
第二个场景中隐含的18741微博# blm相关抗议活动在美国反对种族主义和警察滥用在乔治·弗洛伊德的死亡。tweet的初始设置是减少到1287条,从1131个用户账户,取消转发后才确定内容的创造者。提到的标签是指运动“黑色物质生活”,旨在消除白人至上和构建地方权力干预暴力造成黑人社区。推特在这种情况下的集合是7月15日,2020年,当出现一个视频显示前时刻乔治·弗洛伊德的死亡(https://edition.cnn.com/2020/07/15/us/george-floyd-body-cam-footage/index.html)。
tweet的预处理和清洁以同样的方式与前面的场景(删除url,提到,标签转换为小写,和表情符号替换)。清洗后,仍然总共1207条推讯。然后,非英语微博被译成英语使用Google API服务与Google新闻嵌入相同的语言,和向量化的tweet。
随后,收集到的tweet 处理获取训练数据集和结构组成的1207行吗 ,在哪里微博属于吗 , 是最类似的微博,然后呢 少两个随机选择的微博中类似的tweet(负tweet)的排名。为了创建一个适当的验证数据集,这个综述了训练数据集和手动调整。然后,计算指标达到和常规心电图比较验证数据集和原始数据集和验证模型的正确性,如表所示5。
然后,余弦距离是通过应用程序的一个矩阵的相似模型中提到的部分3在收集到的微博 。这样一个矩阵是每个tweet和计算排名对剩余的相似之处tweet。对于这个场景,最优簇4也由肘部的聚类方法,观察图7。四个集群计算使用PCA算法识别的主要组件(pca1和pca2)余弦距离矩阵的条目,然后同样的聚类算法(k - means,谱聚类和高斯混合)应用场景1中应用。
类似场景1,我们选择最好的聚类算法根据Calinski-Harabasz [51值见表6。k - means再次获得最好的结果,就是选为当前场景的聚类算法,得到结果如图8。
在场景1中,每个集群进行情感分析,使用TextBlob和VaderSentiment python库。表7从这两个库显示结果,指出集群2 -微博的比例最高。字地图也被用来确定每个集群内最主要的词语,如图9。地图这个词“黑物质生活”运动的显示不同的流行词汇,如种族歧视、警察滥用,和社会地位。最后,图10显示的比例正、负和中性微博根据SLP算法每个集群。
tweet集群中包含2与201个用户账户相关联,这是减少到38账户只通过选择账户产生推1和-0.3之间的极性。然后,进行网络情报分析这些账户通过工具TinfoLeak获得不同的特性,比如追随者,账户(朋友)后,账户和相互关系,等等。然后,一个完整的社交网络图是使用Gephi构建(见图11)。同时,图是过滤与至少两只考虑账户关系通过K-core过滤器的应用。集群节点2用户表示为绿色,而追随者,朋友,以下用户表示为蓝色节点。定义节点的大小根据学位。边缘的颜色代表节点之间的关系(从动件,朋友,和相互),共有81个节点和124个边缘。最后,可疑节点属于集群之间的关系在图2可以看到,甚至新节点不被认为是最初在集群2也可以确定,他们中的一些人可能有许多可疑节点密切相关。
5。NLP模型应用于一个全国性的网络防御策略
为了抵消HSM活动所产生的影响,深入草原必须了解他们面临的活动实际上是如何构造的。草原面临的一个挑战是系统内的信息传播类型的运动(34]。系统生成大量的信息传播,草原必须处理理解操作策略53]。有两种方法可以有效地包含暴力行为产生的切削运动。首先是通过部署的信息操作旨在减轻造谣行为所产生的影响通常用于HSM的框架。第二个是预期的物理点,这些暴力行为会发生和加强这些点的安全措施。至关重要的是确定HSM行动在最短的时间内;否则,这将是更有挑战性的实现有效的控制。
的情况下部分4最初的工作的例子,LEA分析师应该开发了解犯罪团伙组织切削运动。在这两种情况下,NN-based NLP允许识别关键因素相似的信息和节点之间的关系和内容极性。所有这些信息允许草原引导HSM的分析活动。此外,这些因素为分析师提供信息构建和支持一个假设关于运动背后的犯罪结构面临。例如,收集推文之间的相似度可以表明虚拟社区产生的上升和分享潜在恶意信息。这种分析的结果将使定向草原的经营努力预防和检测犯罪行为背后的切削运动。
收集到的消息在两个场景中描述的部分4包括两个潜在HSM活动相关的信息。只有NLP的分析信息的应用程序允许识别这些类型的活动背后的犯罪结构。然而,NLP在减少分析时间是至关重要的。时间减少会允许LEA更好地了解他们面临HSM活动的结构。一方面,这种理解将允许部署在较短的时间内控制措施,减少HSM活动所产生的影响。另一方面,信息分析,辅以其他手段如人类智慧或信号情报将允许连接人们参与操纵行动,这将促进他们的起诉。
6。结论和未来的工作
深度学习,尤其是NLP已经证明了他们的潜力在网络安全劳动的支持,尤其是在网络犯罪的检测。采用NN-based NLP的解决方案通过草地将加强国家网络防御战略大幅减少的时候注意网络安全事件和为草地提供检测和防止HSM的能力。
手头在这方面,本文提出了一个NLP-based解决方案,使用相似模型,使用深度学习架构,实现识别集群的tweet,然后确定他们的极性来识别其极具攻击性。最激进的集群分析通过对构成集群的节点之间的关系。我们的建议是在两个不同的应用场景相关的抗议活动发生在2020年在哥伦比亚和美国,获得与怀疑用户图形和各自的关系。
作为未来的工作,我们计划开发实验收集微博的时间较长,例如,一个月之前和之后的抗议,这将允许我们寻求一些关系的行为暴露怀疑用户一天的抗议活动和其他活动发生在关闭日期。这将允许我们开发一个敌对的社会操纵场景的深入的分析和确定他们的进化。
我们还计划提取更多的信息相关的Twitter用户帐户属于最激进的集群通过文章发表在Twitter在一段时间之前和之后的抗议。这个活动也可以与活动从其他社交网络账户支持图表分析阶段我们的建议,让我们做一个深入的分析的先进模式采用专门的威胁。
数据可用性
数据和代码用于支持本研究的结果包括在本文中。
的利益冲突
作者宣称没有利益冲突。
确认
这项研究部分由西班牙政府资助(批准号。FPU18/00304和ryc - 2015 - 18210),得到欧洲社会基金。此外,这项工作已经被研究和创新的单位支持大学的罗萨里奥(哥伦比亚)通过项目“IV-TFA043-Developing网络情报预防犯罪的能力。”