文摘
大数据时代的到来,专门杀伤链中的数据域急剧增加,和检索信息的engine的方法很难满足用户的需要更精确的答案。杀伤链域包括四个部分:控制设备,传感器设备,装备(武器和平台),和评估者设备以及相关数据含有大量有价值的信息,如每个组件中包含的参数信息。如果这些支离破碎的和混乱的数据集成和有效的查询方法,他们可以帮助专业人士完成军事杀伤链知识体系。本文构造的知识体系是基于Neo4j图形数据库和美国指挥模拟系统建立一个面向目标的杀伤链的知识地图,旨在为问答系统提供数据支持。其次,为了方便查询,本文建立了实体和关系/属性挖掘基于连续bag-of-words (CBOW)编码模式,双向长期短期memory-conditional随机场(BiLSTM-CRF)命名实体模型,和双向封闭的递归神经网络(BiGRU)意图识别模型对中国杀死连锁问答;返回对应的实体或属性值结合知识图三元组形式;最后构造返回答案。构建知识地图的杀伤链包含2767项(包括海洋、陆地和空气)和参数的数量是30124。深度学习网络的模型参数的数量是27.9米的问答系统这一次,准确率是85.5%,200个模拟查询。
1。介绍
“士兵们可用于一千天,但一个国家不能没有防御一天。“对于任何一个国家来说,自己的军事力量是其基础。只有当它强大的军事力量可以确保它不会被其他国家侵略。随着人类文明的发展,所有主要国家渴望和平。大规模战争的可能性极低,但局部战争,军事冲突和其他低强度的军事行动越来越频繁的(1]。这提出了一个很好的测试,每个国家的军事力量,这需要满足耐久性的要求,精度,和其他武器的性能,以及经济因素如武器和制造成本的来源。然而,由于每个国家的军事力量的崛起,武器装备的力量和技术迅速增长,但建设成本和研发成本也在上升。因此,国家的军费开支增加了,再加上国际影响力,人员培训,和其他因素,所以许多国家都在采取军事行动受限,无法发挥其最强大的力量(2]。这需要每个国家评估敌人和“我们”和更准确、高效地准备敌人的军事力量的国家,以最小的代价取得胜利的结果。为了实现这一目标,Gro 'Z1ssman e . m . [3)提出空军研讨会杀伤链concept-an有序链相互依存的链接在达成目标的过程中,由四个部分组成:控制设备,传感器设备,装备(武器和平台),和评估者设备,与操作分为六个组件在六个阶段:发现、解决,跟踪、目标,参与,和评估,或者F2T2EA。
一般来说,越早停止的杀伤链链接攻击,保护就会越好。杀伤链评估的主要方式在不同的国家在这个阶段仍然是通过人工分析,最初获得更重要的结果。例如,Brickner &,威廉K [1)进行了一项研究对时间敏感目标杀伤链分析罢工。基线模型的时间敏感目标杀伤链建立的美国海军航空系统司令部(NAVAIR)作为研究的基础,和建模仿真方法结合使用的一个典型例子时间敏感目标探测和战区弹道导弹的攻击,在关闭杀伤链延长系统详细分析了仿真软件。根据评价结果,提出了更有效的检测、操作概念相比NAVAIR力结构。布拉德Bloye [4]调查空对地时效性罢工杀伤链的优化,补偿Brickner &的缺陷,提出以网络为中心的信息的优势转化为效率的优势杀伤链关闭和基于“KCAT“杀伤链评估工具的发展,定量分析,评价和优化的杀伤链已经完成,提供决策支持战斗人员现有的和新开发的设备系统和操作概念基于杀伤链的有效性。然而,传统的评估模型只有一个指示器,杀伤链的时间关闭,不再能满足要求评估的有效性杀伤链在一个复杂的环境。o . Thomas荷兰缝(5)解决这一问题,提出一个方法,其中包括及时性、适当性、精度、歧视、编排和生存能力(TAPDOS)的杀伤链。尽管上面的方法是更完整的勘探杀伤链和取得更好的评估结果,随着越来越多的军事装备,专业领域的数据杀伤链一天天增加,它很难分析和筛选大量的数据只有用手。
随着科学技术的发展和进步,人工智能的应用越来越广泛,在现实生活中发挥着越来越广泛的作用[6]。特别是深度学习方法,近年来获得了蓬勃发展,使人工智能的发展从简单的理论在各个领域的实际应用。目前,人工智能技术加速了其渗透到军事领域,和信息和智能战争已经逐渐成为一个备受关注的话题7]。在当前的时代,信息化战争发展的深度和智能战争开始出现,世界上主要的军队作出了巨大的努力促进军事信息化和智能集成大量的分散和混乱军事设备数据和关系建立知识地图和使用深度学习方法寻求帮助(8]。
为了整合分散和混乱的杀伤链数据和建立知识地图的杀伤链,本文首先基于Scrapy框架来写爬虫爬杀死链存在的维基百科,军事新闻网络,和其他web页面,这通常是由专业人员和编辑委员会审查,有一定的可靠性。其次,因为军事数据必须高度精确,本文验证是否获得杀死链是有效的基于美国指挥模拟系统和搜索一些相关参数杀死的组件链的仿真系统数据扩展。最后,所有获得的数据被导入到Neo4j图形数据库(9)建立面向目标的杀伤链的知识地图。
为了方便的查询建立杀伤链知识图,本文解决了三者组成的知识形式图形实体,关系和属性;分解实体和关系/属性查询基于BiLSTM-CRF[疑问词10]命名实体模型和BiGRU [11)用户意图识别模型;并构造相应的答案返回结合知识图,如图1。与此同时,为了满足用户更加方便,这个项目开发了一个基于Uni-app前端UI设计,用绿色为主题颜色,然后用瓶端前置和后端连接的框架。
2。材料和方法
2.1。数据采集
数据收集是一个重要的组成部分,建立特定领域知识图表问答系统提供数据支持。杀伤链收集的数据是来自互联网和美国指挥模拟系统,这是一个白手起家的数据集。
2.1.1。实现基于Scrapy杀伤链包捕获的框架
对军事杀死大量的网页链(包括控制设备、传感器设备,设备,和评估者设备)存在于互联网,但大多数非结构化数据的形式存在。为了更有效地获取这些数据和丰富杀伤链数据库,我们基于Scrapy写爬虫框架等相关网页抓取相关数据维基百科,百度百科全书,军事新闻网络。
Scrapy Python语言开发的应用程序框架为爬行web数据,用于爬行和从页面中提取结构化数据,和它的工作原理如图2。这个工具有爬行速度快的优点,爬行的自动调整机制,在抓取数据和高吞吐量最知名和广泛适用的框架在所有爬虫框架。这Scrapy-based杀伤链数据爬虫的设计分为三个主要模块:规则预设定,web爬行和数据存储。
规则预设定模块。规则预设定模块内部包含用户代理等参数设置日志级别,机器人协议遵从性。字段属性的目标捕获这一次(即。,control equipment, sensor equipment, strike equipment, and evaluator equipment) are also set.
Web爬行模块。网络爬虫模块第一个请求的URL初始web页面,使用LXML解析请求数据中提取包含杀死的web页面的URL链接数据,然后请求和解析URL,使用XPath来定位和获取的信息杀死链接。
数据存储模块。数据存储模块存储爬数据持续。为了更直观地查看爬数据,然后使用这些数据来构建一个知识图,项目出口爬在CSV格式杀伤链数据,所以数据可以直观地通过Excel软件。
2.1.2。参数采集杀伤链组件基于指挥模拟系统
捕获的杀死链,我们搜索的名字在每个杀伤链参数在美国指挥模拟系统并将他们导入一个Excel表总结储蓄,杀伤链组件和一些参数如表所示1。
2.2。Neo4j-Based知识图建设军事杀死链
当前存储抓取数据的方法主要是基于RDF存储(RDF4J),基于传统的关系数据库(MySQL)存储和图像基于数据库存储(Neo4j)。由于大存储空间的问题,算法时间长,RDF存储和高复杂性,传统的关系数据库基于RDF存储不能支持实时查询的关系。结合的情况下获得杀伤链数据和实际情况的项目的最终部署在移动,更多优秀的读/写性能和可伸缩性,我们采用的图形数据库存储和选择主流Neo4j图形数据库的建设知识图。知识的一部分图如图3。
军方杀伤链知识图是结构化的三合会由节点和有向边的形式entity-relationship-entity和entity-attribute-attribute值。节点用来表示实体,我们的项目代表杀伤链的组件(设备控制设备、传感器设备、罢工,以及评估者设备),和节点实体的属性参数。我们知识的实体类图如表所示2和节点属性如表所示3。定向边缘用来表示实体之间的关系,这代表了组件之间的通信杀伤链的知识图,如传感器设备和控制设备。实体关系如表所示4。
2.3。杀伤链数据标签
词词命名实体注释执行疑问句的实体识别和意图识别的深度学习模型,和由于过度的带注释的个人所需的命名实体,只显示了一些注释,如表示5。
2.4。基于BiLSTM-CRF杀伤链问答系统实体识别模型和BiGRU意图识别网络
2.4.1。Word2Vec编码模型
用户输入的单词表达目的意义需要word-vectorized为了人类抽象符号转换成计算机使用的数学语言。当前的主流方法是抽象词汇嵌入到一个数字空间,即,字嵌入。在这个项目中,我们使用主流Word2Vec字嵌入方法将文字转换成向量形式。
Word2Vec编码为一个向量基于共现信息的预期,这主要包括两个神经网络模型、Skip-gram模型和连续bag-of-words模型(CBOW) [12),Skip-gram模型(13)预测,在中心词由中央的话,虽然连续bag-of-words模型预测中央词到周围的词。由于有限的杀伤链的类型的问题域和少量的数据集所需的培训,CBOW模型选择,因为它有一个理论上更好的性能和更好的结果,如图4。
CBOW模型通常是一个三层神经网络结构,分为输入层、隐藏层和Softmax层(输出层)。模型的输入是一个炎热的词向量当前位置相邻单词的单词(在总;每个维度是 ),和数据维度 。隐藏层增加邻词汇的词向量权重矩阵获得 向量,然后补充说,平均(见(1)获得隐藏层向量与维 。将Softmax层过程的输出向量通过Softmax隐层,选择最高的词概率预测当前位置的词。预测的词是与当前位置的词相比,获得误差值,并通过反向传播误差值不断降低。CBOW模型的训练参数如表所示6。
2.4.2。命名实体识别模块根据BiLSTM-CRF军事杀伤链模型
实体识别是智能问答系统的主要基础,和实体识别的提取效果更直接影响后续的自然处理的质量和效率。目前命名实体提取的研究方法包括基于规则、基于字典的,基于机器学习和statistical-based方法。然而,由于这一事实有主要领域的专有名词杀伤链和复杂的数据关系的问题,实体识别使用上面的方法是容易出错,可移植性差,需要大规模语料库学习注释,需要人工参与特征提取和很难避免人为错误产生。
近年来,随着计算机硬件的不断升级,深度学习被广泛开发和在实体识别任务中取得了良好的结果。BERT-BiLSTM-CRF结构模型已广泛应用于各种命名实体识别方法由于其较高的识别率,在伯特(14)是能够获得更符合实际的词向量提高后续实体识别的性能,具有很强的鲁棒性。然而,由于伯特是基于变压器结构和训练模型,其参数的数量是巨大的(例如,BERT-large BERT-base 110米和330米),这是一个重大考验的部署移动计算能力,不利于推广。,在这种情况下,数量的实体命名的杀伤链附近是有限的,和这个词的多重含义的现象很小。
总之,这个实体识别模型使用CBOW Word2Vec词向量转换层和使用双向长期短期记忆网络模型(BiLSTM)这个词向量编码层,以及一个条件随机域模型层(CRF)作为最终的输出层,和整体模型如图5。
双向长期短期记忆(BiLSTM)。长期短期记忆网络(LSTM) (15)可以更好地解决梯度爆炸和梯度消失问题发生,因为序列太长,并且可以与依赖关系在很长一段时间。然而,LSTM只能考虑前面的文本的信息,但是在许多情况下,当前时刻的输出不仅与先前的文本,而且后来的文本。因此,BiLSTM,基于LSTM的提高,提出了。BiLSTM [16)模型是一种向前LSTM(处理以前的信息),后跟一个反向LSTM处理后的信息,捕捉语境依赖性;即。,the BiLSTM is composed of two unidirectional LSTMs concatenated together, and its structural model is shown in Figure6。
由CBOW词向量转换模型; 代表远期LSTM隐层输出向量,由词向量共同决定当前的输入和远期LSTM前一时刻的输出 。同样的, 代表的输出矢量逆LSTM隐藏层,由词向量共同决定当前的输入和远期LSTM前一时刻的输出 。 BiLSTM模型的输出,这是共同决定的吗和 ,和数学表达式如下: 在哪里代表提出的权重矩阵LSTM输出,代表权重矩阵的反向LSTM输出,和是偏见。
条件随机域(CRF)。BiLSTM可以预测每个单词对应的概率预测的标签,然后概率最高的标签可以通过Softmax,但这将忽略标签之间的相关性,从而导致概率最高的标签不符合语义逻辑,比如生产句子有明显错误像名词+动词+动词。因此,有必要添加一些条件可以限制输出层后的句子BiLSTM确保最终的预测结果的有效性。条件随机场(CRF) [17)模型是一个序列化的标记算法,可以自动学习一些有用的约束来减少错误的预测序列训练数据时,和CRF的结构如图7。
核心原则如下: 在哪里是给定的发射矩阵,是CRF参数矩阵,需要倒和优化的损失函数计算,然后呢 是给定的输入和输出的匹配分数。是输入单词序列,然后呢是预测序列标签。然后,以下的目标是最大化:
2.4.3。意图识别模块基于BiGRU模型
分类用户输入的自然语言提问并识别用户的意图构成的一个不可缺少的中文自然语言处理任务。句子由用户输入的自然语言问题的军事杀伤链问答系统通常是简短的文本,所以在这个项目要解决的问题是短的文本分类问题。
双向封闭的递归神经网络(BiGRU)选择这个意图识别模块。封闭的递归神经网络(格勒乌)(18]是一种改善LSTM(以最小单元组成的输入通道,忘记门,和输出门),和重置门格勒乌合并传入,忘记在LSTM大门,使模型结构简单,减少了参数的数量,节省培训时间。BiGRU,另一方面,解决了问题,格勒乌背后的输入是比前更重要的进步从左到右,考虑未来的上下文信息,并捕获完整的上下文。其结构模型如图8。
格勒乌详细工作流程如下:
步骤1。重置门旧的细胞状态和控制输入被丢弃和保留,及其数学表达式如下: 在哪里代表了乙状结肠激活函数,代表输入信息,代表隐藏的输出层之前的一刻。
步骤2。决定哪些新信息保存到metacell的状态:(1)忘记之前的操作信息和添加新信息是通过更新门和数学表达式如下: (2)创建一个新的候选人价值 从层。
步骤3。步骤1和步骤2是用于更新旧的细胞状态到新细胞状态 ;数学表达式如下:
2.4.4。答案生成模块
目前,没有公开的数据集的类型疑问句杀伤链,并很难收集有效的疑问句的军事杀伤链在军事网站上。因此,对军事杀死一个疑问模板链是为这个项目设计的,和一些疑问词显示在表中7。
自从知识图三合会有两个表示:< entity-relationship-entity >和< entity-attribute-attribute价值>,BiLSTM-CRF命名实体模型后,我们可以得到三位一体的实体,BiGRU意图识别模型之后,我们得到三/属性的关系。获得的两个参数输入到Neo4j图形数据库所需的实体/属性值和返回构造相应的答案。
3所示。结果和分析
3.1。实验环境和设置
所有的培训和测试这个工作相同的硬件和软件平台上进行。环境如下:Windows(64位)操作系统,英特尔酷睿i7 - 9700 CPU和2080 Ti GPU。考虑到GPU的内存大小和实验时间,我们设置不同的训练参数根据不同的深度学习模型,和详细的训练参数如表所示6,8,9。
杀了连锁店的数量收集这一次是2767年,共有30124实体(包括控制设备的四个组件,传感器设备,装备(武器和平台),和评估者设备),和杀伤链的分布如表所示2。在这个实验中,模型参数和返回答案的平均精度(输入200倍)作为实验指标。
3.2。应用场景
为了更好的与用户交互,本项目开展了跨平台设计(使用两端的IOS和Android)基于当前市场主流Uni-app开发框架。页面设计如图9。
3.3。实验在问答系统模块的有效性
3.3.1。实验CBOW词编码模型的有效性
为了验证CBOW词编码模型的有效性在问答系统中,本文进行了CBOW实验模型,Skip-gram模型,和伯特模型相同的测试环境下,实验结果如表所示10。
3.3.2。实验的有效性BiLSTM-CRF命名实体模型
为了验证的有效性BiLSTM-CRF问答系统中的命名实体模型,本文进行了BiLSTM-CRF模型实验,BiLSTM模型,LSTM-CRF模型,和LSTM模型相同的测试环境下,实验结果如表所示11。
3.3.3。实验BiGRU意图识别模型的有效性
为了验证BiGRU意图识别模型的有效性在问答系统中,本文进行了BiGRU模型实验,格勒乌模型,Text-CNN模型(19在相同的测试环境下,实验结果如表所示12。
4所示。结论
为了应对低效率、低精度的手工武器链分析,凌乱的信息相关的搜索网站,许多广告,和正确分析率低,这个项目使用人工智能方法用于军事杀伤链评估。为(20.,21)问题,大量的杀伤链Scrapy获得的数据和复杂的数据关系和指挥模拟系统,根据Neo4j[这个项目整合了所有数据22,23图形数据库,建立明确的数据关系。这个项目有两个[的问答系统24功能:查询和匹配,25,26),查询功能是数据挖掘为研究人员和指挥官,意图理解、情报处理杀死链,等等。我们使用BiLSTM-CRF实体识别模型和BiGRU意图识别网络识别实体和关系/自然语言疑问词的属性由用户输入,然后使用Neo4j三合会组织正确答案并返回它们。匹配函数是用来解决手工武器的低效率、低精度链接分析和正确分析率低利用集团集群和规则约束的方法来评估是否杀伤链组成。为了让用户有更方便的界面,我们建立了军事链应用基于Uni-app兼容IOS和Android系统,我们还设计了用户界面的应用程序,使用应用程序的绿色为主题的颜色来匹配这个项目的主题。
数据可用性
在这项研究中提出的数据都可以在请求从相应的作者。由于部分数据没有公开的作者的分歧。
的利益冲突
作者宣称没有利益冲突。
作者的贡献
延锋王为方法论,草稿准备,概念化和数据管理。王涛负责软件、数据采集和调查。王Junhui参与验证和项目管理。新周帮助监督资金收购。明高参与模型指导。刘Runmin协助形式分析和资源。