文摘
思想政治教育在大学教育中起着重要的作用,是一个重要的教育功能实现的人。具有重要意义,建立一个完美的自动问答系统的思想政治教育。传统的自动问答方法通常依赖于谓词之前和其他信息来实现知识库的问题回答,这需要大量的人力和泛化能力较差。为了解决这个问题,本文设计了问答系统的思想政治教育基于BiLSTM-CRF算法模型(BiLSTM:双向长短期记忆和CRF:条件随机域)。知识库问答方法weak-dependent信息,本文结合伯特(双向编码器表示从变压器)和BiLSTM-CRF网络提取中的命名实体问题和定位三联体知识库中相关实体的信息。通过答案匹配网络,相似性得分是三个一组标记为答案,和阈值选择策略是用来选择满足要求的答案。根据相似性得分从高到纸上,它呈现给用户。实验结果表明,该方法削弱了对先验信息的依赖,减少人工干预,确保质量的问题回答,并完成有效性验证问答系统的思想政治教育。
1。介绍
加强大学生的思想政治教育的发展具有重要意义。新时期大学生应该培养道德、智力、身体、和审美全面工作。只有当大学生全面发展的意识形态和道德品质、社会科学质量,卫生质量可以提高(1]。因此,当代大学生不仅要有深厚的文化,还更高的思想和道德素质,思想意识,强烈的政治敏感性。思想政治教育是一个必不可少的话题在当今大学生日常学习。它可以帮助大学生保持冷静,正确地了解自己。研究意识形态和政治的根本目的是进行这些优秀的美德成为每个大学生的心(2]。
知识地图,也被称为科学知识地图,谷歌于2012年正式提出(3]。其实质是一个巨大的地图,也称为定向地图的知识库结构,语义web的知识库。知识地图的边缘节点代表实体和表示实体之间的关系。表示学习知识地图的目标是学习的向量化表示实体和关系。TransE [4),基于多元关系的翻译模型,将每个三联体的关系实例(头部、关系和尾巴)作为翻译从实体到尾部实体。通过不断调整H R和T(分别代表头,关系,和尾巴),使( )等于,也就是说, 。
目前,问答研究基于知识地图逐渐从先前的研究基于语义解析深上优于知识地图问答研究来自信息提取。文献[5)提出了词向量的表示学习方法应用于基于知识地图的问答。因为知识库存储许多事实三元组的形式,提出了把自然语言问答与单个关系的实体和关系已知的三元组,并找到三元组的尾巴的实体,即<主题,关系,? >。三联体的实体和关系与词汇相关的问题,这个问题的正确答案是尾巴三联体的实体。灵感来自于这种方法,问题和答案之间的关系表示为三合,和整个模型分为两个部分:实体识别和预测的关系。通过改善的准确性两部分,分别时,我们可以提高正确答案的准确性返回的整个模型的问题。大多数的模型使用人工定义的实体匹配规则的筛选候选人掌握实体,这是复杂的且精度较低。语法(6)是基于统计语言模型的算法,可用于评估两个字符串之间的距离。它是一种常见的方法在模糊匹配。也就是说,当两个字符串S和T由n元算法,常见的长度相应的语法子字符串的一部分被称为语法距离。目前,大多数模型使用语法算法筛选候选实体(7]。然而,使用这个算法无法满足问答的需要快速、准确地定位候选实体。摘要语法算法用于建立反向索引对于候选实体,和距离作为候选实体得到候选实体的分数排名,定位为知识地图的实体问题迅速和准确。在实体识别问题的一部分,大多数方法采用解析的方法语法和语义信息8)提取特征的问题,导致实体识别精度较低。文献[9]提出了一种序列标签结合BiLSTM和CRF模型,可以有效地预测当前标签的使用过去和未来功能标签。因此,命名实体的识别率明显高于传统方法。
注意力机制本质上是像人类的选择性视觉注意机制。其核心目标是选择更重要的信息从大量的当前任务目标信息。文献[10,11)设计知识库问答相结合和全球信息的关注。通过使用注意力机制将重量分配给每个单词的问题,重量显示的不同方面的影响回答的问题。文献[10)将模型划分为两部分,即回答问题,问题的答案。的第一部分模型使用注意力机制之间的相似性得分计算矢量,然后回答问题。第二部分也计算向量的不同关注问题回答的问题答案的方方面面向量通过注意机制。最后,作为第二部分的结果相似的重量分数的第一部分,得到最后的相似性得分向量和答案向量问题。灵感来自上面的方法,在关系预测模型的一部分,注意机制是用来捕捉问题之间的语义相似度向量和向量之间的关系。文本或字符串的相似度判断,现有的方法和最实验选择使用余弦值(12)来判断文本向量化后或字符串是相似的。文献[13]提出使用图像识别的文本匹配的方法,构建文本相似度矩阵,然后用卷积神经网络提取矩阵特性。
传统的自动问答方法通常依赖于谓词之前和其他信息来实现知识库的问题回答,这需要大量的人力和泛化能力较差。为了解决这个问题,本文设计一个答案匹配策略基于弱依赖信息只有已知问题对信息。通过探索潜在语义之间的联系问题和答案,问题回答的效率可以提高。下面列出了本文的创新和贡献。(1)知识库问答方法weak-dependent信息,本文结合伯特和BiLSTM-CRF网络提取中的命名实体问题和定位三联体知识库中相关实体的信息(2)通过答案匹配网络,相似性得分是三个一组标记为答案,和阈值选择策略是用来选择满足要求的答案。根据相似性得分从高到纸上,它呈现给用户
本文列出了如下的结构。在下一节中描述的相关工作。提出的问题和答案系统表达了思想政治教育的部分3。部分4着重于实验和分析。部分5是结论。
2。相关工作
2.1。问答系统的发展和应用
问答系统的概念并没有提出很长一段时间,但是它发展迅速,形成了一些相对完整的系统。开发的原型系统(FDUQA)复旦大学在中国取得了初步成果。同时,哈尔滨理工学院(金山客户服务)和中国科学院计算技术研究所也在这一领域进行研究。国外相对成熟的发展。世界上第一个互联网问答系统,即开始系统[14),采用混合模型的知识仓库+信息搜索。知识库包括“开始+ KB”和“互联网+公共图书馆”(15]。穆德,第一个自动问答系统发达的华盛顿大学,走一步。而不是一个知识库,利用互联网的数据分析和生产一个候选答案列表。每个候选人的回答将给定一个置信水平,可以作为一个参考用户(16]。
由于汉语语法和语义的复杂性,智能问答技术在中国的发展相对较晚。现在,它是基于人工模板和智能检索技术。典型的代表是华为E,小米Ai,等等。目前,世界上主要的智能问答技术是计算机检索,知识网络,深度学习。苹果的Siri,微软Cortana和谷歌谷歌现在是很好的例子。与此同时,知识地图的快速发展提供高质量的知识来源的实现智能问答系统,极大地加速了发展医学领域的问答系统(17]。这一技术使专业人员更好地帮助用户学习,浸泡,用概念的各种实体之间的连接在现实世界中。
2.2。知识地图和知识基础
知识地图也被称为科学知识地图。谷歌于2012年首次提出,作为大规模知识地图发布基于Freebase [18知识库和维基百科。它提供了一种参考方法建设的世界和领域知识(19]。知识地图的结构是一样的地图,这是由节点和边组成的。图中的节点代表实体的知识地图,和边缘表示实体之间的关系20.]。
知识库包含更多的知识信息知识地图。有许多不同形式的知识的知识库,如本体知识、相关知识、知识规则库和案例。一个知识库的问题答案的任务是回答一个自然语言的问题使用一个或多个知识库中知识的三元组。例如,问一个自然语言的问题,“北京哪里?”。您可以使用<北京,在中国>这一事实来回答。
与这两个概念相比,知识地图展示更强调相关的建筑和可视化。它可以使用知识推理(如规则)快速进行知识挖掘与推理,获得新的知识,发现新的实体或概念之间的关系。因此,肝脏疾病问答系统开发基于知识地图。它将发挥重要的作用在解决优质医疗资源供给不足之间的矛盾,增加中国对医疗服务的需求(21]。
3所示。提出的问题和答案的思想政治教育体系
3.1。命名实体识别
知识库的问题回答的核心是使用命名实体识别算法提取的实体问题。命名实体识别是古典自然语言处理任务和子任务序列的注释。实现实体提取通过标出相应的实体信息对于每一个输入文本的位置。有生物和生物模式实体标签。摘要生物模式采用实体标签。b个X代表X实体的开始,我便代表X的中间或结尾的实体,和O代表无足轻重的内容。因为只有一个单一的实体参与知识库问题回答研究的问题在这篇文章中,只有一个实体类型定义ENT。例如,当进入问题”思想政治教育的核心内容是什么?”。实体注释结果如图1。
命名实体识别网络模型如图2注释,主要包括特征提取和实体。在特征提取过程中,输入与毫米长度问题划分为词序列 和发送到伯特网络获得分词和字嵌入后词向量。特征提取后的变压器编码器层,长度的特征矩阵的序列和宽度隐藏层,完成特征提取。BiLSTM-CRF [22网络通常是用于重叠的命名实体识别的过程中实体注释(23]。首先,特征矩阵输入双向LSTM层和t神经元在每个方向上进一步提取上下文的语义关联信息。其中,f、h和c代表向前,向后,分别和输出神经元。隐藏的维度输出的新特性向量2 t。这个特征向量经过一层前馈神经网络,和一个向量长度和宽度随着类型数量的标签是通过线性变换,它用作CRF的输入层。
因为只有一个实体类型本文定义向量宽度是3,代表国家成绩B,我分别和O。CRF层,随机概率模型的线性链部分计算输出标签序列的最大条件概率通过输入功能序列。这意味着每个位置标注信息输入的问题。通过输出注释的数据序列,实体的开始和结束位置可以。
在Belts-CRF网络输入向量 ,相应的输出 ,和它的分数计算中所示 在哪里代表了BiLSTM三维向量输出层,代表传输特性矩阵, 代表转移得分值输出的标签来 。损失函数采用对数似然函数,目标函数极小化公式(2)在训练如下:
由于数据集针对本文是一对单跳的问题,大多是单一的实体提取问题。如果有多个实体,通常是第一个实体问题的主题,因此它需要被选择作为一个候选实体。
3.2。答案匹配
命名实体识别完成后,提取实体名称作为关键字生成知识库的查询语句,然后,包含实体的三联体设置知识库中检索,并返回来准备答案匹配。中国知识基础问题回答,问题和谓词之间的语义匹配通常是由三元组。但这需要原始问题对训练数据中包含的特定三个一组的信息。然而,特定于任务的问答数据集通常不会有这样的附加信息,因此需要大量的人工注释或特殊的预处理方法。答案匹配方法提出了直接匹配问题与回答信息,仅依赖于原始问题对在训练数据,并计算出三联体的答案和问题之间的匹配程度知识库在问答。首先,问题是预处理和命名实体是删除以避免干扰和冗余信息回答的问题匹配。然后,预处理问题都与每个答案的三重态,而且每个答案上有一个相似的分数。相似性分数值在0和1之间。因此,在培训过程中,如果输入是正确答案,贴上相应的相似性得分1;否则,相似性得分贴上0。
答案匹配网络模型如图3。问答对开始(CLS) (CLS)符号。在每一场比赛中,预处理问题和答案由[9][9]符号并连接到一个序列。
答案匹配网络的特征提取过程就是这样命名实体识别网络。伯特网络后,与长度特征矩阵 和宽度是获得。因为网络的最后一层是乙状结肠层,这是一个典型的分类网络的输出层。因此,需要downsampled特征矩阵。最重要的信息的特征矩阵提取使用池层。然后,特征矩阵的第一列(长度 )乙状结肠的提取作为输入层。最后通过乙状层和输出值在0和1之间,即相似性得分。
因为答案匹配网络的最后一层是乙状结肠层,损失函数采用熵损失函数。只有0和1标签和损失函数的结构就是这样以二进制分类任务。在相似性匹配,如果样品标签 ,预测的相似性得分 ,和损失函数表示如下:
3.3。阈值选择
通过回答匹配,每个答案的三联体包含实体问题是标有相似性得分。然后,选择适当的答案基于这些相似性分数。更简单的方法是选择答案相似得分最高,效果最好的传统方法基于谓词匹配。然而,会有一些错误答案匹配方法。这是因为相似性得分匹配得到的回答通常是远小于通过谓词匹配;因此,区分接近答案不高。
基础知识问答的评价指标主要是F1评分( )。假设设定的标准答案和预测答案形式,和F1的分数计算的准确性( )和回忆 )。准确率代表的比例预测的预测正确的答案回答集,反映了问答系统的准确性。召回率代表的比例预测正确的答案正确答案的设置,反映了问答系统的完整性。一个高质量的问答系统应保持高精度和召回的价值观和评价其性能通过F1的分数。F1得分公式如下:
如果我们想要建立一个问答系统具有良好的性能,我们可以得到一个更高的F1得分只有通过返回答案设置类似的相似性得分答案选择和最小化预测答案的错误和遗漏在同一时间。本文中采用的阈值选择策略选择合适的相似度阈值通过实验比较。其中,选择答案高于阈值形成的一组预测答案,将提交给用户根据相似性得分排序后,代表了每个问题的相似性得分,代表相似性阈值集,每个答案的选择状态 ; 表明答案是选择 表明,答案是没有选择。计算公式如下:
4所示。实验和分析
4.1。验证算法的模型
为了验证问答系统的有效性为思想政治教育设计摘要ccKS2019-CKBQA公众评价数据首先选择实验。Ccks2019-ckbqa公共评价数据包括3个问题和答案的数据集和1打开知识地图。手动评估数据构造和注释。问答数据集包含298的训练集,验证集(初赛),766和766测试集(决赛)。中国开放知识地图使用大型PKUBASE知识地图。地图包含41 009 141实体知识三元组,13 930 117实体提到三元组和25 182 627实体类型三元组。此外,NLPCC2016-KBQA公共评价数据添加到本文实验是因为太少的关系提取模型的训练数据。因为NLPCC2016-KBQA数据主要包含简单的问题,ccKS2019-CKBQA数据也包含了许多复杂的问题。因此,ccKS2019-CKBQA数据被选为实验数据。
以下4.4.1。实验设置
本文基于TensorFlow框架,12层的编码器。每一层隐含状态的输出尺寸是768,和中国问题的最大长度是60。亚当算法被用来更新和调整模型的参数,和最初的学习速率是2 e-5。批培训是用于培训,批量大小是32。辍学比例默认为0.1,最大迭代数是100,保存和发展模式在训练集验证每50步骤。
实验结果的评价指标包括宏观的准确性 ,宏召回率 ,和平均F1值 。评价结果的最后排名是基于平均F1值。假设是设置的问题,答案给的是吗 - - - - - -个问题,标准答案的设置吗 - - - - - -问题。计算相关指标所示
4.1.2。实验结果
因为评估组织者只公布标准答案验证设置,相关实验本文只测试验证集和提出了基于该方法的应用模型的结果本文测试集。表1显示了比较四大系统评估的结果,本文给出的方法。其中,“评价不。2”的结果是该系统与其他系统的集成。从表可以看出1方法,本文略优于其他四个系统。值得注意的是,四大系统全部采用评估模型融合策略。本文提出了单个模型方法,并取得了良好的实验结果的情况下结构简单,以验证系统的有效性。
4.1.3。实验分析
表2显示系统的各个子模型的性能比较结果。从表可以看出3,实体引用识别模型的性能不高。为了提高识别的召回率,左翼和右翼人物候选人被引用模型的扩展和删除增加候选实体的数量。单多次反射的分类模型的准确性仅为90.23%,与其他模型的准确性超过94%。表4显示了分类错误的具体的例子。正如你所看到的从表4,多次反射的问题可以通过单跳的方法,解决了在一个别名引用可以链接到主题实体而不需要额外的三元组。
考虑子模型的性能,本文中的问答系统并不把中国问题分为单跳和多次反射。相反,单跳搜索进行了改善系统性能的所有问题(29日,30.]。自单跳的问题也可能包含多个实体,系统确定的问题是一个链接或multientity问题基于是否链接。此外,一些问题被列为链问题但不是多次反射问题。因此,本文增加了一层约束判断链问题减少模型分类错误造成的影响。
在第一个系统(31日)表1,实体引用部分不采用序列注释模式识别但提高实体识别的准确性通过构造字典字符串匹配和添加命名实体识别器。实体链接部分,方法在本文中只保留了独特的候选人得分最高的实体和不增加候选实体的数量,从而减少召回率。此外,没有。1评价体系不统一中国分类问题,但使用了一个策略基于路径相似度匹配。这个策略是语义上更准确,减少误差传播策略相比,只有匹配实体关系和问题。因此,实体匹配方法被添加到路径和问题模型融合。在未来的研究中,可以提高该模型的系统性能指没有的优点。1系统。
为了验证不同的答案搜索模块对系统的影响,实验是在一个模块被屏蔽。结果如表所示5。从表可以看出5不同的搜索模块有一个伟大的对系统的整体性能的影响。如果所有问题都解决简单问题,系统的F1值仅为53.25%。与简单的问题相比,提出的F1值系统的复杂问题链和multientity问题提高了14.74 (67.99% - -53.25%)。因此,系统的策略设置不同的标签对中国问题有效验证。
4.2。问答系统的应用对高校思想政治教育
为了验证大学思想政治教育的应用效果自动问答系统设计,从2021级100名大学生主修思想政治教育在中国大学是随机选择的应用程序对象。用户将自己的思想政治知识输入系统,然后研究和分析他们的怀疑是否已经解决。因此,判断系统的实际效果。在问答系统的实际应用,选择阈值作为一个可选的开关。在很多应用场景,问答任务需要返回一个答案,此时的阈值选择开关是关闭的答案相似度最高的呈现给用户。如果用户困惑于答案,或者一些场景返回允许多个答案,阈值选择可以打开展示候选人回答集相似度从高到低的顺序。
为了与其他现有的问答系统,文献[24)、文学(25)、文学(26)、文学(27]和文献[28)选为比较方法。问答的结果如表所示3。文献[24基于动态规划的思想。无人监督的想法具有参考意义,但问答的效果是有限的。文献[25)是nlpcc - iccpol - 2016 KBQA任务前5名答疑分数的方法。主要依赖于一些手工规则以确保问答的性能。例如,文献[25]中删除冗余信息构造正则表达式的问题,和运行使用词类组合的特性实现命名实体识别。文献[26)是自动问答方法基于属性的谓词映射知识库三元组,添加一些人工特性。
文献[27)是一个自动问答通过语法分析实现方法。文献[28)应用伯特在数据集特征提取和公开获得最好的结果。
该方法结合了伯特和BiLSTM-CRF网络提取命名实体与实体相关的问题和定位三元组的知识库。通过答案匹配网络,三个一组的答案设置标有相似性得分,和阈值选择策略是用于选择满足要求的答案,然后,答案是呈现给用户的相似性得分从高到纸上。这个过程减少了需要人工注释和预处理,测试集F1得分是88.29%,最佳的性能。
5。结论
削弱的依赖思想政治教育问题回答系统先验信息和确保质量的问答,同时减少人工干预的情况下,本文提出了一种思想政治教育问题回答系统基于BILSTM-CRF算法模型。它使用命名实体识别网络中提取实体的问题,得到一组基于实体名称关键字相关的三元组。答案匹配网络用于标签的相似性得分为每个答案。最后,选择答案是过滤阈值选择和结果输出。问答系统的实验结果表明,本文设计的思想政治教育削弱了依赖谓词之前和其他信息问答数据和具有良好的泛化性能。通过实验,发现问题回答系统的准确性对思想政治教育在本文中需要改进的数字类型的答案。在未来,表示学习和其他方法将用于从候选人选择最佳答案回答的质量将进一步提高的问题回答。
数据可用性
标签数据集用于支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作是由黄河水利技术学院支持和帮助。