文摘
文本相似度,作为一种重要的基础得分主观考试项目,直接决定了考生的考试成绩和老师的工作效率。因此,本文首先介绍了文本相似度计算的理论基础,比较了不同的计算方法。然后,text-similarity算法设计,通过形成文本而言,基于语料库的计算方法和知识库的总和。然后,根据文本的相似度计算模型方面,练习设计的自动评分系统,包括技术架构的设计,功能模块的设计和实现过程的综合评分。其中,分级模块是系统的核心模块和自动分级的关键。系统测试结果表明,该问题评分系统设计摘要没有区别手工标记,可以获得良好的得分结果。
1。介绍
人工智能时代的来临,自然语言处理是越来越受欢迎的领域的教育。在现代教育中,测试学生的技能和知识,考试是一种重要的手段来判断学生的学习质量,但人工阅卷试卷带来巨大的工作量1,2]。对客观问题或多项选择题,判断试卷的难度仍然有点低。客观试题或关闭回答问题提供多种选择,通常有固定的答案。在当前阶段,回顾目标问题的技术已经非常成熟,和老师只需要简单地将它们与参考答案的答案。
然而,主管的测试问题或开放式回答问题需要教师评估答案。因为答案包含许多词汇和并不是唯一的,只要它符合参考的中心思想,学生可以得到一定的分数,分数取决于候选人的回答之间的语义相似度和实际参考,这意味着两者之间的语义相似度越大,最后得分越高的候选人将是(3- - - - - -5]。此外,得分主观问题会有一定的空间,将受审查员的主观因素的影响。解决上述问题,一些研究人员使用一系列相关技术在自然语言处理中,如分词、词向量模型中,文本相似度,等等,得分描述性的主观问题的答案(6,7]。因此,如果我们可以设计一个评分系统主观问题,判断试卷的错误可以减少人为的主观因素造成的,因此减少教师的工作量在评分过程中,和标记的工作效率可以提高主观的问题。
也是具有挑战性的设计文本的自动分级系统级学生的试卷,这不仅需要拼写和语法的知识,但知识的语义,语篇,语用学。传统模型使用稀疏的特性,如词袋、词性标记,语法复杂性度量,字错误率,和文章的长度,这可能耗时的工程特性和稀疏数据的缺点8,9),而自然语言处理技术可以通过中文分词处理这些描述性的文字,文字向量化、词性标注、语义分析、文本语义特征提取、语义相似度的计算,和其他技术,实现自动评分的主观问题,这是对教育产业的发展具有重要意义,甚至社会。
本文设计text-similarity算法通过形成文本条款和设计自动评分系统练习根据text-similarity计算模型,包括技术架构设计、功能模块设计和实现过程的综合得分。
2。理论基础的文本相似度
2.1。基本思想
文本相似度的概念,有许多不同的定义。其中,有一个统一的信息理论和非正式文本相似度的定义,它与应用程序无关。其基本思想是图所示1。A和B之间的相似性是与两个特点有关。一方面,它们之间的相似度增加而增加的普遍性。当两个文本是相同的,他们的相似度达到最大值。另一方面,它们之间的差异,也就是说,相似与差异的增加,减少,差异越大,相似度越低。
2.2。计算方法
文本表示非结构化或半结构式的文本转换成字符或数字,计算机可以识别(10]。
2.2.1。基于矢量的计算
基于矢量的方法是将文本表示为一个向量在高维空间中,然后使用余弦距离向量之间的关系来表示文本之间的相似度。一般来说,两个空间向量之间的余弦距离可以在某种程度上反映了两个文本之间的相似度(11]。向量的余弦公式 在哪里和A和B是文本的向量表示,分别 和
2.2.2。基于句子长度的计算
计算句子相似度的过程中,一个句子的长度也是一个重要的特性。一般来说,如果两个句子长度很相似,他们更有可能是相似的。如果有很大的差异在两个句子之间的长度,这两个句子之间的相似度将小12]。句子长度之间的相似性计算公式可以表示为 在哪里 表示句子长度之间的相似性T1,T2,和代表单词的数量T1,T2,分别。
2.2.3。计算基于深度学习
基于监督学习的文本相似度算法,训练模型是一个数据集的标签需要帮助模型训练和学习,以便text-similarity计算可以进一步完成。从网络结构,它可分为交叉模型和结构双网络结构,如图2。
相似度测量的双网络结构是由层,编码层,输入层。输入层用于段原文,然后表达单词与相应的词向量和输入下一层。编码层是用于编码向量这个词从输入层来获得他们的句子向量表示,尽管相似层主要解决句子之间的相似度向量根据相似性算法(13]。后交叉模型处理编码层之间的交互,其编码的输出层的输入到相似层计算文本相似度。引入的交叉模型的交互结构的双网络可以获得更有效的和丰富的有用的信息,这减少了文本语义相似度的计算偏差引起的双网络编码层之间没有相互作用。
3所示。文本相似度算法的设计
3.1。义素相似度的计算
义素是意义的最小单位来描述一个概念,它是提取所有的汉字,可以用来描述句话说。义素相似度算法使用之间的关系的上、下部分义素。其计算公式如下: 在哪里 代表两个词; 代表之间的距离和在语义树中。是调节因子,它通常是1.6(两个义素相似之间的距离是0.5)。基于公式(3),介绍了语义的层次深度的起源。其计算公式如下: 在哪里 和说 有相同的含义为方程(3)。α一般是调节因子,其值是0.5。 ,深度表示的最小值和在语义树中。
3.2。概念相似度的计算
通过内容词的语义描述的概念,概念相似度计算通过以下四个类型的义素相似:(1)第一个独立义素描述:计算使用公式,并编写其相似性 。(2)其他独立语义描述符:语义或其他独立文体文字以外的第一个独立的语义。因为这些独立义素或特定的单词非常众多,这些词的相似度后任何配对可以通过上面的公式,计算和该集团最大的相似性可以提取并分为同一组,然后对相似的词可以不断迭代。循环结束时,所有这些元素都是分为不同的组。最后,其词的平均值计算,作为独立的词的相似度。它的相似度是表示 。(3)关系的语义描述符:所有表达式关系语义描述的语义描述。义素相似的关系由最大值的义位组合的关系。它的相似度是表示 。(4)象征性语义描述符:所有表情符号语义描述符描述的语义描述。义素的相似性是由最大值在同一义位组合。它的相似度 。
总之,概念相似度的计算公式如下: 其中C1和C2代表两个概念。(1≤我≤4)是一个可调参数和 ; 。
每个单词是加权的重量 ,在哪里一个设置为0.01和是一个估计的频率。
3.3。词相似度的计算
如果这个词的概念是 ,和这个词的概念是 ,然后最大的价值相似性在所有它们之间的概念组合代表了他们的相似性。其相似度计算公式如下:
3.4。流的文本相似度算法
(1)阅读文本和文本 。(2)预处理两个文本分词和停止的话。这句话包含有 ,和单词包含有: 。(3)这句话中包含的文本和文本成对组合形成一个单词相似矩阵: 在哪里 代表第n个字在文本之间的相似度和第m词在文本中 。(4)的相似度值 相似矩阵的计算基于单词使用语义相似度算法。也就是说,公式(4),(5)和(6)用于计算。(5)找到单词的最大相似度值的相似度矩阵,表示 和记录的行我和列j价值所在。与阈值δ,如果 ,这两个词的重量值最大和话语在各自的文本记录,然后i行和j列马克斯所属相似矩阵中删除。(6)重复的过程步骤(5)直到矩阵为空或不符合条件。(7)根据步骤(5)和(6),最大匹配的词可以获得相似的组合。假设设定的长度l,可以表示为一组 ,和两个文本的相似度计算公式
4所示。自动运动评分系统的设计
4.1。技术架构
系统的软件技术架构主要分为三层:信息表示层,业务逻辑层和数据库层。这个系统基于Django开发架构,数据库系统使用MySQL数据库有良好的贮存稳定性和可维护性,系统的总体技术框架如图3。
信息表示层:主要是一个用来与用户进行交互的接口,和它的功能是接收用户的请求信息和显示数据。和学生和老师发送请求到后端服务器通过单击页面功能按钮。后端系统接收到请求和处理业务逻辑,然后将相应的信息返回给前端界面。
业务逻辑层:这一层是整个系统的核心和通信之间的桥梁数据表示层和表示层的信息。它主要是用来接收前端接口的要求,处理相应的业务逻辑,并传输到数据层的数据。该系统的业务逻辑层代码是用Python编写的,和Django开发框架是基于三层体系结构。
数据库层:主要用于添加、删除、更改,并检查数据库表中的数据,它是用于存储和管理系统相关的数据,实现添加、删除、修改,在业务逻辑层和检查数据。这个系统使用MySQL和复述,存储数据和建立一个数据库服务器,便于查询、修改和存储应用程序层数据。
4.2。功能体系结构
分级模型主要用于帮助教师试卷的评价,和它的原型主要包括数据集收集、文本预处理、特征提取、相似度计算和主观评分模块问题。系统的总体设计结构如图4。(1)文本预处理模块。主要收集到的数据和过程数据删除停止词和标点符号。(2)特征提取模块。主要提取的文本特征参考考生的答案和标准答案,主要提取文本特征和语义特征向量的候选人和参考答案,并存储它们的特征和相应的分数数据库中的文本。(3)评分模块。在这个模块中,通过中文分词模型字典信息融合的基础上,获得更高的分词结果。语义相似度计算后,考生之间的文本相似度和标准参考答案。最后,它与分数加权获得主观问题的最后得分。
4.3。工作流的分级系统
(1)预处理和训练数据训练集和维基中文语料库获取试卷数据集训练集和wiki语料库词向量模型。(2)Vectorize学生答案评分和相应的参考答案的试卷。(3)在步骤2中输入向量获得进入网络模型融合与字典信息培训,并获得学生的答案和引用的分割结果。(4)确定每个单词的词性判断后得到分割结果。使用text-similarity计算模型提出了第三章总结术语来获得其词集,然后让学生回答之间的文本相似度评分和参考答案。(5)根据试卷的总分,总分的相似性是加权的试卷,学生的最终成绩。
5。系统测试
5.1。功能测试
5.1.1。测试环境
这个系统的开发语言Python,基于Django框架,数据库是MySQL,评分模块使用Gensim和Jieba。具体测试环境如表所示1。
5.1.2中。测试方法
本文中使用的测试方法主要是黑盒测试,兼容性测试、性能测试、用户界面测试。具体的测试步骤如下:(1)黑盒测试:测试每一个模块的功能是否正常可用的评分系统,及时找到每个模块的错误,调试和修改代码。代码的修改完成后,进行回归测试,以确保修改后的代码并没有引入新的错误。(2)兼容性测试:考虑到不同用户访问系统,谷歌浏览器,微软浏览器边缘,IE浏览器用于测试系统的功能。(3)性能测试:模拟大量用户使用系统的同时,和测试的响应时间是否每个功能页面的系统是在可接受的范围之内的。
5.1.3。测试结果
根据测试方法,设计测试用例和测试评分模块。测试结果如表所示2和3。
因此,评分系统的功能可以正常使用。除了功能测试,系统的兼容性和性能测试。结果表明,系统的模块,如题库管理、试卷管理、和自动评分,在不同的浏览器可以正常使用。
5.2。测试评分的影响
5.2.1。实验数据
一般来说,有两种方法来收集数据集。第一种方法是使用光学字符识别技术提取文本从试卷扫描,第二个方法是手动输入信息。因为正确的文本输入率OCR技术并不理想,本文使用手动输入考生的答案、引用和相似性来完成数据集的集合。实验数据是中国的试卷数据集的一所中学。根据1000份试卷,2400块的文本数据收集,包括学生的答案,引用,教师的分数,总分的问题。文本数据存储在CSV格式,分为四列的数据存储、考号,学生回答,参考,和老师之间的比率(文本相似性)的得分和总分的测试问题。4:1比例的相应数据集分为训练集和测试集。
5.2.2。测试结果
考试的阅读理解作为一个例子(分数:10分),并比较其评分结果与人工评分。前80名成绩的比较结果如图所示5。
从上面的图可以看出,本文设计的运动评分系统下基于相似性分析文本取得了相对理想的评分结果在某种程度上,有一些一些样品的评分结果的差异,这可能是由以下两部分组成。一是有几个单词分割不当,也可能不完整的语义特征信息的提取,另一个原因可能是人工主观评价问题可能导致错误的主观评分因个人主观意见。
6。结论
通过概念化文本条款,本文设计了text-similarity算法,根据文本相似度计算模型,自动运动评分系统设计,包括技术架构的设计,功能模块的设计和实现过程的综合评分。系统功能测试结果表明,该评分系统的功能可以正常使用;此外,测试集选择试卷的实验,和本文设计的自动运动评分系统可以实现一定程度上的理想评分。然而,系统仍然需要改进在师生互动,并可进行后续工作。
数据可用性
数据集可以在访问请求。
的利益冲突
作者宣称没有利益冲突。