文摘
为了探索英语解释如何实现自动评分,作者提出了一种自动评分模型基于语义的英语口译评分。该方法建议关键技术问题和解决方案基于信息由语义评分,研究和探讨了解释如何实现自动评分的口语考试。研究表明,英语口译基于语义的自动评分得分比传统的方法快,效率提高了约75%。然而,当前自动评分的口译员面临着巨大的挑战。它需要测试和提高更多的教学、学习和测试实践。解释应该考虑多个维度的自动评分等语义准确、内容完整,表达流利,语言的真实性。
1。介绍
智能教育是教育发展的总趋势在互联网时代,和电脑已成为一个重要的工具来帮助学习(1,2]。在英语培训和自动化评估的背景下,自动评分系统,定义候选人回答的问题等内容阅读问题和后续问题基于最近的事态发展已达到实用水平。很少有研究。解释外语应用能力的测试是一个全面的测试,包括外语思维能力和语言组织能力。研究和开发有效的自动评分系统对汉英翻译不仅为学生翻译实践提供了一个平台,也有利于教师的讲座,减少教师的压力教学和得分。在此基础上,通过分析口译测试的评分要求,关注语义评分法在内容的解释水平,建立了一种多参数能解释语句汉英自动评分模型为基础构建应用程序系统。
中国人英语口语的语义评分问题为研究重点,本文介绍了一个语义评分模型集成long-short-term记忆神经网络和self-attention机制,它可以应用于关键词得分和句子语义评分(3]。模型的评分原则如下:首先提取单词和句子特点和代表他们在矢量化的形式,然后使用双向long-short-term记忆神经网络优化的特征向量,然后用self-attention机制获得单词或句子的语义特征,最后语义评分是由一个简单的神经网络计算。实验表明,相比之下执行更好的可伸缩的递归autoencoder-based语义评分模型在语义评分,这在句子语义评分模型有更好的结果。句子语义之间的一致性平均得分结果和原始分数达到55%。
汉英翻译质量评价一直是一个热点领域的汉英翻译质量自动评价近年来。在自动口语得分方面,目前大多数的研究主要集中在评估口语的发音质量,比如阅读问题和后续问题(4]。英语阅读问题中使用最可能的线性回归和最可能北概率算法与温和的结果。然而,这仍然是一个缺乏有效的评价策略研究问题类型相关的文本内容,如解释问题和重复的问题(关键词、主要内容的句子)。虽然一些学者进行了相关研究,但实际结果的大规模口语测试成绩是非常有限的5,6]。
因此,我们提供了一个自动化的汉英翻译质量的方法。评估翻译质量,我们选择三个主要参数:语义关键字、句子相似,和口语能力。在字面意思汉英翻译,翻译的关键字必须是有意义的,和普通汉英句子的意义还必须是准确的。口语翻译,流畅性参数也是非常重要的,流畅的整体水平也反映了翻译的语言。在汉英翻译问题和答案评分的研究中,研究人员通常专注于评估汉英翻译的准确性和受访者的整个句子的理解。这也是选择的主要原因前三个评价参数。因为许多汉英翻译问题是汉英翻译问题的主要类型,自动评分的汉英翻译问题有实际的用途。自动评分系统的框架汉英口语翻译如图1。
2。文献综述
Rajagede等人表示,在1960年代,人们开始研究自动控制质量评估口服的形式大学研究项目(7]。世界上第一个大型计算机辅助语言学习系统柏拉图系统是一个可编程的自动教学的学习系统。这是在1959年开发的伊利诺伊大学及其商业伙伴,控制数据。外观极大地促进了计算机在外语学习中的应用。第二代呼叫系统,由ALLP麻省理工学院的技术,研究计算机在教育领域的应用。刘说,在1990年代,研究第三代呼叫系统更加关注应用程序的人机交互和多媒体语言学习(8]。斯坦福国际咨询研究所(原名斯坦福研究院)研究和开发集团专注于语言研究。VILTS(语音交互语言培训系统)系统开发的集团是用来测试学生的语调和发音流利。系统使用后验概率算法和对数似算法计算出演讲者的发音的准确性,在使用期间分数描述演讲者的发音流利。卡内基梅隆大学设计了一个特殊的自动评分系统10设置英语口语测试。夏,l .认为,该系统可以实现好的结果在判断非英语母语者的英语口语水平,但是该系统不会自动评分的开放式的问题类型(9]。SCILL算法和简化的联合后验概率算法由剑桥大学和麻省理工学院计算发音的准确性。简化后验概率算法极大地缩短了计算时间,因此,系统性能得到了改进。
张认为,没有很多相关研究semicontrolled主题的口语质量评估在美国,和主要研究代表托福考试系统和培生学术英语考试系统(10]。彭探索性研究支持向量机的使用和分类和回归树算法问题和答案评分方法(托福考试的11]。这项研究不仅发现向量机定量分析的优点,但也发现,分类和回归树算法是非常有效地挖掘数据的潜在的法律。托福测试系统使用多元线性回归方法集成的四个特征评分参数语调,语法、流畅、和词汇多样性计算考生的分数。托福的成绩评分系统的六个测试问题类型。培生学术测试系统,由皮尔森选择语调,流畅,句子水平和词汇特点评分参数。不同于托福考试系统,系统不区分问题类型和分数,和直接计算分数的候选人的四个进球特征基于候选人的回答。
在1970年代,美国研究人员开始研究翻译质量。翻译是西方国家提出的一个理论来评估翻译的质量。它强调译者必须充分表达情感,目标,和意义包含在文本翻译的语言理解原文语言的基础上。1980年代后,西方学者试图量化解释的质量通过实证研究,试图找到科学的变量和比例来评估质量的解释。译者期望的禁令和翻译进行了一项调查,发现翻译的最重要的指标来衡量翻译质量内容一致性,其次是翻译一致性,翻译的完整性,正确性和语法功能(12]。元认为,这项研究奠定了基础口译质量评估的实证研究[13]。侍从等人提出,在医学和法学等主要国际会议,观众的意见的解释进行了质量评价进行了综述和案例研究,发现有差异的解释观众和译者之间的质量评估标准。Ismagilov和我采访了国际会议的翻译,研究发现,观众和译者重视翻译内容的准确性和清晰14]。与内容相比,他们的表情声音和讲话速度等要求不高。秦等人介绍了一个语义评分模型结合短期和短期记忆神经网络和self-attention机制,它可以应用于关键词得分和句子语义评分。模型的评分原则如下:第一,提取单词和句子的特点和表达它们的形式向量化,然后优化使用双向短期记忆神经网络特征向量,然后用self-attention机制获得单词或句子的语义特征。最后,一个简单的神经网络是用来计算语义评分。实验结果表明,平均相关性模型和原始分数是0.444,与语义评分模型相比,基于可伸缩的递归自动编码器。与原来的分数最低符合率为95%。与周边国家最高一致性利率是74%。日本的自动评分模型解释基于语义评分已经证明是实用和取得了好的结果15]。
解释测试和解释能力评估不仅可以掌握学生的翻译水平,也是评估教师的教学质量。可以看出,口译测试和解释能力评估可以提供一个重要的基础教学改进有一定的指导作用。从口译质量评估的研究现状,可以看出,信息沟通在解释评估变得尤为重要。评分规则,是罕见的得分点,强调语音语调,更强调信息的完整性表达和信息传递的准确性。
3所示。方法
3.1。模型评价指标
一个自动评分系统是一个计算机模型,成绩评定等级的答题纸,和系统评分结果之间的差异和手动评分结果反映了自动评分系统的性能。创建一个自动评分系统,首先需要一套标准的人类得分数据。这些数据也被称为原始分数应试者的回答。本研究的目的是使机器评分结果尽可能接近的候选人最初的分数。我们可以评估系统性能之间的相关性和一致性基础上自动评分系统评分结果和最初的得分。
关系:关联是一个重要的指标来评估得分系统性能,用于测量机之间的相似性得分和初始线性意义上的分数。皮尔森相关系数是用来测量机之间的相似性得分和原始分数,和计算公式方程所示(1)如下:
方便:初始评分一致性评估和自动评分模型有两个参数:一致性水平和邻近的稳定水平,基于最初的得分和自动评分模型的显式分配不同的分数16]。健身是样本的数量的比率在同一水平的样本总数,即公式计算样品的数量的比率的满分年代样品的数量N在第二个公式如下:
邻一致性比率是指样品的机器的数量的比例分数不同于原始分数由一个水平(小于或等于0.5分)的样本总数N,它通常可以作为一个有效的指标比较两者之间的一致性程度;计算公式见方程(3)如下:
LSTM存储单元主要由记忆细胞,忘记了盖茨,盖茨输入和输出。忘记门用于屏幕老细胞信息和更新当前记忆细胞根据存储单元的候选人信息输入生成的大门。忘记门的乙状结肠激活函数处理输入信息和输出值在[0,1][17]。输出值表明,旧的存储单元存储的信息,所有的信息的输出值0表示旧的存储单元是遗忘,和输出值1表明,在旧的存储单元存储的所有信息。信息状态的计算公式忘记门方程所示(4)和(5)如下:
输入门决定了新信息可以添加到当前的存储单元。每个LSTM单元输入包括输出Ht-x之前的单元和输入Xr新信息。乙状结肠激活函数在输入门处理输入信息和输出[0,1]之间的一个值。输出值代表了当前的状态信息需要保留。然后,使用双曲正切函数来生成新的记忆细胞的候选人信息。两个函数的计算公式方程所示(6)和(7),分别如下:
门的输出决定了当前单元格信息的输出状态(18]。与前两门设计,乙状结肠函数用于处理输出输入,输出的结果[0,1]之间的一个值。输出值是乘以双曲正切函数值的更新存储单元获得Ht最终的输出结果。的计算公式输出门方程所示(8)和(9)如下:
可以看出从LSTM单元结构图和计算公式的记忆细胞C是传播LSTM网络通过一个简单的线性变换,所以它可以留在LSTM模型很长一段时间。盖茨通过添加忘记盖茨,输入、输出盖茨,和记忆细胞的神经单元屏幕内存信息,LSTM单位使用C记忆细胞保持长期记忆,和隐藏层H保持短期记忆,实现长时间序列数据的处理和学习(19]。
乙状结肠函数可以映射实数区间(0,1),而不是集中在零。在差异的特性是相对复杂或区别不是特别大,乙状结肠函数更好的用于文本分类。乙状结肠函数最大的缺点是容易导致当backpropagating梯度消失的问题。乙状结肠函数公式方程所示(10)如下:
3.2。检查口译评分标准
可以看出评分标准的解释,解释强调信息传递的准确性和流利的表达信息。在考试中,语法和发音和语调不测试20.]。因此,信息传递分为关键词得分和句子语义得分,得分和参数在语音层面上选择流畅。结合口译教师的意见,关键词语,句子语义和发音流利决心作为汉英口译的特点评分参数自动评分系统,如图2。为了便于分析实验结果,候选人的原始分数可以分为四个等级,如表所示1。
3.3。进行实验
候选人的记录的解释和听力考试在一个考场被用作实验数据集。选择第一个1 - 5 B在体积和体积问题,共有10个中文变成英文句子翻译问题为研究对象。在原始数据中,有328名候选人在体积,也就是说,每个问题有328记录数据,共计328人5 = 1640数据;体积B共有334名候选人,也就是说,每个问题有334记录数据,共计334人5 = 1670块的数据。由于年级分级根据候选人的录音,录音的质量有很大的影响在成绩21]。为了减少这个因素的影响录音质量,我们屏幕原始录音。我们排除了录音没有声音或吵闹的环境噪音。为了减少人工评分的主观影响,我们选择数据和评分结果小于或等于0.5分由两个评级机构的实验。经过筛选,实验数据如表所示2。
实验数据通常分成两部分,一部分用于建模和另一部分用于测试模型的假设。数据集用于创建模型称为训练方案,以及数据集用于测试模型的准确性的假设被称为测试包。的平均样本量汉英句子解释自学考试的是272,这是一个小样本机器学习的数据。如果数据仅仅是分为一个测试集和一个数据集,很难充分利用数据的一些示例数据集。这个简单的数据分布方法很难准确评估模型可预测性。K-cross-validation是一种常见的方法来评估few-shot模型的可预测性。K-cross-validation指随机实验数据划分成K子集,使用每个子集作为测试集,并结合剩余子集训练集。K乘以训练模型后,所有测试集的平均值作为最终计算结果(22]。这种方法减少了影响一个测试集和训练集划分方法的预测结果通过计算平均每个子集的价值模型的预测性能。经过反复测试,作者用三倍交叉验证评估模型评分的准确性,以及基本步骤如下:(1)将数据集划分为3基本上相同数量的数据子集,(2)使用第一个子集作为测试集,使用剩下的两个子集的结合作为训练集,(3)使用训练集数据训练模型,并使用测试集数据来验证模型的预测能力,(4)重复步骤2 - 3,以剩余子集为测试集。
在一个小样本数据集,如果训练集包含绝大多数的样本数据,理论上训练模型可以学习更多的数据特性(23]。然而,在这个时候,测试集的样本数据将相对较小,和评价结果容易出现大的波动,和可靠性会减少。如果测试集包含更多的样本数据和训练集的样本数据变得相对较小,模型可能无法学习的有效的特征数据,从而减少评估结果的可信度。一个常见的做法是使用2/3-4/5的样本作为训练数据,剩下的1/5到1/3的样品作为测试数据。因此,每个主题的数据集的划分在这个实验中遵循的原则,训练集:测试为实验设置7:3。研究中的实验数据共有10个句子翻译评分问题,平均每个句子的样本数量是272,这是一个小样本实验深入学习。为了减少实验结果的随机性,提高实验的可靠性,在实验期间,10个问题建模和测试,和三倍交叉验证,也就是说,每个问题测试3次,最后采取了3次,实验的平均值作为每个问题的实验结果。对每个问题进行三个实验,表3显示了每个实验的数据集。
4所示。结果和分析
句子语义评分不仅是测试的整体了解候选人的句子也反映出候选人表达句子的能力。手动评分,没有特定项的句子语义,但射手将候选人分数大局的翻译。一方面可以直接告诉通过听录音,考生是否讲一个完整的句子或一系列的关键词。然而,电脑无法轻易做出这样的判断24]。在语义层面,句子通常由关键字和常见的单词。关键词一般的话,可以影响一个句子的意思,由名词、动词、形容词与特定的含义。通用词不是决定性的理解整个句子的意思,但句子的一个重要组成部分,如前缀、连接词和句子。作者比较了句子语义评分模型基于提出的可伸缩的复发性autoencoder神经网络BiLSTM-AM-based语义评分模型,分析了两种模型的优点和缺点句子语义分析。
可伸缩的递归autoencoders语义检测:这个模型是基于递归神经网络和改进autoencoder,句子的可提取有效特征普遍性(25]。递归神经网络过程通过树结构句子序列信息;基本过程是将输入的句子根据网络节点的顺序生成父节点,然后处理新生成的父节点和子节点作为输入。递归模型从下到上,直到所有的子节点都集成,和最后一根节点的特点。此外,这一特性可以被认为是一个特征提取表示输入节点。autoencoder分为一层编码和解码层。前获得另一个表示输入数据的编码和压缩的特性输入数据。后者通过解码恢复原始输入。如果解码层的恢复结果非常接近输入数据属性,假设输入的编码函数可以表示一个近似。URAE-based句子语义评分模型研究句子语义属性通过编码隐藏层神经元。 The repetitive neural network of the autoencoder, combined with URAE, reconstructs the function compressed into the parent node to form the child node, filtering out the nature of the error measurement method between the atomic node and the reconstructed child node. If the error is too large, it means that the effect of the adjacent node merging is not good, and it is necessary to continuously traverse and optimize to combine the two adjacent nodes with the smallest reconstruction error.
最小化虚拟主体性对成绩的影响,作者从回答使用数据表,在多个独立评分点,两位老师的平均分数作为初始分数。确认最初的分数的有效性和准确性的测试数据,我们确认机器评分模型的准确性通过减法语音数据从0.5分,得分的差异进行比较。两点射手,射手2,或者第一次得分遵循正态分布的直方图,与大量的候选人与温和的分数,和少量的候选人优秀和成功的分数。研究表明,在一般情况下,学生成绩的分布遵循正态分布,这表明跨年级学生评估的准确性和可靠性的初步成绩。图3显示两个得分手和原始分数的分布。
为了测试随机内存算法的优越性在熔点,采用控制变量法进行比较实验条件下,演讲评分法,关键词计分法,句子意思评分法是兼容的。随机内存算法取代了线性回归预测方法积分供应。首先,我们比较两个模型的分数的分数分布与原始分数的分数分布。是否随机内存算法或线性回归预测算法用于结合分数,可以看出两点的最后得分模型符合正态分布规律。从ABCD四层分布,使用随机森林算法的自动评分模型评分融合更接近原始分数分布。
原始得分协议相比,使用自动评分模型评分结果和不同的计分方法。之间的相关性分数的两个模型和最初的得分是90%以上,而自动评分的得分模型使用的随机内存算法通常是100%毗邻首次得分。平均事务性能而言,自动评分模型使用的随机内存算法达到77.4%,和自动评分模型使用线性回归预测方法达到55.5%。自动模式使用随机森林算法协议平均21.9%的速度高于使用线性回归方法。
5。结论
不可否认,怀疑自动评分系统从未停止,因为它出现在语言测试领域。人可能不相信人工智能技术可以用于自动评分的解释,并认为它不能做出正确判断的内容解释。我们相信,从形成性评价的角度来看,应用人工智能技术在低风险的教学评估或学习诊断帮助口译教师和学生,还是一个可行的评价选择。
因为ASR的结果有一定的误差,最后分数预测模型也会受到影响的差异不同程度记录质量。未来技术发展的解释,自动评分系统的语音特征的表达维度CSE解释规模可以进一步添加到算法模型,它不仅可以有效地避免记录质量问题,但也有助于演讲更详细的建议。在未来,深入学习算法直接将用于模型原始语音和文本信息,使自动评分系统能够更好的学习如何利用文本语义特征解释分数预测。教学方面的使用,我们会继续丰富场景描述和反馈。自动评分系统的解释也可以提供解释学生更个性化的和详细的反馈(如特定的错误例子和调整建议)在未来,在解释能力的发展,建立里程碑形式学习的总体趋势和个人的肖像学生学习,教教师和学生测试提供更多参考。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。