文摘
结合交际语言能力模型和多通道的角度研究,本研究提出了一个研究框架下的口语交际能力多通道的视角。这不仅真正反映了语言交际能力,也充分体现了各种评估所需内容的口头语言的基本属性。针对用户评价矩阵的稀疏特性,提出了一种特征权重分配算法基于英语类别关键字字典和用户搜索记录。该算法主要是基于自建英语口语类别分类词典和用户的查询向量转换成user-English-speaking向量类型。通过本文提出的计算规则,目标用户的偏好得分为特定类型的英语口语,这分数分配给未分级的项目原始用户的特征矩阵作为初始开始得分。同时,为了解决用户相似性计算精度不足的问题,一个用户相似度计算算法基于“同义词Cilin扩展版”和搜索记录。算法引入了“同义词Cilin”来计算语义项之间的相关性,词汇,和查询向量之间的相似用户查询记录中获得用户,最后给出了用户相似性计算集成用户评分和查询向量的方法。对于汉语语法纠错的任务,本文使用两种方法预测语料库词与词之间的关系,Word2Vec和手套,培养不同的维度和使用这个词的词向量向量来表示的文本特征实验样本,避免句子分词带来的。的基础上词向量,CNN的优点和缺点,LSTM和支持向量机模型在这个共享任务通过实验数据进行了分析。本文的比较实验表明,该方法取得了较好的结果。
1。介绍
在高等教育中,英语口语的考试与评价一直被认为是一个非常重要的地位(1]。有一个独立的口头测试是否在大学英语考试四级或六级证书,或英语专业四级和乐队8。此外,许多大学生都参加了英语能力测试由各种外国检验机构,包括英语口语测试。不管纸质教科书的分类或在线教科书,大多数当前的教材有一个共同点,那就是,他们主要依靠纯文本媒体提供信息。口语教材确实也有一些媒体除了文本插图和cd等添加颜色,但是他们的数量是相对较小的,使用率不高。这样的口语教材不能使学生在英语口语的学习有浓厚的兴趣,更不用说以英语为母语的人所使用的方法和策略来帮助生产实际口语交流的意义通过媒体之外的其他语言(2,3]。当学生们用英语交流,因为没有这样的强化输入链接,他们的英语口语表达常常缺乏元素除了演讲,帮助其意义生成,并且没有其他战略元素需要在英语口语表达4]。
自“交际能力”的概念,提出许多国内外的研究人员发起了新一轮的思考和讨论“交际能力”和“什么是交际能力。”学者在交际能力的建设有不同的观点,他们有自己的理解。从多通道的角度来看,构建交际能力的内涵,特别是口头交际能力,充分发展和丰富之前关于交际能力理论研究是本研究的主要目的之一5]。为了帮助大学生持续和不断改善他们的英语口语,这个研究转录学生口语输出到多通道文本和构建一个语料库。构建多通道的角度在口头交际能力的研究模型,同时分析学生的口语特征。它从根本上促进解决当前大学生缺乏动机在英语口语的学习,自主学习能力差,费时和低效的学习。因此,现实意义而言,本研究全面分析大学生英语口语的特点,在这种模式下,以便它可以扮演重要的角色在实现“课程要求”的内容真正意义上(6]。
本文嵌入多通道的研究理论视角的研究口语交际能力,可以主要通过两个主要模块反映的“口头语言”和“非语言特征。”其中,“口语”模块可以分为两个指标:“口语和书面语言特征”和“基调。“搜索过滤算法提出了一种基于用户的搜索关键字的内容。首先,针对稀疏特征的常见问题和不足搜索过滤算法的准确性,分析了隐式输入信息的用户搜索记录找到改善传统搜索过滤算法的可能性。功能基于英语类别关键字字典的重量分配算法和用户搜索记录提出了提高用户评价矩阵的特征稀疏问题。同时,用户相似性的基础上“同义词Cilin扩展版”和搜索记录。计算算法是用于改善传统的用户相似度计算方法的准确性。我们给的总体设计框架和搜索过滤过程搜索过滤算法。本文提出了分类器基于CNN, LSTM, SVM和替换文本与词向量作为初始功能的文本。它可以从实验过程和实验结果之间的比较这个词向量非常适应在这个任务中,可以看到,使用支持向量机分类器和语法模型符合自然语言的特殊的法律是不合适的,不仅因为文本集合太小,还因为它提供了许多相关的功能不清楚的意思。
2。相关工作
研究人员发现,似乎有一种竞争关系。研究表明,准确性和语法复杂性可以一起提高。虽然上述研究是基于水平比较,他们的纵向研究奠定了坚实的基础的内部关系复杂性、准确性、流畅(CAF) [7]。相关学者分析了54写作样本的芬兰语言学习者在三年内,发现词汇复杂性和句法复杂性可以共同成长,名词短语的复杂性和句法复杂性互相竞争,随着时间和复杂性指标之间的关系;这项研究没有发现任何明显的准确性和复杂性之间的关系(8]。对第二语言研究者和教育工作者来说,这是非常重要的,找出影响CAF的因素。一些因素影响CAF的性能在某个时间点,和一些因素在CAF的历时发展发挥重要作用。有许多因素影响CAF,包括语言内部因素和外部因素。基于任务的研究也受到任务类型。内部语言因素是指一个语言现象或特性,可能影响的性能和发展CAF由于其特殊的属性(如定语从句),和外部因素包括学习者个别差异(如焦虑、奉献和学术能力)(9]。
相关学者认为用户的评论后,采购产品最能反映用户的满意产品和提出了一个模型,使用评论的文本提取特征的学习,结合预测评分(10]。但这些也没有解决数据稀疏的问题。数据稀疏的问题是用户数据密度低一些新的项目,这使得信息不完整,不可能准确地获取用户的兴趣水平。为了应对这一问题,研究人员删除其他信息,只保留特性主要反映用户的兴趣和偏好和使用奇异值分解技术来降低评级矩阵的维数,提高了数据密度(11]。为了克服由于数据稀疏的问题,相关学者基于用户数据建模有足够的数据,然后计算用户之间的相似度的基础上,皮尔森相关系数。他们使用的相似性用户找到最近的邻居的集合,根据加权平均计算用户首选项的邻居集,和过滤产品搜索用户根据他们的分数。之后,随着深度学习的发展,除了它的力量在挖掘隐藏功能,更多的功能表达用户首选项可以发现通过深部开采,使得用户偏好模型更精确描述用户首选项(12- - - - - -14]。
研究者提出,协作标记是用来获取和筛选用户对物品的偏好。因此,他们提出了一个协同过滤方法来源于用户创建的标签来提高搜索质量的过滤(15]。他们还探索,协调标签是用于解决数据稀疏,和冷启动问题的优点。相关学者认为最近的位置技术的进步从根本上增强社交网络服务,和位置搜索过滤中扮演一个重要的角色在帮助人们找到他们可能会喜欢的地方16]。通过系统回顾以往的研究,他们提出了一个搜索过滤框架基于content-aware隐式反馈搜索过滤。框架的研究已经证实,有效地提高了搜索的效率过滤,进一步加强社交网络的服务功能。有关学者研究用户的浏览记录之间的关系和最终产品购买的用户,建立一个基于用户兴趣偏好模型的浏览纪录,和我的用户的偏好来过滤用户的兴趣产品搜索。研究已经证实,该模型在一定程度上解决冷启动问题,优化搜索过滤效果。相关学者首先计算的一部分数据,可以通过基于项目的CF算法更简单、更精确,然后计算用户之间的相似程度,根据基于用户的CF算法基于获得的数据在这部分17]。获得的数据填满整个得分矩阵,这是一种基于项目的完美结合CF和基于用户的CF算法。
研究人员使用BP神经网络获取得分矩阵,然后预测位置不得分,使得分矩阵完成(18]。由于稀疏数据,计算用户相似性之后,用户的最近邻居会相对稀疏,而通过这种方式获得的用户首选项也会有偏见。为了获得更多的数据集在这样的数据,相关学者扩大用户的最近邻居集第一次在原来的基础上。当然,这并不是一个无限扩张。这个阈值允许转让相似度大于阈值的路径长度有限,解决了邻国的不准确的计算值由于数据稀疏,甚至最近的邻居没有数据19]。同样的冷启动和数据稀疏的问题,研究人员使用内核函数。针对传统欧氏距离的缺点,研究人员优化基于欧氏距离的方法,介绍了归一化处理,在此基础上,最后做了评估预测和搜索过滤(20.]。
英语纠错任务,尽管英语辅助学习工具取得了良好的发展下的机器学习方法,由于机器学习本身的一些缺点,这些辅助学习系统仍然不能实现预期的结果(21]。是表现在的数据量太小,和很容易overfit [22,23]。为了避免过度拟合,修剪处理将被使用,但是修剪处理将失去一些微妙的特性。有很多非常重要的信息,这些特性,例如,由朴素贝叶斯模型的缺点是,它需要独立的假设,这将牺牲一定的精度和分类性能不高24,25]。此外,机器学习的文本处理的数量很小,没有适应性强。它将发挥很好的效果在一个特定的环境(26,27]。然而,由于巨大的英语词汇和许多常用的词,它只能做一些校准。好特定的英语信息使其无法完全覆盖所有英语特点,分类模型是不利于保存,这使得计算机辅助英语学习策略由机器学习模型不能完全适用于各种外国学习者的英语文本,所以其准确性将减少,预期的效果将不会获得。这使得越来越多的学者重视深度学习模型(28,29日]。
3所示。一个初始模型研究口语交际能力从多元的角度来看
3.1。口语交际能力的初始模型
图1显示了口语交际能力的初始模型的研究提出了研究多通道视角。从内部的角度来看,这个初始模型的核心是口头交际能力的两个方面具体体现交际语言能力(CLA)模型从多通道的角度来看,即口头和非语言特征。前者是基于纯语言的语言分析和基于传统的同伴语言文本和多模式的文本。从本质上讲,这种分析以语言的形式和语义为考虑对象;后者完全是基于多通道文本。非语言因素的分析基本上是独立于语言形式和语义。
从表达的角度来看,初始模型遵循精神和环境相关方面的多模式的角度研究的一般模型。因为非语言特征的两个方面相互作用,互动箭头用于初始模型。此外,语言和非语言特征本质上是互动的,箭头还用于模型来表示两者之间的关系。
从多通道的角度来看,这项研究可以观察这三个组件的特定性能通过学习者的口语输出的重点。尤其值得指出的是,CLA模型已经非常详细讨论它的语言能力和战略能力,而且它也在实证研究中发现,大量的先前的研究集中在这两个方面。然而,CLA的模型没有一个系统的描述心理和生理机制,在实证研究和相关研究非常少见。然而,多通道的角度不仅可以使用这方面的理论基础作为指导这项研究也丰富和解释了CLA的模型在这方面长期存在的差距。因此,调查学习者的口语从多元的角度仍在调查他们的交际语言能力。他们仍然不能没有语言能力、战略能力、和psycho-physiological机制。它仍然需要处理某些人在这种非常包容的模型。一边进行分析,但不同的是,这背后的理论基础,本研究将进一步巩固理论本身。
多通道的研究更侧重于内容,生成意义之外的话语作为研究对象。基于这一考虑,“音调”的“口头”视觉检查的一致性学生使用音调、波动和表意文字的过程中英语口语输出,和在多大程度上他们可以帮助他们产生意义。“非语言特征”更加明显。本研究需要观察学生是否使用某些非语言策略来帮助他们实现意义生成通过多通道的角度来看,他们是否有一系列的与周围环境的相互作用,以及他们是否参与表达意义的过程。因此,结合“口头语言”和“非语言特点”,这项研究可以在学习者找到突破英语口语的其他特性多通道理论指导框架,和这两个模块也在很大程度上。
3.2。模型的可操作性和解释力
澄清这个初始模型的各种组件后,有必要解释模型的可操作性和解释力。可操作性决定模型中每一个指标是可行的测量和判断,和是否有指标重叠。解释力显示多少模型能反映学习者的口头交流能力在多通道的视角。
3.2.1之上。模型的可操作性
“口语”模块的测量在这个模型中结合了同质文本和异质文本。测量的“口语和书面语言的特性,本研究将利用语料库自动标注和检索技术来提取所有语言特性。测量的“基调”,本研究主要用于人类的判断(两个注释器)将所有句子根据五个不同的音调。因为研究者的音调的看法常常可以判断相结合的语义特征学生语言输出和自己的经验,这种分类是相对简单的,和它的一致性也得到保证。如果某些句子无法分类,本研究将采用联合讨论在多个人员,最终达成共识。
本研究发现学习者的特点在这个指标通过计算上述指标本身的统计,然后分析了影响通信的实现。虽然很多事情需要度量和精度要求很高,由于现代软件技术的发展,计算这些统计数据在这项研究中,尤其是时间的测量数据,可以精确到0.1秒。此外,大量的非语言特征,本研究只反映了他们参与的表现描述性的标签时,不进行功能判断这些标签上的表现。因此,在以后的数据分析,本研究可以提取大量的关键词描述这些从不同角度表现然后功能合并它们之间的非语言特征。这样,在测量的可靠性和判断的“口语”模块和“非语言特征”模块,测量目标是非常明确的,更可靠的判断依据,整体可操作性也理想。
3.2.2。模型的解释力
除了模型的可操作性,这个模型的另一个显著特点是其解释力口语生产整个过程基于多通道的角度来看。因为这个初始模型是CLA的产品模型和多通道研究理论指导模型,其解释力是反映在观察来自多个形式的口头交流能力,和解释力的最大价值在于反映不同模式之间的互动。输出有一定的影响;这是积极的吗?将不同层次学习者差异的过程中,这些行为?这些差异是如何分布的?这些问题尚未回答,这个研究可以给上述问题的答案这个初始模型的框架下。因此,“口头语言”和“非语言特征”优化指标解释学习者口头交际能力从多元的角度来看。
4所示。搜索筛选器设计算法
4.1。的设计基于同义词词林的相似性算法
词相似度通常是由[0,1]的值。如果两个词不是语义可更换,相似性是0,和单词之间的相似性,本身是1。词相似度是一个非常主观的概念。词的意义相似的概率是指两个单词可以互相替换而不影响原来的语境和语义环境。可能性就越大,这两个词的可能性就越大。事实上,相似词通常是由词距离的概念,描述和词距离和相似性实际上是两种不同的语义相关性的表现。话说W1和W2,假设两者之间的相似性是SIM (W1 W2)和距离是说这个词(W1 W2),有一个简单的转换关系:
其中,α是调整参数。根据经验,的范围α是(0.01,0.3)。当然,上述公式中只有一个两者之间的转换关系,形式并不是独一无二的。此外,词相关性代表共存的可能性相同的两个词上下文。它和词的相似度是两个不同的概念,两者并非直接相关。
自组织单词的同义词词林是一个分层树结构,两个词可以表达相似的两个词节点之间的距离,和单词之间的距离节点可以被描述为8位代码。我们确定两个词是否在同一水平的判断分支的8位字代码并确定的等级关系的两个词词代码从第一级。
此外,段线的密度这个词词的位置也是一个重要因素,影响着词汇相似。更多的词段线,线越分散的语义,相似度越小。例如,段线的有4个字“Ga01A04 =快乐的快乐,跳舞,跳舞,欢呼,跳跃,“虽然只有两个词的段落行“Ga01A08 # Tianlunzhiyue乔迁庆宴。“很明显,后者段线的相似的单词是高于前者。最后,节点密度分层树的词的位置也会影响这个词相似,相似的词密度段线。树节点密度越小,更精确的词的语义和这两个词之间的相似度越高。
同义词词林,因为一个词通常有多个含义,一个字可能有多个编码项目,也就是说,意义的物品。显然,词语的相似度可以通过相似的含义。假设这两个含义X和Y的相似度计算方法基于同义词Cilin如下:
如果两个意思不相同的树,
如果两个意思相同的分支在第一个层面上,
如果两个意思相同的分支第二层次,然后
如果这两个意思是在第三级分支,然后
如果这两个意思是第四分支水平,
如果两个意义相同的五级分支,有两种情况。如果八位“=”,这意味着模棱两可的条款是相似的,还有
如果八位“#”,这意味着模棱两可的条款是相关的,也有
其中,一个,b,c,d,e,f相似的调整系数,n1∼n5在每个分支节点的总数层,和米段线是同义词的数量。
4.2。查询向量相似度计算方法的设计基于同义词词林
本节将给出一个定量计算方法为用户查询关键字向量的相似度和使用相似的值作为补充和改进搜索用户相似度值的滤波算法提高搜索过滤效果和准确性的滤波算法。不同用户的查询向量的尺寸不一致,所以线性代数理论的方法不能用于向量夹角余弦法计算查询向量的相似度,和词汇之间的相似元素在不同向量的形式只能计算穿越向量元素,从而得到整个向量之间的相似度。
的整体结构搜索过滤算法根据用户搜索的内容提出本文分为三个部分:输入模块,搜索过滤模块,输出模块。输入的数据信息模块主要由用户的评价分数在英语口语项目和用户搜索的关键字记录;英语口语的输出模块反馈工作,用户可能感兴趣的到目标用户通过页面显示或电子邮件。具体执行处理输入数据获取的内容目标用户感兴趣的项目,和输出模块反馈给目标用户。图2算法的总体设计框架。
系统输出模块选择50邻近目标用户的用户。换句话说,系统认为最大的50个用户相似目标用户作为目标用户的邻居集。在目标用户的邻居集转换成一个邻居用户评价矩阵,邻居的分数设置用户为目标用户的未分级的项目计算目标用户的英语口语成绩的预测项目。摘要10英语口语预测分数最高的物品作为用户的定制搜索过滤内容和反馈用户通过电子邮件和web页面显示。
搜索过滤算法根据用户搜索记录的关键提出了本文主要分为三个主要模块,即用户评价矩阵改进模块,用户相似性计算改进模块,搜索筛选器模块。用户评价矩阵改进模块使用一个特性重量分配算法基于英语类别关键字字典和用户搜索记录;用户相似性计算改进模块使用一个用户相似度计算算法基于“同义词Cilin扩展版”和搜索记录。搜索筛选器模块使用的传统计算方法预测分数。看着整个搜索过滤系统,它遵循了传统搜索过滤算法“用户评价matrix-similarity calculation-predictive得分”搜索过滤模式,与此同时,集成了同义词词林和用户搜索记录实现稀疏的用户评价矩阵和用户相似性计算精度不足的改进,改善传统的搜索搜索过滤精度的过滤算法和改进用户体验。
4.3。CNN语法网络分类器
卷积神经网络前馈神经网络,其中包括一个卷积层和一个池层。对于一个句子,句子中的每个单词可以得到相应的词向量通过嵌入方法。池层作用于计算特征向量f,池层分为最大池层和平均池层。最大池层选择特征向量的最大价值f,平均池层选择的所有值的平均值的特征向量f。
CNN分类器的基本框架图如图3。假设卷积核的大小n单词和句子的矩阵年代提取从本地模式之间的特性n通过卷积核的卷积运算。每个卷积内核将输出一个特征向量,将特征向量。max-pooling层将提取句子中最重要的信息文本功能。之后,完全连接层将进一步过程max-pooling层输出的特性。分类输出层神经元的数目是由分类标签。然而,由于训练样本的不平衡,这种multilabel分类的效果非常差。因此,本文采用两级分类方法。事实上,每次培训执行只使用正样本和负样本的错误的样本,分别。它是足够的训练一个分类器,可以分类四种类型的错误。
5。实验评价
5.1。实验过程和实验环境
在递归单位大门(格勒乌)模型是LSTM的一个变种。双门控制,一个“更新门”和“重启门。“格勒乌维护LSTM的影响而结构变得简单。它结合了“被遗忘的门”和“输入门”到一个“更新门。”“更新门”是用来控制的程度前一时刻的状态信息带入当前状态。越大”更新门,“更多的状态信息从之前的时刻。“重启门”决定了如何将新的输入和以前的记忆。
支持向量机分类器,一个字和它的上下文可以被看作是一个训练样本。在本文实验中,设置窗口在一个句子7以判断中间有一个错误的词。它带来相应的词向量训练样本,样本的特征,并使用SVM分类器进行分类和判断错误的位置一个句子中去。本文使用语法模型找到内部连接在一个句子,这是一个概念在计算机语言学的范畴和概率论,并指的序列N项目在给定的文本或演讲。项目的意义是一个音节,字母,单词,或碱基对。
在这个实验中,我们使用K倍交叉验证调试的参数分类器,在那里k= 4。首先,我们将样本数据分成四组,一组验证每个子集的数据。也就是说,我们使用3组数据作为测试集和1组数据作为验证集和循环5次。该方法可以避免过度拟合的发生和underfitting。
当一组数据训练后获得的分类器参数应用于下一组数据,每组数据可以实现更好的结果。如果得到好的结果在一组数据,但不是好的结果在其他的数据集,然后分类器已过度拟合。在这个时候,需要一些方法来防止过度拟合,以防止过度拟合。最后,训练分类器作为预测的最终版本保存测试数据,测试数据的结果是用作实验的最终结果。的K倍交叉验证过程如图4。
实验环境使用Python 3.5作为编译器并使用Gensim套件7训练Word2Vec词向量。手套词的训练向量使用开源工具由斯坦福大学实验室提供。对语法的结构误差修正神经网络分类器,Keras套件作为前端开发,和后端使用TensorFlow-gpu10套件。除非另有说明,所有的实验环境在本文中使用这组实验环境。
所有分类器解决句子长度到100年,删除的部分句子超过100,并填入词与词向量的0后句子的长度小于80。随机梯度下降算法用于训练,每个时代的批量大小是32,10组训练。CNN设定的卷积核分类器的数量是400,和卷积核函数的宽度是3,之后的最大池层。LSTM隐藏层的数量是128,和激活函数都使用softmax函数。
当使用K倍crossvalidation,本文使用训练300 -维Word2Vec和手套词向量训练CNN和LSTM,分别。因为检测水平的结果是非常重要的在中国纠错任务,识别的结果水平和定位水平需要分类和预测结果的检测水平,所以发现语法的句子越多,越及时识别水平和定位水平。因此,F1-score crossvalidation检测水平计算的指标。图5显示的性能使用Word2Vec词向量,和图6显示的性能使用手套词向量。它可以发现,使用手套词的结果向量不如Word2Vec词向量,因为他们对语义编码和其他特征的语言以不同的方式。但手套火车词向量基于词频的同现矩阵在文本。因此,在表达中两个词之间的直接关系,手套的训练方法是不如Word2Vec。例如,“贸易”的意思是接近“交易”,但在手套的训练方法,“贸易”的含义更接近“贸易法律。“这是不正确的。这使得基于词频向量训练这个词同现矩阵不如这个词向量由Word2Vec训练。因此,在比较正式的预测,本文使用这个词向量Word2Vec训练获得的。
与此同时,为了比较不同维度的词向量的影响在不同的分类器,分类器的性能测试也crossvalidation制造。更多的词向量维度应该被使用,但由于GPU设备性能的限制,持续改进的维度将计算时间的两倍,所以只有这300维度用于比较。的F1下检测水平也被用于比较,结果如图7。
5.2。实验结果的比较和分析
本文使用的模型是CNN和LSTM模型和词向量作为文本特征。方法的比较结果如图8- - - - - -10。
从数据可以看出8和9的评价结果LSTM低于CNN分类器的结果。这是因为LSTM只考虑局部特性,这使得句子可能没有类似的含义似乎有高度的相似性。CNN分类器考虑句子之间的逻辑功能,这对于每种语言尤为重要。这只是因为LSTM分类器只考虑句子的地方特色”看到明天的英语口语,这显然是错误的。
图分析10,我们可以知道LSTM分类器几乎没有有效的任务结果发现语法错误的位置。这是由于两个原因。一方面,因为它是必要的检查是否每个单词是错误的句子,LSTM分类器的功能需要添加“0”为每个功能的补充。这些引入的特性将使特性矩阵稀疏,这不利于学习。另一方面,它也使句子的功能切成碎片,并很难使用文本的真实特性。
6。结论
本文构造一个初始模型为研究学习者的口语从多元的角度,介绍了模型的特点和口头交际能力的定义和构成详细从多元的角度来看。从的角度的特征模型,该模型主要由CLA模型和多通道的研究理论指导模型和由两个模块组成:“口头语言”和“非语言特征。“这两个模块不仅有机整合的内涵和外延CLA模型还充分反映需要调查的内容口头语言的基本属性。本文详细分析特征稀疏问题和搜索过滤搜索过滤算法的准确性,关注的可能性的客观分析用户搜索内容的无形的输入信息应用于搜索过滤算法。我们提出一个功能权重分配算法基于口语类别和用户搜索的关键字字典记录。结合自建英语口语分类标签目录,用户的数据密度特征矩阵是意识到,问题的传统搜索的用户评价矩阵数据滤波算法太稀疏了。针对类似的计算方法精度不足的问题在传统的搜索和过滤算法中,一个用户相似度计算算法基于“同义词Cilin扩展版”和搜索记录,提出了和相似性反映在用户查询向量相似用户评价矩阵。本文主要介绍了分类模型中使用的任务使用单词向量集成文本特性纠正语法错误在中国外国学习者写作并比较它们与模型不使用词向量作为文本特征。纠错任务分为探测水平,识别水平,和定位水平。检测水平是用来决定是否一个句子有语法错误;识别水平是用来确定类型的语法错误的句子语法错误; the positioning level is to find the position of the corresponding grammatical error in the sentence.
数据可用性
使用的数据来支持本研究的发现可以从作者要求。
的利益冲突
作者宣称没有利益冲突或人际关系可能出现影响工作报告。
确认
这项工作是支持的重点项目2020年吉林高等教育教学改革研究:调查EAP发展视障研究生主修中医,SJZD20-03,和13日五年计划“2020年度吉林省教育科学研究项目”:研究培养批判性思维的中国学生在国际教育项目“一带一路”倡议下,GH20251。