文摘
综合国力的进一步提高,文化软实力和国际地位都显著增加。汉语也成为世界上所有国家的语言很热切地学习。然而,对外汉语的教学资源远远不能满足迅速增长的学习需求。持续改进的高性能的网络环境,低延迟和高带宽的移动计算边缘,使用计算机网络技术来帮助中国语言学习是一种有效的方式来满足需求。在这种情况下,本文提出了设计和建造一个中文学习系统基于NLP(自然语言处理)技术。建立系统的模块可以大致分为三个部分:系统的基本模块,学习模块,结合NLP技术和工具模块。,通过这三个模块的合理使用,它为学习者提供了基本的汉语教学,也收集了大量的有关文件通过系统对中国语言和文化,这是更方便学习者学习。研究表明,学习系统基本满足学习的需求。根据数据调查国际学生的使用,超过90%的国际学生使用系统相信学习系统所表达的内容是清晰和科学。结果表明,中国学习系统的设计满足学习者的学习需求。
1。介绍
电脑和网络的快速发展,人类已经进入了信息时代,电脑的迅速发展已经进一步提高网络的相互交流和影响人们的学习和工作,还为解决问题提供了新方法和结果。例如,互联网技术可以实现在线学习资源丰富,分享和多媒体技术可以帮助汉语学习提供更直观的动态影响。与此同时,开放、互动,分享互联网的特征意味着越来越多的人选择通过互联网获取学习资源和学习,这种学习方法逐渐今天是一个重要的学习方法。网络学习资源的可用性和可重用性逐渐凸显其优势,这也是学习方法的未来发展方向。与此同时,计算机技术的快速发展也促进了自然语言处理技术的研究,和许多新成果在自然语言处理领域,其中一些已被广泛应用于语言教学实践,取得了良好效果。总之,当前的研究在自然语言处理领域,特别是中国的处理,可以用来弥补在中国当前计算机汉语学习的不足。因此,可以看出,计算机技术和自然语言处理技术在语言学习中发挥非常重要的作用。
自然语言处理(NLP)是现代语言学中的一个重要新兴领域以及研究领域已经受到了太多的关注在人工智能领域1]。在信息时代,自然语言处理是至关重要的。自然语言处理研究的目的是使计算机能够理解人类的自然语言。自然语言理解完成人机交互和允许机器执行人类需要的命令和控制处理任务。这强调自然语言处理研究的意义。NLP技术可以帮助中国学生学习在一个更人道的方式。因此,开发一个中国学习系统,它结合了网络技术和自然语言处理技术,鼓励中国学习资源的获取和重用是至关重要的。因此,自然语言处理技术结合计算机网络技术和多媒体技术创建一个功能齐全的,可伸缩的,中国学习系统易于管理和维护。实现在线汉语学习和资源共享,这将有助于更好地促进和发扬中国的优秀文化,扩大中外交流,这两个是重要的为提高中国的国际影响力。设计、实现和测试一个中国与多媒体学习系统,简单的互动,和简单的管理使用基于网络的多媒体和自然语言处理技术。
2。相关工作
本文旨在研究设计和行为下的移动汉语教学系统计算,以提高汉语教学的效率和水平。许多文章研究了相关教学模式的建立。其中,交通主要集中在研究移动英语教学信息服务平台基于边缘计算。它建造了一个移动英语教学模型基于听力,阅读,听力和英语教学设计和实施了一个移动信息服务平台。经过调查和研究,该平台可以提高效率的教师的课程安排以5%对6%和效率的学生选课了2%到3%。Gao报告发现在一群中国所使用的学习策略英语作为外语(EFL)学习者在移动技术辅助的环境。研究设计是问题案例研究使用类别学习策略的概念和分析框架来指导数据收集和分析。移动技术辅助环境的数据显示方式的变化影响中国英语学习者使用具体的学习策略,在不同类型和频率从典型的教师带领和应试语言课程2]。汉了LiveCode-based手机应用程序,其中包括两个中国传统建筑的虚拟旅游网站,南苑和拙政园。由作者对于高级汉语学习者设计,应用程序提供了一个身临其境的语言和文化的学习经验。应用内置的工具,翻转技巧,真正的多媒体资源,以及有效地结合文化与语言学习的有用链接。本文还讨论了教学应用,试验结果,影响和未来方向的移动学习和基于地理位置的学习中国语言和文化教育(3]。尽管上述教学系统都有自己的优势,他们中的大多数是英语教学系统,都与汉语教学的模式,但有一定的共性。
移动边缘计算生于2013年,仍在技术研发和产业化阶段。虽然仍在开发的早期阶段,它有广阔的发展前景为5 g的核心技术之一。的上下文环境中,本文建立了一个基于NLP的汉语教学系统技术和收集以下相关技术的主要应用技术。
体积,准确性、可变性和速度产生的数据日益增长的网络传感器网络电源管理带来挑战,云计算基础设施的可伸缩性和可持续性。增加边缘计算设备的数据处理能力较低的电力需求可以减少一些云计算解决方案的开销。Krestinskaya等人回顾了神经形态CMOS记忆性架构,可以集成到边缘计算设备。Krestinskaya等人讨论为什么神经形态架构有用边缘设备(4]。语义相似度NLP近年来吸引了极大的兴趣。在NLP的帮助功能,特里帕西和德斯穆克描述一个完整的功能系统的设计和实现,称为反向医学词典,实现快速健康治疗咨询系统的效率。反向医学词典允许用户获得即时指导通过一个智能医疗系统对他们的健康问题。简而言之,用户可以搜索他们的疾病从系统和即时诊断在任何时候通过共享症状(5]。近年来,铝被广泛使用在大多数NLP应用程序中,尤其是在张来武语言如英语和汉语。然而,稀缺资源阻碍铝资源缺乏语言的进步。比起在这工作,江泽民提出的基于变压器为高棉天车。两个下游任务的建立模型评估。实验证明了高棉语言模型的有效性(6]。Jusoh进行了系统的文献回顾来识别最突出的应用,技术,和具有挑战性的NLP应用程序中的问题。然而,为了集中在研究范围、503篇论文被排除在外,只有最突出的NLP应用程序,即信息提取、问答系统,和自动文本摘要,被选为审查。显然,NLP的具有挑战性的问题是自然语言本身的复杂性,也就是说,模棱两可的问题,各级的语言(7]。对监督分类技术是最重要的和semisupervised机器学习任务。许多分类算法(8,9)被引入到现有的系统。德斯穆克提出新的深度学习基于文档分类方法使用NLP和机器学习方法。复发性神经网络用于单个对象进行分类根据其权重。它为整个测试提供了最终的类标签数据集(10]。NLP技术有广泛的应用,这是一个主流的应用程序在处理语言的词汇。然而,相关研究建立基于NLP的汉语教学系统技术是相对少见,最相关的上述NLP技术研究主要是关于文本分析。
3所示。汉语言文学教学系统的建模方法
本文的研究课题是开发和应用合理的中国学习系统基于LNP技术和相关技术用于开发中国学习系统的过程,包括自然语言处理技术,分词和标注技术,情感分析技术,等等。
3.1。自然语言处理的基础
3.1.1。自然语言处理的概念
自然语言处理(NLP)是一门学科,侧重于自然语言理解和用于人机交互的信息。语言自然是那些常用的人类,如汉语、英语,和俄罗斯,这是人类交流和学习的重要工具。在自然语言处理的过程中,语言模型应用于自然语言应该首先研究了,然后一个框架来实现语言模型应该建立在计算机上,并提出改善方法应该不断改进语言模型。最后,语言模型应该应用于各种实际系统和评估(11,12]。
3.1.2。自然语言处理的过程
对自然语言理解的研究可分为文本理解一方面和言语理解另一方面,和计算机处理日益参与文本理解(13]。由计算机分析和理解的语言通常是一个分层的过程,和语言学家把它分成几种类型:务实、语音和语义分析。基本模型的自然语言处理的主要步骤如图1。
3.2。自然语言统计模型的基本介绍
3.2.1之上。贝叶斯定理的条件概率
通过贝叶斯公式,计算条件概率或如何知道它与原来的概率。
判断给定的短语N属于集或一组 ,需要计算的概率 和概率 和比较获得的概率值。如果获得的值显示类的概率大于从类 。它表明它属于类 ;否则,它属于类 。条件概率的决策方程如下:
在多个模式集,归因的单词需要由贝叶斯公式。 可以通过计算 的和N。公式如下:
其中,发生的概率鉴于发生的信N是 ,和发生的概率N在模型是 。
从上面的流程可以看出,贝叶斯公式中起着非常重要的作用[14]。给定单词的概率N语料库作为一个名词是表示为 。在这种情况下,最大似然估计方法需要计算概率 。最大似然估计是一种统计方法找到相关的概率密度函数的参数的样本集。公式表达如下:
假设我给定单词和吗j代表这个词的类别,总次数我表现为类j在指定的库 ,在哪里等于总次数我出现在指定的图书馆,如果它是 , 根据推导的公式可以得到。这也是数据稀疏的问题,需要解决数据平滑技术(15,16]。
3.2.2。N克模型
的N克模型是自然语言中最常用的数学模型(17,18),N克模型和马尔可夫链是NLP的基础技术。这是定义如下:
如果序列是一个R阶马尔可夫链,一个特定元素的概率出现第一个有关R−1元素,如下:
当当前状态,它是有条件的独立的历史路径;那么这个随机过程具有马尔可夫性质。如果自然语言也满足马尔可夫性质,发生概率的一个单词一个句子中去E可以通过公式计算,然后句子的概率计算公式可以推导如下:
在公式(7),一般来说,更大的N更准确的模型,但是使用的参数模型和所需的训练集也更大(19]。
在实际应用中,考虑在训练语料库的大小,简化了计算过程,N通常需要2。采取N3为例,计算参数的最大似然估计的公式如下:
3.2.3。嗯模型
隐马尔可夫模型训练数据通常遇到解码问题[20.因为本文使用维特比算法进行词性标注,所以只有这个解决方案。
进一步确定最大概率的状态序列是一个解码的问题。解码问题的具体公式如下所示:
然而,在这种情况下,为了找到状态序列的最大概率,如果遍历每个序列,它会导致浪费时间和资源21,22]。为了解决这种浪费问题,DWT算法(23]。DWT算法是一种新的光谱分析工具,可获得的规模和翻译基本小波。因为它可以检查局部频域的频域特征过程局部频域和时域特征过程,即使是那些可以转换和处理非平稳过程。
最优路径到达状态年代d在时间t+ 1所示以下公式:
DWT算法最优路径的选择,这也适用于解码问题,会判断这每一步的选择是最好的结果。遍历循环会一直持续下去,直到最后状态,因此必须选择概率最高的序列(24,25]。
维特比算法可以解决HMM模型的解码问题。维特比算法是一个动态规划算法,用于发现维特比路径最有可能生成一个观察序列的事件,也就是说,隐状态序列,特别是嗯。同时,它还可以用于词性标注,如下:
输入词序列 ,和输出最优词性标记序列 。(一)初始化 (b)电感的计算 (c)终止 (d)从变量路径回溯:回溯到获得观测序列的最优路径,即最优词性标记序列。
3.3。情绪
文本情感分析的目的是找出情绪反映在文本。规则和基于文本的方法是两个最受欢迎的情感分析技术。前比赛规则和情绪词典文本。后者解释文本情感分类和开始通过注释文本中提取文本特征的训练集和测试集。使用分类器分类文本如果有两种类型的情感分析。情绪分析常采用以下分类算法(26]。(1)朴素贝叶斯分类:朴素贝叶斯算法的基本概念是计算的联合概率值分类文本对象和类别和分类对象根据这个值(27]。(2)再分类算法:为了判断文档的类别进行测试,该算法首先搜索最近的相邻的文档在文档的培训和获得候选类别分数进行测试根据这些相邻的文档的分类(28]。(3)支持向量机分类:支持向量机(SVM)分类算法主要用于解决二进制模式分类问题,是一种新的通用和监控基于统计学习理论的机器学习工具。非线性的基本思想是将训练数据映射到高维特征空间,找到最优分类超平面作为决策平面,从而最大化之间的分离优势正面和负面的例子。
4所示。中国基于LNP技术的学习系统
4.1。系统功能需求
多媒体、互动、易于管理和用户友好的中国学习系统开发的基于B / S架构的ASENET 4.0和SQL Server 2008。B / S结构是一个网络结构模式,结合客户端,系统功能实现的核心部分集中到服务器上,简化了开发,维护和使用的系统。它为系统用户提供技能学习汉语知识和有用的工具,它是发达,促进交流。以互联网为载体,该网站不仅最大化的使用多媒体技术向用户提供基本的汉语知识和中国文化多元化,还集成了自然语言处理技术来实现学习支持模块,如单词学习,新闻摘要,和情感分析,这样用户可以更有效地学习中文和愉快。增加客户满意度应该实现的目标。汉语学习系统必须实用,安全,可靠,可扩展,稳定,易于维护,同时满足系统用户的需求。
4.2。系统的总体设计框架
如图2,学习系统的具体实现每个模块的功能如下:基本的学习模块:这个模块侧重于基本的汉语学习。它由四个部分组成:语音,学习拼音,汉字学习,成语词典。它涵盖了发音,笔划顺序、解释、构词、句子,和成语查询的汉字和铺平了道路,后续章节的阅读和交流。强化学习(29日,30.]模块:使用“学习”开始在生活中,这个模块选择的话题是中国的日常生活密切相关,方便系统用户学习中文。文章大多来自日常生活,时事,网络动力学,成语故事,等等。用户可以选择任何汉字文本的链接,巩固和学习基本的汉字知识,他们也可以查询一个单词一词的详细学习资料。模块对中国文化:学习汉语需要一个对中国文化的理解。这个模块主要包含文章四个主题:文化常识,著名的民间传说,唐诗、宋诗和民间神话,所有这些都旨在帮助用户学习汉语在中国的思维方式。用户可以学习一系列的基本技能,同时浏览文章,比如在强化学习模块。工具助理模块:该模块主要提供与辅助系统的注册用户T学习汉语的工具,如词汇学习,新闻摘要,情绪分析等等。它极大地简化了汉语学习。动态更新模块:系统实时更新将显示在主页上,包括管理员发布的最新通知,文章点击率高,最近读的文章。下载模块:各种各样的中国材料将向用户提供离线学习。留言板模块:这个模块提供了一个互动平台对所有注册用户更好的促进相互学习和提高。后台管理模块:功能需求分析,提到这个函数是方便管理员更新资源,管理用户,和维护系统,主要包括主题管理、用户管理、留言板管理和资源管理。
4.3。数据库设计
数据库设计是使用最广泛的技术之一,在计算机技术发展最快的领域。一个好的数据库设计可以有效地减少数据冗余,提高数据存储的效率。
4.3.1。数据库的设计步骤
通常,数据库设计分为六个阶段:需求分析、概念设计、逻辑设计、物理设计、数据库实施、数据库操作和维护,如图3。
在数据库设计中,数据结构的质量不仅直接影响操作执行的效率,而且还间接影响数据采集的效率,因此,确保良好的数据库设计是提高效率的重要保证。
中国学习系统使用SQL Server 2008数据库来存储和管理数据。
4.3.2。主数据库的e - r图设计
e - r图(实体关系图),也称为实体关系模型,是一种有效的方法来描述现实世界的概念模型的关系。通常是由三个元素组成:实体、属性和关系。一般来说,在设计的过程中,一个e - r图描述了概念结构数据模型可以根据应用程序的要求。的主要功能实体的e - r图中国学习系统如图4。
从图可以看出4,管理员可以查看和管理系统中的所有信息,包括主题内容、用户信息,消息和回复。Nonregistered用户只能看到主题内容的一部分,而注册用户有权利查看和使用信息,只有有权管理自己的信息,回答,和用户信息。
4.4。系统登录功能测试
4.1.1。登录模块功能
一方面,用户的登录可以查看注册是否成功。另一方面,它可以用来检查是否登录模块的功能是正常的。一组测试系统中使用正确的用户名和密码,和其他组是测试不同的错误的用户名或者错误的密码,如表所示1。
系统管理员登录和系统注册用户登录测试内容和结果都是一样的,所以测试将被传递。
10/24/11。页面视图模块的功能测试
测试页面的浏览模块包括动态更新模块,基本学习模块,主题浏览模块,强化学习模块,中国文化模块,资源下载模块,测试和友好的联系。主要测试内容是系统的每个页面是否显示正确。页面浏览模块的功能测试如表所示2。
4.4.3。工具模块测试
工具的测试模块包括三个模块的单词和句子的学习,是否新闻摘要,和情感分析可以正常使用。该工具模块的测试结果如表所示3。
4.4.4。消息功能模块测试
消息功能模块的测试结果如表所示4。
4.4.5。其他测试和结果
(1)兼容性测试:考虑到不同浏览器的兼容性测试,可能存在兼容性问题在同一页面的显示,所以IE, Chrome和Firefox,三种常见的浏览器,选择系统的兼容性测试。检查系统在上面三个浏览器,结果表明,不同页面显示效果不明显,不会影响用户的体验,所以兼容性测试通过。(2)友好的交互测试:如果一个用户输入数据定义范围之外的或执行不正确的操作,而使用汉语学习系统,系统应该提供友好的提示引导用户正确的行动。友好的交互测试通过测试后,因为界面与用户交互输入系统中具有较强的容错和纠错,可以提示用户执行正确的操作。此外,没有反应迟缓等问题或事故过程中被发现多次开启和关闭软件,输入测试数据。测试的问题已解决;测试已经重组;并取得了较好的效果。一般来说,测试表明该系统具有友好的用户界面,功能齐全,安全好,稳定,满足设计要求。通过不断收集来自用户的反馈在以后使用过程中,进一步的修改和完善,使系统的功能更科学合理。
5。系统测试
5.1。应用效果的调查
在线调查数据作为标准,以反映使用的经验进一步测试应用程序的效果。通过评价问卷的影响国际学生尝试发行的系统,共有24个问卷分布;24有效问卷回收;数据集成和统计分析。评价指标如图5。
5.2。系统内容的调查
图6显示统计结果的四个评价指标调查的内容。从统计结果,超过90%的学生认为,学习系统的英汉翻译是准确的,内容是清晰和科学。这些结果表明,学习系统具有更好的科学。超过80%的学生认为学习系统是资源丰富,形式多样化,可扩展在中国的知识。但也有17%的学生认为学习系统平均在丰富。时事性和相关性的统计结果如图6(b)反映,超过95%的学者认为,学习系统的主题清晰,系统性、和逻辑。这进一步表明,系统满足的认知需求的主题学习:超过85%的学者认为学习系统可以针对特定的学习对象,而13%的学者认为该系统作为一个整体。这表明学者认为学习的相关设计内容是令人满意的,但它需要适当的优化。
(一)
(b)
5.3。调查结果的系统接口
图7显示了学生学习评价的结果系统接口。百分之九十六的学习者认为媒体提供的信息系统是合理的和适当的,它可以帮助他们理解知识要点。这证明使用适当的媒体根据学习内容可以帮助学习者准确掌握学习内容和容易理解的知识要点。百分之八十八的学习者认为系统的链接很明显,易于识别,准确跳到,清楚的标签,并能准确地通知他们的主题内容,而13%的学习者认为设计的链接是正常的。这表明详细的明确的标签会导致学习者正确,但这种设计仍然有巨大的改进空间:92%的学习者认为系统接口的速度和效果可以满足一般需求,中国学习系统和技术的应用程序设计应该满足学习者的需求。
(一)
(b)
5.4。学习的反馈结果
在评价指标,学习和学生的反馈结果的合理性被理性评估。在图所示的统计数据8。
(一)
(b)
图8(一个)显示统计结果,学习的合理性。超过90%的学生认为,学习系统的设计有利于学习者的知识和技能的发展。图8(b)显示了学习者的结果反馈。百分之九十二的学习者认为及时反馈测试结果可以清楚地理解学习和研究的影响,而只有8%的学习者认为它小的效果。这表明,设计恰当的练习和反馈可以帮助学习者理解学习和知识获取、识别差距随着时间的推移,反思,提高他们最近学习。
5.5。使用效果
图9(一个)显示的态度看到统计结果的评价指标,其中87%的学生认为学习系统是有利于提高他们的信心在沟通和对话。和近75%的学生认为使用学习系统有助于提高他们对学习中文的兴趣。图9(b)显示了知识和技能评估的结果:79%的学习者可以学习实用会话的句型和知识系统,63%的学习者认为,系统可以促进中国流利沟通,和71%的学习者认为系统可以提高他们的汉语的表达和沟通能力。结果反映了受访者相信自己的能力可以得到改善。它表明,中国对外国人的学习系统基于chatbot更有利于学习中文。
(一)
(b)
5.6。服务性能
从表可以得出以下结论5。
大多数用户认为系统的每个功能模块的设计是合理的。它显示了系统的功能模块的设计满足学习者的学习需求。九十四的学生认为系统是安全的和可靠的信息管理,高度安全、可靠运行;81%的学生认为有安全措施保护用户隐私,系统资源非常稳定。良好的响应时间和长时间无故障的表明stability-related系统的性能可以被认为是“很好。“这表明系统操作。此外,17%的学习者认为响应时间正常,表明这种性能需要进一步改善。
6。结论
本文提出了结合自然语言处理技术的发展与中国语言学习系统的发展以促进汉语学习和传播优秀的中国文化。本文集中在中国学习系统集成设计和实现自然语言处理技术。该系统采用B / S体系结构,可以直接从web浏览器访问不需要安装任何客户端程序。系统可以添加通过扩展功能页面,可以通过更新维护和升级服务器端页面。介绍了一些自然语言处理技术增强系统。基于中国学习系统的详细需求分析,介绍了前端的实现功能,如用户注册、登录、个人信息保留,浏览内容,消息对话和自然语言处理工具。总的来说,本文设计并实现了一个汉语学习系统,易于使用,维护,安全,和可扩展的,遵循相对先进的设计理念和成熟的技术。
虽然系统大多数汉语学习所需的通用功能,仍存在一些不足之处需要改进,由于个人水平有限和条件。例如,与自然语言处理的集成需要进一步发展。
数据可用性
使用的数据来支持本研究的发现可以从作者要求。
的利益冲突
作者没有任何可能的利益冲突。