文摘
为了更深入研究机器翻译,这是特别重要的研究人工智能和模糊算法将一个陌生的语言转化为一个成熟的语言。神经网络翻译模型近年来开发并取得了丰富的研究成果。针对目前缺乏神经机器翻译的准确性(NMT),这可能会导致歧义,本文以英语机器翻译为例,提出了一种基于模糊理论的人工智能机器翻译的优化模型。NMT翻译模型的基础上,首先英语机器翻译的语义分类,构建语义选择模型,然后使用层次分析法确定的语义顺序英语机器翻译,并进行相应的容错操作容易出错错误,体重的语义,并引入模糊理论安排的英语语义英语机器翻译。最后,通过特定的应用程序模型的性能分析实验。结果表明,机器翻译的准确性选择置换模型提高了近4.5%,可以达到90%以上与其它模型相比,和及时性比其他模型,提高了近15%,具有明显的优势。
1。介绍
机器翻译是一种常用的服务在互联网上,它也是一个语言处理和人工智能的重要研究领域。如谷歌翻译,百度翻译,微软必应翻译,等等,多种语言之间的所有提供在线翻译服务。虽然仍有巨大差距机器翻译的质量和专业翻译,在某些场景中,翻译的质量不高,或翻译的任务在一个特定的领域,机器翻译在翻译速度有明显的优势,仍然广泛应用。
目前,有一些紧急NMT的问题。NMT是面临一个更严重的问题未登记的单词和长句的翻译。因此,实现无限的字典大小或能够有效地处理这个问题的未注册的话,也能够有效地翻译长句子NMT需要解决的基本问题。针对注意力机制的问题,从语义的角度排序,提出了一种基于模糊理论的语义排序模型解决贫穷的问题当前英语机器翻译的准确性和模糊性。
早期的感知器,由于其结构简单,无法处理线性不可分的问题,这导致了长时间的低潮。1980年代后,反向传播(BP)引入多层感知器(MLP),也称为前馈神经网络(FNN)。从那时起,一些相关的促销人员,神经网络已经重新关注。2006年,辛顿等人解决了这个问题通过逐层pretraining法的神经网络训练。后来,由于计算能力的增加,神经网络已经收到来自学术界和工业界的广泛关注。结果:Sennrich等人的小组1)研究了使用单语数据NMT为了提高phrase-based统计机器翻译的流畅。山等人的小组2)首次全面分析了词学双语text-trained NMT模型嵌入属性。这个词的符号比建立算法skip-gram和CBOW等。苏等人的小组3)认为,尽管NMT已经取得了很大的进步,学习的最佳模型参数长平行句子和充分利用不同的上下文中可以NMT更准确。Shaimaa Marzouk和Hansen-Schirra团队(4)研究的应用控制语言(CL)不仅是一种有效的pre-editing技术对提高机器翻译(MT)的输出也是因为核磁测井仪。
在本文中,从语义的角度排序,NMT的准确性差,这可能会导致歧义和其他方面的问题。本文提出了一种基于模糊理论的英语语义排序模型。针对不同英语语义,排序是基于其特点。该模型进行了验证。数据通常是通过组织模式。访问也通过行动模式。语义的准确顺序有助于更好地理解复杂的概念具有重要意义。
2。该方法
2.1。NMT模型
在建模过程中,钙Brunner, Brunsham reproposed神经网络翻译方法,显示出巨大的应用潜力(5,6]。然后,研究者们构建了一个基于神经网络的机器翻译模型(7,8]。在许多基于规则的机器翻译系统,语言学家协助编写一系列对源语言和目标语言的语法规则,以及转换规则转换数据源语言到目标语言的数据。然而,它非常昂贵,费时,而且容易出错,产生这些规则使用所有体力劳动。一个解决方案是使用过去的历史翻译结果作为资源图书馆,在源语言文本和其相应的使用目标语言的翻译为例,试图提取适当的规则。其中一个方法是手动标记源文本和目标语言翻译协会。佐藤语言和Nagao开发一个系统,使用“飞机依赖树”来表示源语言和目标语言的字符。这关系树的数据结构是一种高效的计算机识别。两个水平通常用于表示源语言和目标语言之间的关系:第一级取决于表面形式的文本(如字符和单词的顺序),用于分析源语言和目标语言的生成;第二个层次取决于词汇之间的语义关联,用于从源语言到目标语言的转换。这种机器翻译系统利用的基础上基于规则的机器翻译的基础。 They can be used for machine translation and other natural language processing tasks [9,10]。谷歌翻译模型如图1。模型的输入一个,B,C按顺序生成输出W,X,Y,Z在输入条件下,< EOS >是人工句子的结束。
另一个叫做encoder-decoder模型,如图2。
encoder-decoder [11模型由三部分组成:输入x隐藏的状态h和输出y。编码器读取输入 并将它作为一个编码隐藏状态 。当使用递归神经网络(RNN), 在哪里c是源语言句子表示,f和问是非线性函数。 在哪里 。使用递归神经网络时, 在哪里θ模型的参数,(xn,yn)是一对两句话。
2.2。神经网络概述
2.2.1。神经网络
神经网络(MPL)是由许多神经元(12,13]。一个神经元通过矢量的内积和权向量输入到下一个神经元通过一个非线性传递函数(14,15]。神经元在这里也可以叫做感知器,它是神经网络的基本构建块。图3显示了神经网络中的神经元的基本结构(16,17]。
一个1,一个2,一个3代表输入,f是一个非线性激活函数,通过产生的吗z到下一个神经元(18,19]。感知器可以实现简单的二元分类问题,也可以配合线性函数。可以使用任何线性分类或线性回归问题来解决这个问题。神经网络不仅能实现上面的功能也实现更复杂的问题,如multiclassification和集群。随着网络层数的增加,隐藏层的数量增加。节点的数量(隐层神经元)没有一个固定的数字,但是随着数量的增加,非线性的神经网络将变得更加重要,和神经网络的鲁棒性更强。在设计网络时,节点的数目通常是控制的1.2到1.5倍输入节点的数量。一个神经网络隐层大于一层称为深层神经网络。深神经网络可以提取深度图像的特点,分类效果的主要原因是高于其他方法(20.]。
图4显示了一个两层的神经网络结构。
为代表的神经网络的输入x1,x2,x3,输出z,重量 ,每一层的偏差b和的表达z相关的隐藏层过渡层,也就是说,
隐层的值与前一层的输入值。假设输入层的偏见的偏见隐藏层 ,和每个神经元可以表示为
其中,我= 1,2,3,所以输出z神经网络可以表示为 这是
2.2.2。递归神经网络
NMT是复发性神经网络实现的,如图5。
输入x映射到输出o通过递归神经网络。目标序列y损失函数,l、体重矩阵U,W,V。时间序列的范围T(1,T]。
使递归神经网络的不同长度的输入序列有相同的输入向量维度。
2.3。基于模糊理论的语义排序模型
2.3.1。语义分类的概述
模型可以使用语义根据其性能,可以准确地划分为层次语义和语义(交错21]。
当 ,英语被重新排序的语义具有同质性,和前端数据的一个我取而代之的是象征吗 ;当 ,重新排序的语义是进步;测序语义既不均匀也不进步,所以他们被视为区间语义(22,23]。
2.3.2。计算语义最佳相似
当执行英语语义分类,有必要考虑排序结构问题在两个不同的方向(24- - - - - -26]。分层使用英语语义差异在两个不同的方向进行语义分类。
图5显示了分层语义排序模型的过程。图6显示了交错的语义排序模型。
序列结构被打断,以防止类似的语义序列排序过程中错误。然后执行排序,对测序结果,执行第二个诊断,然后输出结果。
假设l1是任何订购语义和语义l2模糊对应的结果吗l1(27,28]。它可以获得之间的相似性l2和l1是
使用加权分析法描述公式(11),其表达式如下: 在哪里δ代表了重量,代表不同的数据在运行过程中,代表语义在运行过程中, 。
加权层次分析法进行了4次,这是独立之间的关系的描述l1和l2。
子节点的数量n,φ2= 1−φ1。
3所示。实验
3.1。实验数据集
为这一主题的研究使用汉英双语语料库对作为数据集,但由于没有大规模的公共数据集汉英双语字幕,现有的分散数据集只是成千上万,而远非令人满意的深度学习。数据集大小要求,实验获得的数据需要你自己。个别字幕组的资源相对权威在相同类型的网站,及时更新资源,数据规模很大。因此,这个主题使用字幕网站的源数据集。字幕的网站,你可以浏览字幕每天上传和发布字幕下载网站。这些字幕包括字幕在不同语言,不同格式、不同来源。
一般来说,字幕压缩包的链接在电影字幕的web页面。因此,通过爬虫获取字幕压缩包,你必须首先获得每个电影字幕的链接网页上的字幕下载页面,然后找到字幕压缩包的下载链接。为了提取这两种类型的定位信息,有必要检查web页面元素,找到链接的位置,然后逐渐过滤基于层次结构的链接。如果有更高的需求,深层过滤的内容需要通过模式匹配等方法。获取下载链接后,得到链接内容通过履带最后得到36000有效副标题压缩包。
自上传字幕压缩包不仅包括字幕组本身还有一些其他来源,如转载其他字幕组,这些字幕不统一监管和严格限制,压缩包的结构也不同。一些字幕文件正在一级压缩包,但一些字幕文件存在更深的副标题下的压缩包。一般提取处理方法无法提取字幕文件深度压缩包中。因此,为了充分获得的数据资源,我们首先提取压缩包下的压缩包文件递归结构基于副标题压缩包我们已经获得。在这里,有4000个新的压缩包中提取通过迭代,和40000压缩包,如表所示1。
3.2。实验环境
这个项目是基于Theano,深度学习实验的框架。Theano优化图书馆有大量的方便。它是基于一个有效的多维数组和充分利用GPU执行操作,可大大提高操作效率。实验平台的特定的配置如表所示2。
3.3。参数优化
当样本集规模很小,可以通过梯度计算所有样本在每个迭代的误差。梯度值以这种方式获得全球要好。然而,如果样本集的大小超过一定范围时,由于内存限制,等等,这是不现实的计算所有样本的误差。然而,每次只有一个样本的误差为进一步计算梯度校正,由于每个样本的差异,相互取消效应可能形成,导致来回振荡现象的结果,不能收敛。因此,使用批处理方法来选择一个合适的大小不仅可以有效地提高内存利用率通过矩阵乘法的并行化,但也加快了处理速度。在一定限制,随着批量大小的增加,全球性的梯度优化变得越来越好,和梯度nonconvergence的可能性也变得越来越低。
4所示。讨论
4.1。语义重新排序时间分析
为了验证本文提出的改进模型的优越性在语义排序,本文使用神经网络方法、机器学习方法、验证和比较分析与改进模型如图7。
从图7,该模型在本文中排名最高的性能,其次是机器学习方法。随着时间的流逝,当使用这个模型的语义分类,耗时的语义分类是最少的。
的平均时间的比较三个模型如表所示3。结果表明,机器翻译选择置换模型比其他模型在及时性方面,上涨近15%。图8显示了三种模型的平均时间。
根据表中的数据4和图8,我们可以看看翻译的比较三种模式。其中,神经网络模型需要13.55秒,集群学习模型需要8.56秒,而本文所需的时间是5.58秒。根据时间的比较,神经网络需要时间最长,第二学习模型,和所花费的时间在这个研究是最短的,表明本研究的内容是可行的。
虽然我们进行了许多次的实验测试翻译模型系统,实验结果是偶然的和突然的和不能代表搜索引擎的检索能力的法律规定。因此,实验获得的结论是有条件的,不能认为这是一个权威的结论。
4.2。精度分析的语义排序
图9显示语义分类的实验结果。从图可以看出8除了本文模型,其他模型可以有效地优化英语的语义。
表5显示了平均的比较三个模型的正确性。结果表明,机器翻译选择置换模型比其他模型在及时性方面,增加了近4%,可以达到90%以上,具有明显的优势。图10显示了平均测序率这三个模型的正确性。
根据图中的数据10,你可以清楚地看到的比较三种翻译模型的准确性。神经网络模型的准确性是0.655,和0.786机器学习模型的准确性。本文探讨了翻译模型的准确性高达0.854。翻译模型的准确率的研究本文中遥遥领先,和神经网络模型的准确率是最低的。根据数据比较,翻译模型研究了在本文中是可取的时间消耗和准确性。
5。结论
作为一种有效的语言转换工具,机器翻译可以执行等效转换不同的语言。它具有很大的现实意义。深入学习相关技术的发展也提高了机器翻译方法和性能。从基于规则的机器翻译经历了一个开发过程神经网络在乐此不疲。统计机器翻译代替人为制定的规则与数据驱动模型获取翻译知识解决瓶颈的问题。NMT的端到端模型结构和神经网络的使用简化了整个翻译的过程,解决问题等的难度设计原始特性和非局部上下文信息的使用。
本文的主要内容是解决当前问题的英语机器翻译,并提出模糊理论的英语机器翻译语义排序模型。NMT是建立一个端到端的神经网络模型框架来覆盖整个翻译过程,实现端到端的机器翻译。神经网络用于构造编码器和译码器部分,分别。源和目标语言序列:本文添加的功能语义排序NMT的基础上,可进一步提高翻译的准确性。
最后,用机器学习神经网络,通过比较实验结果表明,使用该模型对英语语义排序具有更好的准确性和时间消耗比传统英语语义排序模型,有一定的优势。然而,模糊翻译的相关理论和技术还没有形成系统和完整的研究理论专家和学者之一。它似乎太分散。它还在初始阶段,需要深入探索解决在实际应用和技术的成本和时间和其他相关问题。
数据可用性
没有数据被用来支持本研究。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作是支持的研究医科大学门户网站的建设(不基于用户体验。2019 - lyzzhyb025)。