文摘

本文利用神经网络作为预测模型和遗传算法在线优化算法来模拟汉英平行语料库的噪声处理。同时,根据遗传算法的强大的随机全局搜索机制,本文研究了噪声的原理和过程处理汉英平行语料库。针对识别单词的任务未指明的人,考虑的不足,在标准遗传算法和神经网络算法,提出了一种快速算法使用遗传算法训练网络。通过仿真计算,不同的特征参数,训练样本的数量,背景噪音,和一个特定的人是否会影响识别结果进行了分析和讨论,相比之下,传统的动态时间比较法。介绍了强化学习的思想,使用不同的奖励机制来解决损失函数的不一致和评价指标的测量方法,并使用不同的解码方法缓解的问题暴露的偏见。它使用各种简单的遗传操作和适者生存选择机制来引导学习过程和确定搜索的方向,它可以搜索解空间的多个区域在同一时间。此外,它还具有的优势不是限制搜索空间的限制条件(如可微的,连续的,和单峰)。同时,使用英语subword向量的方法翻译模型的初始化参数。研究结果表明,基于遗传算法的神经网络识别方法在本文展示的能力快速学习网络权重和它在各个方面都优于标准。算法的性能在遗传算法和神经网络,具有高识别率和独特的应用优势,可以实现双赢的时间和效率。

1。介绍

现有的汉英平行语料库噪音处理系统具有高准确率仍有缺点的时间消耗,成本高,不方便使用(1]。实际的语音识别系统需要实时汉英平行语料库噪音处理与有限的资源(通用计算机2]。因此,快速识别算法的发展一直是重要的研究汉英平行语料库的噪声处理。汉英平行语料库噪声处理技术是一个主题,使用计算机来分析语音信号实现自动理解人类语言(3]。语音识别技术已经成为信息科学的一个非常活跃的研究领域。作为一个跨规程,它正逐渐成为人机交互的关键技术在信息技术(4]。语音信号处理是一门学科,研究用数字信号处理技术来处理汉英平行语料库中的噪声。处理的目的是为了获得某些参数有效的传输或存储或某些应用程序,如语音合成、汉英平行语料库噪声处理和语音增强。(5]。不仅是一个有效的和方便的信息交流方式,也是人类的一个重要工具使用机器。无论是语言人类和机器之间的通信,汉英平行语料库的噪声处理,特别是语音信号的数字处理,有特别重要的作用[6]。一旦结合语音识别和语音合成技术,人们可以离开键盘,接收语音指令,执行操作(7]。

默罕默德(8机器翻译]提出了一种神经网络架构,这是完全的神经网络结构,分为两个部分。编码器将源语言文本转换成一组上下文向量,然后解码它们。然后处理器解码到目标语言文本向量的集合。这个结构完全摆脱之前的统计机器翻译的架构。模型不再包含明确的词对齐和翻译规则提取的步骤,简化了复杂功能设计工作所带来的自然语言本身的复杂性和变化。注意机制提出Mojrian [9),机器翻译的能力,神经网络处理长句的进一步改善。注意机制分别计算相应的校准信息部分源序列和目标序列之间的重量分布,以便指定的模型“目标”部分的训练和预测阶段。后来,Lazli [10)等进一步研究注意力机制,用一个固定长度的窗口代替整个句子,减少计算的机制。关注力机制的提议使神经网络机器翻译的结果与传统统计机器翻译。因此,神经网络的机器翻译方法已经成为研究领域的主流方法。在这个阶段,为了克服梯度和梯度爆炸消失的问题,可能是由于经典的递归神经网络模型,网络的节点通常使用复杂的结构如LSTM(多空内存)和它的变体格勒乌(封闭的复发性单元),因此,模型训练是缓慢的。随后,为了加强训练模型的准确性,Sheta [11]介绍了一个基于卷积神经网络的翻译模型,利用卷积神经网络窗口,分层次提取句子特征,同时保留复发性神经网络的准确性。接下来,通过并行计算模型训练加速。波达尔[12)意识到英汉机器翻译模式基于样例的注意机制的神经网络,使用不同的Word2Vec模型来生成英语单词向量,和优化神经网络英汉机器翻译模型。一些学者已经实现了比起基于卷积神经网络和机器翻译模型的基于变压器英汉机器翻译模型添加pretrained词向量英汉翻译模型和改进模型之前通过提供信息的质量(13- - - - - -15]。

本文分析了神经网络和遗传算法的具体内容的基础上,各自的缺点,分析了神经网络和遗传算法相结合的必要性和可行性。在本文的研究中,通过使用代沟算子和交叉算子基于凸集理论,提出了一种改进遗传算法学习神经网络的权值,形成和算法验证的进步的声音。与此同时,人工神经网络方法可以帮助设计和实现遗传算法。对象的脉冲响应和阶跃响应曲线过程中更容易获得。把一系列的值在采样时刻的信息描述对象的动态特性预测模型。因为非参数模型更容易获得和计算简单,鲁棒性更好。多层前馈神经网络的结构和特点进行了分析和总结,以及计算能力和多层前馈神经网络的函数逼近。几种方法选择内部节点的数量,最后给出了两种启发式算法和实现过程:详细设计的遗传算法模型,以及相关的测试和性能分析。

2。汉英平行语料库噪音处理模型基于多层感知器神经网络遗传算法

2.1。多层感知器层次分布

数字汉英平行语料库噪音处理包括三个方面,即汉英平行语料库噪声的数字表示方法,各种方法和技术的汉英平行语料库噪声数字处理理论,及其在各个领域的实际应用(16]。图1显示了分层的多层感知器的空间分布。

语料库的输出值和预期输出的神经网络预测在未来一段时间滚来优化性能指标函数定义。培训结束后,控制器直接控制被控对象。噪声参数表示方法的基础是把生成的语音信号作为输出一定的模型在一定的激发和激励源和模型。的参数是用作表示汉英平行语料库的噪声(17- - - - - -19]。

领域的系统识别,模式识别,等等,因为问题是为一个特定的系统,更容易消除嘈杂的数据;相比之下,在大多数遗传算法,人们知之甚少的分类判别函数的信息,导致大量数据区分噪声;它是必要的,以避免过度拟合的数据,提高分类算法的泛化能力。

数字处理的方法噪声在汉英平行语料库可以在时域或频域,但汉英平行语料库的噪声的特点应该考虑。汉英平行语料库的噪音是时变的,只能被视为稳定在很短的时间内。因此,短期内处理技术是最基本的技术处理汉英平行语料库的噪音20.,21]。

如果一个分类判别函数完全是本地的,那么每个样本点的类别只能由自己决定的,所以没有办法适应或近似函数。事实上,它是没有意义的讨论这样一个判别函数,因为它在某种程度上给出了任意(22]。数据挖掘的分类方法是直接或间接地配合或近似分段光滑分类判别函数分类判别 函数是未知的。

国的目的l愿一个声学模型是提供一种有效的方法来计算语音特征矢量序列之间的距离,每个发音模板。声学模型的设计密切相关的特点,语言的发音。声学模型单元大小,字符的发音模型,semisyllable模型,或音素模型有更大影响的演讲训练数据,系统识别率和灵活性。在培训过程中,特征提取和特征维数压缩后,使用聚类方法或其他方法,为每个模式生成一个或多个模板类别,和模式识别的特征向量结合每个模板在识别阶段。计算相似度,然后类别判断。

2.2。遗传算法的网络

遗传算法的概念错误率相对简单,但是当类条件概率密度函数的解析表达式在多维情况更加复杂,很难计算算法的复杂性。正是因为算法复杂性和计算复杂度的重要性,人们已经研究了一些方法的计算或估计算法复杂性在处理实际问题时。隐式并行性和全球信息的有效使用遗传算法的两个特征。原则是替换原来的随机变量z不服从正态分布的随机变量Y服从正态分布,然后使用二阶矩法计算可靠性指标。前者使遗传算法,以反映大量的地区搜索空间通过检测只有少量的结构,而后者允许将遗传算法健壮。遗传算法奠定了基础,使用多层前馈神经网络的学习效率,提高整个系统的挖掘效率。然而,由于分类挖掘对象的复杂性和多样性,只有依赖于距离的概念作为评价函数的标准可能影响特征选择的结果。然而,模型具有良好的可扩展性;只要一些更有效的评价函数,将改进模型的适应性。特定的语音识别,正好相反。对象的属性分为条件属性和决策属性。根据相同的属性值,它分为等价类。我们建立确定性规则downlikeness uplikeness和不确定性规则(包括信誉),也没有规则无关的情况。 Practice has proved that predictive control has strong robustness and is easy to adjust online. Unfortunately, the mechanism of predictive control’s robustness has not yet been theoretically analyzed. This method is often used for attribute reduction.

2显示了遗传算法网络的空间结构。在遗传算法中,训练集是第一个分裂属性(“分裂”属性),一个数据结构称为属性列表对应于当前建立训练集的子集,每个属性列表和样本除以属性值。连续分布从小型到大型属性值,属性和离散属性和相同的值组合在一起。然后,我们扫描每个属性列表评估所有属性的分裂的基尼系数和以最小的一个为候选人分裂。在所有的属性,属性的候选人与最小的基尼指数是分裂属性,我们将训练集的候选人分裂属性包含最小的指数。首先,使用遗传算法的全局搜索能力获得BP神经网络的初始权值和阈值,以防止BP神经网络的训练结果陷入局部最小值;然后,使用样本训练BP网络来获取最终的权值和阈值。完整的隐函数的仿真。第一步使用遗传算法来解决这个问题是选择一个合适的解决方案,因为有三个决策变量,每一个都可以认为是两种可能的值,所以每个可能的商业决策问题可以自然地表示为一个二进制字符串,0或1的值被指定为一个两个可能的选择。遗传算法中使用的唯一信息是个体实际上出现的健身价值。 By simulating natural selection and natural genetic processes in the biological world, the genetic algorithm uses genetic operations to transform a group into a new group. Figure3显示了一个百分比的饼图基于遗传算法不同的数据集。一个简单的遗传算法的遗传操作通常是由三个遗传算子:复制、杂交、变异。复制操作符选择并复制个体在当前组新组与一个概率与健身价值成正比。

如果生成的决策树是完全基于训练集的样本,然后当样例数据中有噪音,会出现过度拟合;即噪声被视为正确的样本和决策树也需要适应。这实际上会导致决策树的泛化能力下降,甚至使生成的决策树几乎无法使用。因此,必须修剪过度拟合的分支。修剪通常有两种方法:一是使用测试集选择最小化误差的测试集的子树,另一个是使用等效MDL(最小描述长度)原则进行处理。如果输出需要的任何连续函数的输入,然后使用两个隐藏层或使用不同的激活函数。有时,即使在连续输出的情况下,一个隐藏层也可以满足要求,根据阀门的本质问题。注意,在线性可分性的情况下,不需要隐藏层。因为没有良好的解析表达式,可以说,在隐藏层节点的数目直接相关的需求问题,以及输入和输出层的节点数。基于知觉预测倒频谱提取线性预测分析在一定程度上模拟人耳的声音处理的特点,和一些研究成果应用在人耳感知感知。 Experiments have proved that, with this technology, the performance of the speech recognition system can be improved to a certain extent.

2.3。神经网络重量分布

神经网络模拟网络连接权重。一般来说,神经网络方法分为三种类型:(1)前馈网络,这是由感知器,反向传播模型,和功能网络,并且可以用于预测,模式识别等方面。(2)反馈网络是由离散模型和连续模型等领域,用于联想记忆和优化计算,分别。(3)自组织网络是由艺术模型和用于集群。机器学习方法包括决策树方法和规则归纳方法。前者是相应的表示为一个决策树或判别树,而后者通常是一个产生式规则。重要性抽样方法估计失效概率通过改变采样中心或采样的位置与一个新的概率分布的随机变量,以减少失效概率估计的方差,提高抽样效率。主要是BP算法的神经网络方法。它的模型表示是一个正向的反馈神经网络模型(节点代表神经元和边组成的一个架构代表连接权重)。

多层前馈神经网络是一种多层神经网络系统由输入层、输出层和隐含层。每一层都包含一定数量的神经元节点。表1显示了神经网络的重量分布。通常,在分类的实现,在输入层和输出层的节点是固定的,在输入层节点对应症状集,和输出节点代表对应的模式或状态的症状。对于多层前馈神经网络,我们必须首先确定几个隐藏层。当每个节点有不同的阈值,一个隐层网络可以用来近似一个连续函数在闭区间,所以基于算法的三层神经网络可以完成任何映射。

前馈神经网络的拓扑结构特点:信息转发没有循环。前馈神经网络中,每一层的神经元只接收到的数据在前一层神经元并将数据传递到下一层神经元的计算和处理后。它可以解决许多与先前的方法难以解决的问题。图4显示了神经网络的分布式映射单元。在分类过程中,任何决策规则有其相应的出错率。出错率反映了固有的复杂性的程度分类问题,它可以被视为一种固有的复杂分类问题的措施。在分类器设计,性能通常是衡量误差的大小。特别是,当为同样的问题设计几种不同的分类方案,出错率通常是用作比较的质量标准计划。反复分裂生成的决策树训练集。在每一个分裂,一定的划分标准是用来选择一个属性,并训练集划分为多个子集(通常分为两个)根据分割准则,和相应的叉的同时生成决策树。根据神经网络的不同用途,BP网络的输出层使用不同的激活函数:分类,s型函数或坚硬的极端的函数;使用函数近似的线性函数。这一过程持续进行直到样本训练集的分割后的子集对应于每一个当前节点属于同一类别。

3所示。结果和分析

3.1。语料库噪声数据处理

获得对话语料库包括956组对话和21336句。手动与语义注释中的每个句子对话(11种)和预测(47个类型)。为了使用该模型进行实验,然后10倍交叉验证。我们已经建立了一个GA-BP神经网络识别模型,选择训练样本和测试样本,并提取样本矩特征向量作为输入网络的训练和测试GA-BP构造网络。当正常随机变量Y是用来取代非正态的随机变量X累积概率分布函数值和概率密度函数值在设计检查x是一样的原始变量。比较了两种类型的识别和分析。0.001网络参数设置错误,训练时间100年,神经网络的初始权重设置的范围(−1,1),并最终建立了网络训练和测试。我们可以看到50 GA-BP计算方法具有快速收敛。当训练14次,设置错误值已经达到,BP训练的收敛速度不是很理想。图5显示了梯形图的神经网络模型的训练和识别错误。我们用遗传算法来优化BP神经网络,一个令人满意的识别效果。

均匀分布在测试范围,测试范围的样本信息可广泛学习。此外,随机数发生器是用来直接生成样本,样本的范围不能被选中,示例生成的均匀设计可以自由设计样本的值范围。本文使用TensorFlow14.0实现模型训练和预测完成以句子为最小单位。我们每个Word2Vec嵌入向量的大小设置为100,训练长度300周期。最好的模式是发现通过mini-batch随机梯度下降法。每个mini-batch包含15个句子,学习速率是固定在0.001。实验电路用于测试包括以下模块:输入前置放大器,校准电路的增益调整0到40 dB,线性输出衰减器的步骤5 dB和SPL范围从0到100分贝。我们上面提出的遗传算法应用于优化构造BP神经网络的权重和阈值。获得网络的最优个体解码优化之后,和它的值分配给现有的网络,然后选择训练样本与测试样本提取的时刻;我们使用提取的力矩特性向量作为网络的输入,最后分析仿真后的结果。 We can see that the recognition rate of the five human gaits using GA-BP neural network is significantly better than that of using BP neural network. It is feasible to use genetic algorithm to optimize the initial weights and thresholds of the network and then to recognize human behavior.

3.2。神经网络模型模拟

我们选择10000句包含6代词的句子在语料库排除词向量的词频对质量的影响。然后,为了模拟低频词的情况下,我们downsampled包含代词“你”的句子,到1000年,100年,10日和5分别使用样本语料库文件和生成的词向量表示。注意,不同的代词可能反复出现在同一个句子,所以实际的句子后尺寸抽样不得少于60000。本文结合BP神经网络和遗传算法,首先利用遗传算法的全局搜索能力的BP神经网络的初始权重和阈值的训练,以确保BP神经网络的训练结果不会落入局部极小点,然后用样本训练BP神经网络,最后得到一组权重和阈值,即完成隐函数的仿真。这个词的训练算法向量使用模型下Gensim工具包,尺寸设置为64,其余的hyperparameters模型的默认值。可以看出,当采样20倍以上6代词同时,对二维平面的相对位置相对集中。这个位置附近,有常见的人称代词,如“自我”和“她。“这表明,人称代词的词向量向量空间中相对较近。当样品的数量减少,“你”这个词的位置向量逐步偏离收集代词在空间的位置随着样本数量的减少。这表明词频的减少将导致的减少其词向量结果的准确性。 If the average position of the 6 pronouns sampled 20 times is regarded as the cluster center and the Euclidean distance is calculated for the word vector, a conclusion consistent with the figure can be obtained.

本文使用COAE2014 Task 4微博数据集。有300块中的数据的数据集,其中100年宣布情感极性。实验中使用的数据集词向量训练和使用100块数据发布与情绪极性10倍交叉验证。图6显示了不同的召回率进行比较,基于遗传算法的全集。在实验环节,首先,不同模型的情绪分类影响下随机初始化和模型进行了比较,并给出相应的分析。其次,使用模型的基础上,初始化向量,每个模型的平均F值进行比较。这是因为系列的故障域系统每个功能的失效域的集合,每个函数的检查通常是在系统故障域的边界。最后,提出了语义扩展方案用于基线模型比较情绪分类的影响。根据结果,我们可以看到四个神经网络模型使用模型时获得更好的结果给初始向量。这是因为模型训练语料库的谷歌新闻,和这个词向量它给包含文本的语法和语义信息,这信息是迷失在随机初始化。因此,在后续的实验中,Word2Vec模型用于词向量初始化。

7显示的噪声值的直方图平行语料库。因为输出5个州,它可以被描述为一位二进制数。采用四舍五入法;也就是说,如果网络的输出小于0.5,它被认为是0;否则,它被认为是1。本文在设计网络时,因为只有5类型的输出,它可以被描述为五位二进制数。可以看出添加深未登记的词识别神经网络模型和概念语义扩张在一定程度上提高了情绪的f值分类。它证明了语义扩展模型本文提出了简短的文本可以有效改善情绪分析的准确性。图8显示了平行语料库噪音过滤精度的比较不同的网络模型。

神经网络方法将分割后得到两个文件,一个是分段语料库,另一个是分割字典。每一层的神经元只从上层神经元接收数据并将数据传递到下一层神经元的计算和处理后。除了输入层,每个隐层和输出层必须计算接收到的信息和所有的隐藏层和输出。出来的神经元层被称为计算节点。分割字典唯一地决定了每个单词是分段的,所以它可以用于其他语料得到相同的分割结果。我们细分应用英语字典在双语语料库大规模语料库的单语语料库,以减少影响内容词向量训练通过减少低频字的大小。由于神经网络算法由频率划分,英语单词的位置不一定是根词缀的连接断开。但这种方法只是缓解数据稀疏的问题,和严格的分割的词缀茎不是一个必要条件。大约有500用英语词缀。稀疏数据的主要原因是,英语单词的茎可能被连接到多个词缀。 According to statistics, after neural network segmentation, the proportion of low-frequency words in both corpora fell below 10%. Aiming at the problem that different corpora may cause deviations in word vector results due to different content or different fields, this paper proposes a seed word vector method to solve the problem. With the help of the subword segmentation results, a word vector with the subword granularity is generated to improve the word vector quality of low-frequency words. The experimental results prove that the subword vector method is indeed effective in transmitting large-scale monolingual corpus information to the translation model for auxiliary training and the accuracy of the translation model can be improved by up to 1.79%.

3.3。实验结果分析

本文中的实验使用京东商城(机器翻译研讨会)英汉平行语料库。我们使用WMT2017 dev作为验证集和WMT2017测试作为测试集。模型的评估翻译质量评估的准确性脚本计算分数。此外,这个实验还使用700000个英语单语语料库收集的信息和智能处理实验室。为了减少模型的混乱,以上数据删除句子超过50岁。我们对英语单词进行词频统计的语料库。无论是单语语料库或平行语料库,文字的比例小于5的频率超过70%。这是一个非常严重的数据稀疏问题,这将直接导致词向量。培训的结果并不理想。显然,为了提高词向量的质量,有必要减少低频词的比例,和神经网络满足这个需求。神经网络的操作数需要根据语言特点和语料库规模为了获得更好的预处理结果。 This result will be used as the main basis for the experiment. The neural network algorithm segmentation of English words makes the size of the English dictionary plummet and greatly reduces the proportion of low-frequency words in the corpus.

在模型方面,本文使用了两个机器翻译目前主流的神经网络模型。循环神经网络使用Seq2seq模型由谷歌开发的。其参数设置为4层双向LSTM编码器/解码器。隐藏层节点512;批量大小是256。使用谷歌Tensor2tensor模型的变压器模型。其参数设置为6层两端的编码器/解码器。隐藏层节点512批大小是256。这个词向量模型使用FastText Gensim模型工具。这个词的参数设置为512维向量,窗户的数量设置为5,和低频词丢弃值是3。 The above settings are the default settings of the experiment in this article, and special instructions will be given if there are any changes. The translation evaluation index uses the accuracy script of the Moses tool. Figure9显示了线图的词频统计的准确性平行语料库。比较模型,模型精度最高的价值仍然是中文群细分,然后神经网络分割。与最好的基准模型相比,改进是0.72。这表明中国分词造成的数据稀疏问题会影响翻译的性能模型和中文分词的形式在中国短语不能保留信息。上述实验改进的中文分词的配置最,增加到1.52。随着训练数据的增加,训练速度迅速下降。当训练样本增加到一定程度时,网络不能收敛到指定的错误或达到指定的性能。我们认为,这可能是由于这个词粒度对中方加重数据稀疏的问题,使模型很难学习之间的对应关系低频词在培训过程中,和subword向量的目标是缓解这一问题。

在培训主题分布模型,我们将隐藏的狄利克雷分布参数设置为0.01。吉布斯抽样的数量是1000。效率考虑,集一个=b= 0.5。在简短的文本部分扩张,每个迭代选择前30名术语和概念词扩展短。图10显示了语料库的对比数据测试基于遗传算法的准确性。可以看出,因为基于概念的分类算法扩张只扩展了原始短相关概念的话,它的文本分类精度无关与训练集的大小;小训练集时,主题模型不能充分训练,所以它不能很好的表达概念和术语之间的语义关系,和一定程度的噪声将被添加到语义扩张。因此,当训练集很小,这个概念扩展模型的分类精度高于语义扩展模型。随着训练集规模的增加,算法模块,我使用主题模型的语义相关性反映出它的优越性。通过动态规划的方法,可以调整演讲的时间扭曲,和训练样本的数量相对较小的影响网络的性能。也可以看到,容易混淆单词的识别率较低。因为可以表达其真正含义明确的术语在不同主题,基于语义扩展的方法具有更好的精度比基于概念扩展的方法。混合模型的分类精度总是比两个subalgorithm模块。可以看出该算法模型充分表达术语词汇和概念之间的语义关系,有效地扩展了短的概念化和语义。

4所示。结论

用遗传算法的原理和技术,本文使用遗传算法和多层前馈神经网络的误差反向传播算法,如BP算法和共轭梯度,根据遗传算法的特点,对象和人工神经网络挖掘技术的特点。梯度算法,结合类别可分性判据的理论,构建了一个基于遗传算法的多层前馈神经网络分类器模型。本文在CWMT2018训练集进行实验。实验结果表明,英汉机器翻译模型的帮助下subword向量作为初始化参数可以提高精度值1.79%高于基线模型;神经网络英汉机器翻译模型基于强化学习可以增加与基线模型相比精度值0.6%。不增加任何的理论困难,滚动优化可以很容易地处理各种约束。它可以应用于大延迟,非最小相位和非线性系统和获得更好的控制效果。数据增强技术、神经网络英汉机器翻译的翻译质量提高精度与基线相比1.1%的结果。实验证明了收敛GA神经网络优于简单的神经网络,网络更加稳定。识别率的比较分析人类行为的两个也做,和GA神经网络可以获得令人满意的识别结果。模型使用特征选择方法提出了基于标准遗传操作和组内的距离理论有效地减少误差的特性,因此不仅专注于强大的计算能力和精度高的多层前馈神经网络的特性,而且还提高分类器作为一个整体的效率。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项研究是由贵州省社会科学项目支持,核心家庭的家庭功能之间的关系和孩子的交际能力(gzlclh - 2020 - 278)。