文摘

作为世界上最古老的语言之一,中国有着悠久的文化历史和独特的语言魅力。多层自组织神经网络和数据挖掘技术已经广泛使用,可以实现在不同领域的高精度预测。然而,他们很难应用汉语特性分析。为了准确地分析汉语的特点,本文采用多层自组织神经网络和相应的数据挖掘技术特性识别,然后将它与其他不同类型的神经网络算法。结果表明,多层自组织神经网络可以使准确性,回忆,和F1的特性识别达到68.69%,80.21%,和70.19%,分别的时候有很多样品。在强噪声的影响下,它使效率高的特性分析。这表明多层自组织神经网络性能优越,可以为中国语言特性分析提供强有力的支持。

1。介绍

作为一个独立的语言,中国有显著特点在发音,语法,词汇,和其他方面。汉语的特点的分析有助于了解其文化魅力和艺术价值。为了实现这一目标,我们需要使用相应的汉语特征的提取算法准确。在某种程度上,反映了中国的结构性和文化特征或全局模型,即通过一些管理部门在大学研究模型。这些发现表明,汉字的战略发展与全球趋势不同,但也有一些选择性融合(1]。同时,是否以及在多大程度上英文摘要发表在中文期刊的修辞结构领域的会计和财务管理是符合国际惯例在这两个领域的学术摘要的写作。一些研究已经确定了典型的修辞结构的抽象的学科两个语料库和一些重要的差异由这些全集2]。从汉语教学的角度,只有通过结合网络时代的背景和合理优化教学的中国,我们能更好地满足实际需要,促进学生的进步。本文分析了语文教学的相关问题优化+网络时代的背景下,希望有益于现实(3]。纳西尔等人提出了一个混合模型结合语言信号和自组织映射。模型可以准确预测削减语言信号和最好的特性提供了一个强大的智能模型对于复杂的字体(4]。

自组织神经网络已广泛应用于很多领域。刘等人提出了多层连接自组织特征映射和相关的学习方法,这证明了夹层赢得每个竞争层神经元之间的联系有着重要影响的内部微观结构和物理参数之间的关系纳米线(5]。阿莫林等人研究了生物监测技术。通过分析人工神经网络、自组织和多层感知器,证明这种方法可以影响生物传感器作为参考,并提供一个强大的辅助作用,水质监测和管理(6]。Sultana等人认为计算机辅助系统可以帮助放射科医生诊断微钙化模式。通过使用多层感知器神经网络、模块化神经网络,神经网络和自组织功能,乳腺癌肿瘤分类和比较。结果表明,多层自组织神经网络具有更好的检测效果比其他网络(7]。为了预测nanofluid双管换热器的传热参数,Ghasemi等人使用改进的双管式热交换器扭曲的磁带和多层反向传播人工神经网络感知器结构。发现有一个传热参数和输入数据之间的关系。网络可以更好地预测总传热系数和压降和其他传热参数(8]。李等人提出了一种自组织径向基函数神经网络的航空发动机推力估计的算法,可以有效地确定并生成高精度的自组织神经网络的连接权重,证明算法的有效性和实用性在航空发动机推力估计(9]。戴伊等人提高了概率神经网络分类器基于自组织映射和多层感知器分类器基于自组织映射,它与传统分类器相比,证明该算法具有更好的分类效果(10]。Sadabad等人研究了直接从废弃活性污泥和生物代建立了利用自组织特征映射和多层感知器模型。结果表明,添加废弃活性污泥内容、pH值和过程操作温度有显著影响的功率密度和去除率发电(11]。Eslamizadeh等人采用了改进社区退火训练人工神经网络能够有效地完成检测和记录的心音,证明算法的实用性(12]。Nilashi等人使用两种类型的人工网络:自组织映射和多层感知器调查影响因素的存活率企业家在公众支持的项目。实验结果精度高,显示了自组织映射神经网络的有效性(13]。

总之,多层自组织神经网络和数据挖掘技术可以广泛应用,可以实现在不同领域的高精度预测。然而,他们很难应用汉语特性分析。针对这一点,本文旨在中国语言特性分析的问题,使用多层自组织神经网络数据挖掘和探索,以达到更好的预测和分析效果。

本文包括五个部分。节1,我们介绍了中国特色的背景和重要性的分析和多层自组织神经网络和数据挖掘的应用在各个领域。节2,我们介绍了常见的多层神经网络模型及其应用中国特色分析。节3,我们介绍了多层自组织神经网络,以及如何将它应用到中国特色分析。节4,一些实验例子进行测试和实验结果进行了讨论。节5本文,我们得出结论并提出一些重要的发现以及未来的工作。

2。分析中国语言特性的基于多层神经网络

2.1。实现多层神经网络和Self-Coding的过程

作为广泛使用的机器学习方法,多层神经网络可以有效地完成各种数据的归纳和总结,可以有效地解决学习中的核心问题(14,15]。在多层神经网络的网络结构,最典型的是一个有多个隐藏层的多层感知器,及其模型如图1

从图可以看出1,主要功能是有效分解大量的数据,这一系列的地图嵌套处理之后,所描述的不同网络层网络模型。初始化目标学习对象通过输入层;然后,它传播给第一个隐层完成边缘特征处理。之后,它传播到第二个隐藏层学习和训练它的连接和轮廓。第三个隐层的深度分析之后,也就是说,特定的对象层、输出层输出。在这个实验中,我们提出一个栈桥self-coding算法来分析汉语的特点。特性分析的任务被认为是一个分类的任务,和汉语的特点分为句型、语法修辞,把话说,情感词,词性,负面元素,等等。细节图中可以看到2

2表明,中国语言功能主要分为两个部分:原始的语料库和实验语料库。通过词的方式嵌入和特征提取,训练样本和测试样本的建设完成,并作为高层抽象的中文文本的特点。融合的形式,相应的词向量处理和情感语义特征训练分类器。分类器包括深栈桥self-coding学习模型和回归模型,可以实现主结构信息的提取和汉语的语义特征的作用下多重映射单元测试和最终实现有效的功能分类和提取。多层神经网络的有力手段,self-coding学习模式能有效挖掘潜在意义的单词和减少各种参数的维数。首先,我们需要定义一个训练集与标签 ,作为输入数据训练网络, 是样品, , 与样品标签显示对应的关系, 表示样本的数量, 代表了样本维度。对应的输出结果可以表示如下:

在公式(1), , 代表相应的重量, 代表抵消, 代表网络训练中使用的激活函数,即:、逻辑函数,见以下方程:

根据公式(2),激活的价值th神经元的lth神经网络层可以表示为 ,层的重量 ,和偏见 在self-coding模型中,权重和偏移量可以通过迭代更新更新。如果的假设功能网络模型 ,训练过程可以用最小的损失函数,见以下方程:

在方程(3), 代表了最低损失函数, 代表权重衰减项, 代表体重衰减因子。梯度下降算法的影响下,重量和抵消更新。每次迭代过程可以表示为公式(4)和(5),分别为:

表达式(4)和(5)代表网络训练的学习速率,它们的值通常范围内

2.2。代中国词向量和句子向量和操作

在分析汉语时,我们需要对原文进行预处理和把它变成实验数据。与原始文本通常是通过网络爬虫,它通常有不同类型的噪声数据,如web页面标记和空白字符,因此进行预处理是非常必要的,如图3

在图3中国语料库预处理,第一步是重复数据删除和去噪,它的主要目的是消除重复的文本信息或网页标签信息;第二,句子识别是进行不同的句子由使用边界信息,比如标点符号和保存在训练样本。词性,情感词,把话说,负面元素,和句型是注释,以提供后续提取文本数据依据中国语言特性。在中国语言特性的分析,词向量和句子向量占有重要的地位。词向量包含丰富的语义信息和上下文信息,通常需要由开源词向量训练工具。这个工具可以简化操作过程的文本处理,将其转换为一个操作方法基于维空间向量,并计算获得不同词向量之间的余弦相似性;它可以表达中文文本语义的相关性程度。在开源词向量工具,主要有两个模型,连续Bag-of-Words和连续Skip-Gram,和他们两人有三个网络层:输入层、投影层和输出层。如果一组词序列表示为语料库 ,连续Skip-Gram模型可以表示如下:

根据方程(6),模型的主要目标是最大化,和最大方程函数如下所示:

连续Skip-Gram模型的培训需要进行分层的作用下softmax算法;也就是说,目标词汇可以表达在一个分布式的方式,这样的初始值 编码是1,表示为其根节点 然后,定义的概率分级softmax算法可以计算由以下方程:

在方程(8),如果有两个不同的值,1−1,分别 不仅可以代表的左子节点 而且正确的子节点。因为这个词在同一语料库有类似的隐式语义向量在每个维度,所有这个词向量可以融合获取句子向量覆盖深层语义信息。如果任何句子在语料库 包含单词,然后是 单词,单词的向量表示为 向量的词 表示为 ,然后维句子的矢量合成了不同的单词下面的公式所示:

通过公式(9),我们就可以 为一组,其中包含各种各样的语义信息和上下文信息的词向量和词向量的维数是一致的,他们都是 - - - - - -维向量。因此,句子的结构向量可以被看作是一个映射的句子的过程 - - - - - -维的特征空间。

3所示。中国语言特征提取和基于多层自组织神经网络的分析方法

3.1。映射和多层神经网络自组织的培训

人工智能(AI)是一个非常热门的话题在最近几年,它已广泛应用于许多领域16- - - - - -22]。作为一种人工智能技术,自组织神经网络可以有效地调整通过自组织特征映射网络的权重。在此基础上,网络可以收敛到一个稳定状态。多层自组织神经网络进行自组织学习在无人监督的条件下,使不同的神经元对不同的输入模式。它显示了很强的客观性和精度高,可以突出在许多聚类算法以其显著的优势。SOM神经网络不需要标签的训练样本应用程序的过程。该算法的精度和效率明显高于其他神经网络算法。典型的多层自组织神经网络有两个网络的输入和输出水平,及其网络拓扑如图4

在图4,输入向量在多层自组织神经网络的输入层神经元数量相同的维度。输出层的神经元排列形式的矩阵,可以代表类别的输入向量和有相应的权重向量。多层神经网络自组织聚类主要包括三个不同的阶段,也就是说,竞争阶段,合作阶段,和体重调整阶段。在竞争阶段,最相似的节点,选中获胜神经元,通过计算输入向量之间的相似度和权向量包含在输出层。在合作阶段,获胜神经元可以确定空间位置激活神经元的神经网络,即拓扑领域合作的神经元,其振幅随自己的中心距的增加,不断趋向于0。重量的调整主要是模拟生物细胞受到刺激时的兴奋状态,以判断他们的抑制周围的细胞。的现象,大部分样品都集中在某一地区的样本空间,通常网络训练结果表明,节点在局部地区成为获胜的节点,节点在其他偏远地区成为死亡节点和它周围的重量不能调整。因此,多层自组织神经网络是用来调整重量在这个实验中初始化矩阵。计算的平均向量样本集后,添加一个新的随机号码,结果作为初始权向量。计算公式如下所示:

方程(10)代表样本空间的大小, 代表了初始权重矩阵计算后得到改善。重量进行调整时,需要相应地调整学习速率函数。公式(11)是在初始阶段的集群计算公式:

在方程(11), 显示了学习速率得到聚类的初始阶段, 占体重的迭代的数量, 是最初的学习速率,通常设置为一个很大的数,并能加快收敛速度,然后呢 代表一个常数,其功能是促进学习速率的不断减少。在后期的学习速率的计算集群由以下方程:

公式(12)可以确保有效调整重量和使用线性函数聚类结果的准确性。多层自组织神经网络的训练过程可以使用上面的内容获取赢得节点,见以下方程:

在公式(13), 代表输入样本 代表的归一化结果输入样本和权重向量,分别选择然后赢得节点通过以下公式:

社区范围可以由公式(14)。因为赢得节点可以促进和抑制的神经元接近和远离彼此,社区范围可以由以下公式:

在方程(15), ,分别代表其他节点的位置和获胜节点相邻的地区, 代表初始社区的半径 结束后 th迭代。梯度下降法结合方程(12)用于完成最后更新的学习速率,见以下方程:

邻域半径调整结合方程(13),社区范围显著降低。看到方程(17详情:

自组织映射模型中可以形成离散近似输入空间的分布模式通过应用域函数的过程中连续的迭代(4,23- - - - - -25]。如图所示的细节5

在图5,自组织映射首先随机选择相应的文本信息培训,通常选择神经元接近训练数据集,也就是说,紫色部分图5。在连续迭代训练,训练数据将相应地改变,其分布是绿色部分所示。最后,它将显示当前培训的结果,也就是说,红色区域。毕竟迭代训练,输出层的自组织将匹配训练数据的分布。

3.2。汉语基于多层神经网络自组织特征提取

根据以上内容,我们可以使用相结合的方式不同的词向量完成建设的特征矩阵,即嵌入算法。因为不同向量的维度将增加特征矩阵的规模的扩张,导致了严重的数值微分的特性矩阵,它通常是必要的,以减少特征矩阵的维数,以确保在数据集是消除噪声的影响。聚类过程如图6

根据图6,这个词向量映射到低维空间基于多层神经网络自组织,这种聚类方法可以有效地实现降维。首先,汉语句子加工的文件分割目标,分词和频率统计信息。然后,获得处理结果传输到下一个阶段,和这个词向量之间的特征选择,并表示向量相似度矩阵来获取相应的词。最后,根据聚类分析的功能,准确的描述聚类结果完成和实现中国语言特性的有效分析。

4所示。实验结果和分析

4.1。结果多层自组织神经网络对中国语言的特征提取和分析

在这个实验中,200名中国语言和文化作品选择和构建一个完整的训练样本集。多层自组织神经网络应用于迭代训练过程。网络训练的不断进步,中国语言特性的提取和分析的多层自组织神经网络越来越清晰,如图7

中国语言特性分析的结果主要包括两部分:一是样本特征的识别精度,另一个是损失函数值。图7表明,随着越来越多的迭代训练,损失函数的值显示一个下降的趋势。初迭代训练,损失函数是2.25。当训练的迭代的数量小于100,损失函数减少成倍增长。当训练的迭代的数量超过100,损失函数值降低,逐步保持一个相对稳定的状态。一开始的训练,样本特征的识别精度为0。当训练的数量小于100,准确性大幅上升。连续迭代训练,变化范围的准确率降低。2000年底迭代训练样本特征的识别精度几乎保持在0.95左右。另一方面,多层自组织神经网络的精度和召回,以及F1的精度和召回的变化,如图所示8

根据图8过程中,网络训练时间不断增加,识别准确性,召回率,F1的中国语言特性的多层自组织神经网络样本显示不同程度的增加。当网络训练的数量小于20,增长率的三大增长趋势明显,增加到0.65。训练时间达到50倍时,准确率、召回率,和F1的分数都达到约0.85,变化范围很小,逐渐保持稳定。不同的特征选择的影响特性分析结果如图9

在图9,一个表示从更少的大多数功能项的数量。查看图9,我们可以发现,添加一个特性将促进在一定程度上提高精度和召回。这一现象的主要原因是,当功能设置很小,多层自组织神经网络算法不能完全了解和分析样本特征语义。是包括所有功能项的特性集。此时,准确率、召回率,和F1的得分都达到值最高,分别是68.69%、80.21%和70.19%。

4.2。特性分析和比较多层自组织神经网络和其他算法

为了全面分析多层自组织神经网络的应用效果在中国语言特性分析,这个实验将该算法和其他算法应用于网络训练样本集的同时,包括反向传播(BP)神经网络和自生的(SG)神经网络。对比结果如图10

10显示了多层自组织神经网络的功能分析结果,BP神经网络,SG神经网络的影响下不同的声音。增加噪声的影响,有效分析BP神经网络和SG神经网络对中国语言特性显示了明显下降,和SG神经网络特性的下降趋势分析率是更重要的。当噪声的影响程度是提高至80%,两个神经网络特性分析的几乎为零,他们不能发挥的作用特性分析。特性分析的多层自组织神经网络总是在一个较高的水平。噪音影响小于50%时,特性分析率总是高于95%。当噪声的影响程度超过50%,特征分析率明显下降,但仍明显高于BP神经网络和SG神经网络。这表明多层自组织神经网络可以实现汉语的分析特性和具有较高的识别效率和准确性。

5。结论

情绪,中国包括不同的单词和句型,所以它具有十分重要的现实意义,提取和分析其语言特性。为了实现有效的汉语特征提取,这个实验将专注于多层自组织神经网络,结合相应的数据挖掘技术,并应用到中国语言特性的网络训练样本集。结果表明,随着越来越多的网络培训,由多层自组织神经网络模型具有较强的收敛性,识别精度和损失函数值在正常范围内,和前几乎维持在高水平的0.95。当多层自组织神经网络用于提取和分析中国的语言特性,其准确性,召回率,F1的分数将继续上升,网络训练时间的增加和功能项目。开会时完整的功能覆盖,三可以达到的最高价值观,68.69%,80.21%,和70.19%,分别。在不同噪声的影响下,多层自组织神经网络的特性分析能力明显好于其他神经网络算法。这表明多层自组织神经网络可以在汉语中发挥性能优越特性分析、显示能力强的特征识别和分析。在这个实验中,多层自组织神经网络的比较分析是少,只与两种类型的神经网络相比,希望在未来实现更全面和多样化的比较工作。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称他们没有利益冲突或人际关系可能出现影响工作报告。

确认

这项工作是支持的山东财经大学。