文摘

汉语也是一个重要的方式来理解中国文化和重要载体,继承和发扬中国传统文化。汉语教学是一个重要的方式继承和发展中国的语言。因此,在大数据时代,数据挖掘和分析汉语教学可以有效地总结经验和吸取教训,以提高汉语教学的质量,促进汉语文化。文本聚类技术可以分析和处理文本信息数据和文本信息数据具有相同特征划分为同一类别。基于大数据,与卷积神经网络和k - means算法相结合,提出了一种文本聚类方法基于卷积神经网络(CNN),构造了一个汉语教学数据挖掘分析系统,并优化它,这样系统可以更好的我的汉字在汉语教学数据的深度和全面。结果表明,优化后的k - means算法需要683次迭代来实现目标的准确性。的平均K-measure价值优化的系统是0.770,高于原系统。结果还表明,k - means算法可以显著提高聚类的效果,优化数据挖掘分析系统的汉语教学,我深感中国汉语教学中的数据,以提高汉语教学的质量。

1。介绍

汉语语言与最长的历史和世界上最大的用户数量,所以汉语教学已经被人们重视各界(1]。随着科学的进步和网络技术的发展,越来越多的行业开始信息化建设与信息技术结合。相关文献表明,互联网用户的数量占世界上20%的互联网用户,和互联网普及率超过54%,所以有很多的数据和信息2]。在大数据时代,数据挖掘和分析汉语教学可以有效地总结经验和吸取教训,以提高汉语教学质量的中国语言文化和弘扬。聚类算法是一种方便的数据挖掘技术没有培训模式,可以检索和整合大量的文本信息(3]。卷积神经网络(CNN)是一种最具代表性的深度学习算法(4]。因此,结合卷积神经网络和k - means聚类算法,提出了一种k - means算法和构造和优化汉语教学基于该算法的数据挖掘分析系统,从而实现汉语教学数据的深度挖掘和提高汉语教学的质量。

气HRNet等5卷积神经网络用于确定鄱阳湖的水体实现鄱阳湖洪水预测(5]。结果表明,HRNet能有效抑制图像的斑点噪声,提高预测的准确性。费舍尔等人提出了一种基于一维卷积神经网络two-thermocouple方法来获得更精确的动态温度和最终实现的动态温度测量在工业生产。实验结果表明,该方法的拟合程度达到96.49%,比传统的方法(6]。Bragazzi等人提出了一种新的核分割方法利用深卷积神经网络以段核准确数字病理图像(7]。研究表明,该方法可以实现相同或更好的性能与其他最新核组织病理学方法在公共数据集。夏等人训练一个卷积神经网络(CNN)基于掩模面积测量皇冠和高度的杉木人工森林。结果表明,方法的准确性测量冠达84.68%,精度高8]。深度学习的基础上,结合随机森林算法(RF)和卷积神经网络,Tafti等人建造了一个性能预测模型预测性能的质子交换膜燃料电池膜电极组装(美)。结果表明,模型的预测曲线更符合实际的曲线(9]。结合一维卷积神经网络(OD CNN)和长期记忆(LSTM),预测模型是由Grattarola设计和Alippi预测上海都市固体废物的生产。结果表明,模型的预测精度高,具有较高的实用性10]。

英里等人利用卷积神经网络识别和诊断颈椎病和颈椎后纵韧带骨化(OPLL)为了防止脊髓损伤的发生或创伤性脊髓病的老人。结果表明卷积神经网络的精度达到86%,而高实用性[11]。爱荷华州公共数据的基础上,赛义德Zeebaree使用改进的k-prototype聚类算法与BP神经网络相结合建立的预测模型的累犯率后,罪犯从监狱中被释放。研究结果表明,模型的预测精度高达87.9% (12]。Colak使用层次聚类算法和主成分分析对多个碳源进行分类,然后研究了不同发酵条件下对毛孢子菌属的脂肪酸组成F1-2单细胞油(13]。Jouppi等人使用DBSCAN聚类算法对数据聚类,提出了一种新的方法来提高web域推荐系统。研究结果表明,系统正确地识别用户页面的概率是99%14]。霍尔沃森等人讨论了k - means聚类算法之间的关系和主成分分析(PCA),提出了两种方法结合k - means和PCA。结果表明,两种方法获得的聚类结果是高度可说明的(15]。和漆density-based聚类方法和离散单元法(DEM)来构建一个模型来模拟数量和规模的变化在球磨过程中产生的碎片时间。研究结果表明,该模型具有较高的准确性和实用性16]。从上面的,近年来,许多专家和学者做了很多研究成果在聚类算法和卷积神经网络。聚类算法和卷积神经网络也广泛使用,但是一些人聚类算法和卷积神经网络应用于语文教学。

本文创造性地结合卷积神经网络反馈神经聚类算法和k - means聚类算法,提出了一个CK-TC算法。算法可以学习中文单词和句子之间的语义关系的基础上大规模语料库,将文本信息转换成原来的向量,然后表达单词和句子的形式词向量。卷积神经网络可以训练和学习这些原始的特征向量,建立文本向量,这些文本向量集群使用k - means算法进行了优化,最后构建和优化语文教学数据挖掘和分析系统。

2。数据挖掘和分析系统进行汉语教学

在大数据时代的背景下,中国语言教学的教学方法和研究方向都发生了巨大变化。汉语教学的数据挖掘进行全面、仔细的数据挖掘和分析系统可以建立汉语教学,可以优化教学模式,提高教学效率,也使汉语教学发展科学的和长期的。

数据挖掘的意义如下:的过程中提取有价值的信息从大量的模糊,噪声和随机数据信息。数据挖掘的主要任务可以分为两类,即数据描述和预测17]。内容指的是找到一个方法来描述从大量的数据资料,然后描述一个特定特征的数据信息;预测是基于现有的数据来推断,预测(18]。数据挖掘的基本步骤如图所示1

汉语教学的主要内容是汉字,汉字的数据挖掘是非常重要的,它可以直接反映了语文教学的质量和效率。

3所示。数据挖掘分析系统的建设和优化汉语教学

3.1。中文数据挖掘技术基于CNN算法

摘要,CNN是用来提取中文数据的特征向量,k - means算法来处理和分析提取的特征向量,然后是汉语教学构建了基于k - means算法的数据挖掘系统。

一般来说,原文数据信息不是结构化数据,所以它不能直接分析数据挖掘算法。因此,我们需要将原始文本数据转换为结构化数据的数据挖掘算法可以集群。将原始文本数据转换为结构化数据的过程称为文本信息数据预处理。一般来说,中文文本数据的预处理通常包括分词操作和停止词删除操作(19]。

分词是指连续的分割原始文本根据一些规则,这使得它的一组独立的单词。分词是中国文本数据处理的基础。分词就是将连续的文本信息n独立的单词,单词或短语,这些独立的单词,单词或短语,特征提取的基础。不同于西方的文字,中国文字没有空间独立的单词和句子,因此分词是更加困难。分词后,任何元素的设置可以作为特征项提取,但独立性向量稀疏,维度很高,和处理是很困难的。在中国,各个单词通常有多个含义,所以他们有很大的局限性。然而,尽管这句话已经比单个汉字更完整的信息,很难相同的短语出现在许多中国语言文本的同时,还有高和稀疏特征向量维度的问题,这使得它很难计算文本之间的相似度。因此,当中文文本数据中提取特征,词通常被选为功能项。他们也有足够的信息的前提下,降低特征向量维数(20.]。

停止词词没有实际意义,使文本分类小贡献,甚至产生负面影响。一般来说,停止词可分为两类,即弱词性单词连词和介词。一些常用的停止词表所示1

中文数据的预处理是最重要的步骤之一。预处理的效果将直接影响文本聚类的效果,然后影响到汉语的影响数据挖掘(21]。

为了让计算机理解人类的语言,我们需要量化自然语言并将其映射到一个新的空间。低维空间表示可以更有效地解决维数灾难问题和矿业单词之间的潜在关联属性,提高语义向量的有效性。因此,低维空间表示用于自然语言映射到定量空间。所有的向量表示单词是通过使用连续词袋模型(word2vcc CBOW)。CBOW模型可以预测当前单词根据上下文的单词(22),如图2

在图2,Wt这个词代表预测;Wt±N2n话说一词被预测。使用E(Wtn),示范单词Wt±N这个词对应向量,可以预测。这个词向量维度设置在输入层,和相对应的向量2n词是连接形成一个2n词向量×m维向量。隐藏层使用双曲正切函数作为激活函数来初始化偏差项。输出层使用softmax函数规范化的输出值。CBOW的神经网络结构模型图所示3

根据CBOW模型,所有的单词都可以转化为相应的词向量,和向量包含足够的信息23]。文本的特征向量,卷积神经网络用于提取文本特征。卷积神经网络的拓扑结构如图4

是维向量对应第一个单词在文本,那么它的值代表这个词向量获得在前面的小节中,如以下公式所示:

这时,一个长度 可以表示为下面的公式:

在公式(2), 代表单词的加入 , ,…, , 代表了连接操作符。卷积核 可以生成新特性在一个窗口由吗 话说,如以下公式所示:

在公式(3), 是一个新功能通过卷积操作窗口形成的词集吗 ; 偏移量参数,这是一个实数; 是一个非线性函数。卷积核应用于每个单词在文本窗口获得功能平面,如以下公式所示:

k - means算法是聚类算法操作简单,收敛速度快,这可以通过连续的迭代调整聚类结果。k - means算法在文本聚类、基于余弦相似度的目标函数,如下公式所示:

在公式(5), 是一个集群。 是集群中的聚类的相似性并满足以下公式:

在公式(6), 是复合向量的 使用k - means算法,通过卷积神经网络可以提取的特征向量进行分析和处理,然后可以实现聚类操作。根据以上内容,我们可以建立汉语教学的数据挖掘分析系统。

3.2。基于CNN和反馈神经网络的优化算法

k - means算法能更有效地获取文本的语义,但仍存在一些缺陷,所以它需要优化。首先,卷积神经网络卷积时很难找到一个合适的窗口大小与一个固定大小的窗口进行操作:如果窗口太大,训练模型的数量将会增加,训练效果会降低。如果窗口太小,信息将丢失(24- - - - - -26]。优化CNN,汉语教学的开采影响数据挖掘分析系统并不理想,需要进一步优化。首先,卷积神经网络(CNN)是用来学习的预处理和postsemantics单词,扩大单词向量。卷积神经网络是向前和向后的叠加复发性神经网络。整个神经网络的输出取决于状态的两个递归神经网络的隐层。卷积神经网络的一般结构如图5

这个词向量扩展后,固定卷积核窗口不会失去上下文的语境,所以培训的难度降低。为了解决传统卷积神经网络的过度学习问题,提高神经网络的泛化性能,辍学算法来优化整个网络的连接层。完全连接层的输出值可以表示为下面的公式:

在公式(7), 代表了一个特性的最大值卷积核的平面和相应的特性。根据伯努利分布理论,特征向量输入到聚类算法如下公式所示:

在公式(8), 根据元素,代表了乘法操作 代表二进制向量获得根据伯努利分布,如以下公式所示:

根据公式(8)和(9),可以得到参数的神经网络模型。

此外,k - means算法的聚类效果将受初始聚类中心的选择,很容易落入局部最优迭代过程中(27- - - - - -29日]。摘要反馈神经算法用于优化它,和反馈集群k - means (FCA-K-means)神经构造算法。迭代后,文本 ,从最近的聚类中心的距离是按照下列公式计算:

在公式(10), 包括 显示的中心 的距离的计算方法d最近的集群中心第二下列公式所示:

在公式(10), 最近的群吗 表达的中心 公式(12)用于解决这个问题 是定义的浓度。

在公式(12), 是文本的浓度 聚类结果集中的定义如下公式所示:

在公式(13), 代表聚类结果的浓度。根据以上,损失函数的卷积网络可以获得,如以下公式所示:

避免的发生 ,修改公式(14)以下公式:

在公式(15), 是一个最小值大于0。损失函数的定义后,可以优化聚类效果。根据以上内容,我们可以完整的k - means算法的优化,构建CK-TC-OP算法,然后完成汉语教学的优化数据挖掘分析系统。

4所示。性能分析优化的k - means算法的数据挖掘分析系统

4.1。中文文本聚类优化效果分析数据

传统的k - means算法的聚类效果会受初始聚类中心的选择。适当的初始聚类中心可以提高聚类的效果,而不恰当的初始聚类中心将减少集群效应(30.]。因此,很容易落入局部最优迭代过程,导致培训效果的降低。为了解决这个问题,反馈神经算法用于优化传统的k - means算法并构建FCA-K-means。为了验证优化效果FCA-K-means的k - means算法模型和FCA-K-means模型构造,分别。10000年相同的文本数据用于训练和测试两个模型,及培训记录和比较两个模型的效率。对比结果如图6

我们可以看到在图6,随着迭代次数的增加,k - means算法模型和FCA-K-means模型的准确性不断接近目标精度(0.001),和误差不断减小,但FCA-K-means模型的误差曲线的下降趋势明显快于k - means算法模型。其中,k - means算法模型需要2193次迭代方法目标精度,虽然FCA-K-means模型只需要683次迭代1510次不到k - means算法模型(31日]。上述结果表明,反馈神经算法可以有效地优化k - means聚类算法,提高聚类效果和培训效果。

4.2。k - means算法优化数据挖掘分析系统的挖掘效果

在自然语言处理中,K-measure常作为评价指标来评估自然语言处理的效果。为了验证优化的挖掘和分析影响汉语教学数据挖掘和分析系统,优化汉语教学数据挖掘和分析系统(系统1)和非汉语教学数据挖掘和分析系统(系统2)构造,分别。相同的参数集的优化和实现汉语教学数据挖掘分析系统,也就是说,卷积核窗口大小的卷积神经网络win_大小= 6,7,8。相应的卷积内核num数量= 150;使用相同的10000个样本数据,我们测试实现汉语教学数据挖掘分析系统和优化的汉语教学数据挖掘分析系统和记录和比较的K-measure值两个系统在不同数量的样本数据,以比较两个系统的开采影响汉语教学数据。两个系统的测试结果如图所示7

从图可以看出7的K-measure值两个系统增加缓慢的增加样品的数量。当样本数据的数量是2500,K-measure系统1的值是0.753,系统2是0.679的,0.074低于系统1。当样本数据的数量是5000,K-measure系统1的值是0.757,系统2是0.683的,0.074低于系统1。当样本数据的数量是7500,K-measure系统1的值是0.776,系统2是0.698的,0.078低于系统1。当样本数据的数量是10000,K-measure系统1的值是0.792,和K-measure系统2的值是0.725,也就是0.067低于系统1。系统1的平均K-measure值为0.770,系统2是0.696的,0.074低于系统1。上述结果表明,优化后的汉语教学数据挖掘分析系统对中文数据挖掘具有更好的效果,可以实现中文集群更深入和全面,从而进行深入挖掘和分析中国语言和提高汉语教学的质量。

4.3。分析影响因素的挖掘效果

本文研究和分析了影响因素的挖掘效果数据挖掘分析系统进行汉语教学。首先,卷积核的数量是固定的和窗口大小的卷积内核将win_大小= 3、4、5;win_大小= 6,7,8;和win_大小= 9,10,11。比较K-measure值系统下几个窗口的大小,如图8

我们可以看到在图8一般来说,窗口越大,越大K-measure价值数据挖掘和分析系统的汉语教学。当样本数据的数量是10000,win_窗口大小。大小的K-measure价值= 9,10,11是0.792。设置窗口大小win_大小= 3、4、5。比较系统的K-measure值在不同的卷积核数,如图9

从图可以看出9总的来说,卷积核越多,K-measure汉语教学的价值越大系统将数据挖掘和分析。当样本数据的数量是10000,汉语教学的K-measure值数据挖掘分析系统和num = 150卷积核是0.763,这是0.009比汉语教学的数据挖掘和分析系统num = 128卷积核。从上面,我们可以看到,汉语教学数据挖掘分析系统的性能是正相关的卷积核的大小窗口和卷积核的数量。在数据挖掘中,我们可以调整窗口的大小和适当的卷积核的数量,以确保最优开采效果。

5。讨论

从上面的结果可以看出,优化后的k - means算法具有较高的聚类效率,表明它在汉语矿业具有更好的效果,可以更快地我有用的数据和信息。在系统优化利用反馈神经神经网络算法和循环,F-measure价值系统的显著改善,这表明神经算法和反馈循环神经网络系统上有明显的优化效果,可以有效地改善系统的性能。当窗口大小不变和卷积核的数量增加,或卷积核的数量保持不变和窗口大小增加,F-measure价值系统的显著增加。因此,在数据挖掘中,窗口大小和卷积核的数量可以适当调整,以确保最佳的开采效果。

6。结论

摘要CK-TC算法结合卷积神经网络反馈神经聚类算法和k - means聚类算法。算法可以学习中文单词和句子之间的语义关系的基础上大规模语料库,将文本信息转换成原来的向量,然后表达单词和句子的形式词向量。卷积神经网络可以训练和学习这些原始的特征向量,建立文本向量,这些文本向量集群使用k - means算法进行了优化,最后构建和优化语文教学数据挖掘和分析系统。结果表明,优化后的k - means算法只需要683次迭代来实现目标的准确性,它是1510倍小于传统的k - means算法模型。平均K系统1的测量值是0.770,平均水平K系统2的测量值是0.696,0.074低于系统1。实验结果表明,汉语教学数据挖掘和分析系统的性能与卷积核的大小呈正相关窗口和卷积核的数量。

上述结果表明,语文教学的优化效果数据挖掘和分析系统是好的,它可以有效地挖掘和分析语文教学数据。本研究主要探讨汉字的特点,但没有深入研究作业的特点在汉语教学和学习活动,这需要进一步的研究。

数据可用性

使用的数据来支持本研究的发现可以从作者要求。

的利益冲突

作者宣称没有利益冲突或人际关系可能出现影响工作报告。