文摘

当前网络数据爆炸预计一个更高要求的文本情感分析,极大地促进了舆论分析和趋势预测,等等。因此,本文提出了使用双通道卷积神经网络(DCNN)算法来分析英语文本大数据的语义特征。CNN的影响,分析后的人工神经网络(ANN)和递归神经网络(RNN)的英语文本数据分析,更有效的长期短期记忆(LSTM)和封闭的复发性单元(格勒乌)神经网络(NN)介绍,每个网络结合双通道CNN,分别和全面分析比较实验。第二,英语文本的语义特征分析大数据通过改善SO-pointwise互信息(SO-PMI)算法。最后,合奏双通道CNN模型建立。根据对比实验,格勒乌神经网络具有更好的特征检测效果比LSTM NN,但双通道的性能提升CNN格勒乌NN +双通道CNN不明显。比较分析下格勒乌NN +双通道CNN模型和CNN LSTM NN +双通道模型,格勒乌NN +双通道CNN模型保证了语义特征的高精度模型的分析和提高了分析速度。后,进一步关注机制被添加到格勒乌NN +双通道CNN模型,语义特征分析模型的准确性提高了近1.3%。因此,格勒乌的整体模型神经网络+双通道CNN +关注机制更适合英语文本的语义特征分析大数据。结果将有助于电子商务平台的评价语言和语义特征来分析当前网络英语短的文本。

1。介绍

统计数据表明,超过一半的全球出版物都是英文,和80%的网页或在线信息是英文的。与此同时,各种各样的英语文本(如新闻、评论和电子邮件)满人们的生活和工作的方方面面1]。因此,研究新的英语文本语义特征提取和理解方法可以解决这些问题在人工智能(AI)作为文本分类、机器翻译(ML),自动问答、文本生成和人机交互(HCI),促进不同语言间的通信(2,3]。

技术成熟度的自然语言处理(NLP)在人工智能、自动英语文本语义可以快速了解国际形势,把握国际舆论的方向,确保国家信息安全。因此,从自然语言处理(NLP)发展到自然语言理解(NLU),人们的注意力已经转移到语义理解方法和文本语义特征提取机制(4]。

在这里,实现英语语义特征分析主要是研究基于大数据的英语文本使用双通道卷积神经网络(CNN)算法。然后,模型精度最高的英语语义特征提取是通过比较分析发现不同的模型。创新,注重机制,封闭的复发性单元(格勒乌)神经网络(NN),和长时间的短期记忆(LSTM)神经网络被添加到双通道CNN算法,从而大大提高了模型的精度。

在大数据的背景下,分析英语文本的语义特征的机制使用双通道CNN算法已经被许多学者研究。

Mamoon等人发现,深层神经网络(款)在语义分割取得了极大的成功,但是它的实时应用仍面临挑战。由于渠道众多的功能,参数,和浮点操作,网络速度慢有大量的计算,这是不可取的实时任务,如机器人和自动驾驶仪。然而,大多数方法往往牺牲了空间分辨率达到实时推理速度,导致性能变差(5]。王、徐提出了特征融合深度投影CNN,主要使用了一种新的残块,逐步res块,我的高层语义特征,同时保持低层次的细节。框架使用一个特别设计的特性融合模块进一步平衡特性获得从不同层次的骨干网络6]。Javed等人提出的新一代网络对抗。实验分析表明,损失重建使用低级损失和高层结构相似性损耗是非常有效的获得视觉上的可靠的和一致的纹理(7]。Fraz等人建造了一个深度同时分割的微血管和神经网络在常规染色组织学图像,这可能predetect嵌入式功能块和不确定性(注意8]。勇等人提出了一个双向功能金字塔网络,进一步加强检测和分类的某些类型的障碍使用底层的多层次细节特征和强烈的高层网络结构的语义特征。该方法的检测和分类性能评估在自建数据集。烧蚀实验和性能测试进行了公开数据集。实验结果表明,该算法有最佳的检测性能9]。Rosewelt Renjit发现有丰富的相关和不相关的数据在当前网络资源。在文本挖掘语义分析起到了重要的作用。在这种情况下,成功地提取相关数据,数据分类应结合基于语义的文本摘要。因此,基于语义分析的一个新的特征选择算法,提出了可以从本地存储库选择相似指数的相关数据或万维网(网络)应用程序10]。王等人提出了一个潜在狄利克雷分配(CL-LDD)主题模型结合大数据。结果表明,CL-LDA模型可以很好地适应短文本主题挖掘任务外毛细胞(ohc)和稀疏的语义和同现的信息很少。研究结果可以帮助ohc提供准确的信息和提高服务质量11]。施卢和识别和分析不同的图像通过一系列算法,如图像特征值提取、识别、和卷积12]。Razzaghi等人建立了一个新方法学习感知分组CNN来表示图像特征提取的结构。在CNN,空间层次没有考虑高级特性之间的关系。为此,利用感知分组的功能。考虑intrarelationship地图之间的特性,提出了一种改进的引导同现块并将其应用于一些已知的语义分割和图像分类数据集,实现出色的性能(13]。杨等人提出了一个空间合成技术来生成有意义的合成虚拟声场景分类的数据。大量实验合成数据和实际声场景分类数据集显示多尺度语义特征融合和标签平滑空间混合数据增强可以提高声场景分类的性能(款14]。

上面的CNN在不同领域的研究促进了CNN算法的发展和成熟,以及其应用英语文本的语义特征分析。与此同时,上述研究结果表明,不同类型的神经网络将导致巨大的差异数据的准确性。因此,不同的CNN算法将选择性地使用来最大化模型的英语文本分析能力。

3所示。模型建立和方案设计

3.1。英语文本的情感分析
3.1.1。人工神经网络(ANN)

安是一个相对简单的深度学习(DL)模型,它可以简单地模仿人类大脑的工作特点。一个完整的安是由神经元组成的,在图所示的结构1

在图1,X1,X2、…Xn代表输入神经元的输入值在输入端,和 代表偏差项。 表示输入值对应的重量和偏见。y表明神经元的输出。是一个神经元节点,y可以计算如下: 在哪里f代表了激活函数,乙状结肠激活函数和双曲正切激活函数被广泛使用。乙状结肠激活函数的表达式所示以下方程:

安是通过许多神经元的组合形成的。图2描绘一个安以最简单的结构。

输入层的输入向量对隐层和输出计算结果。之后,隐层输出层输出计算结果,最后,获得的输出结果是在输出层。虽然安似乎非常简单,由于其结果的特点,与下一层神经元相互连接。因此,当网络变得更深,飙升的参数,计算变得更复杂,会导致不满意的结果。

3.1.2。美国有线电视新闻网

CNN也是一个多层网络结构,它主要由卷积层、汇聚层,和完全连接层。卷积计算后,卷积层可以选择当地的上层的特点。照片的本质在图像处理是图像卷积滤波过程使用卷积内核。图片所示的卷积计算以下方程: 在哪里 代表点选择图像的灰度值一个坐标系统, 表示卷积核一个,b表示卷积核的大小。单个神经元的不同层完全互联完全连接层CNN。完全连接层可以收集文本特征提取的数据之前的网络层。CNN模型中与其他结构相比,完全连接层包含最参数,许多在CNN模型计算完成。因此,该模型可以减少计算引入辍学技术完全连接层,同时提高泛化能力。与此同时,softmax分类器将被添加到完全连接层的概率来计算文本作为一个特定的情感和确定文本的情感倾向,如图3

3.1.3。递归神经网络(RNN)

RNN网络结构连接成一个回路,其中神经单元的输出与当前的输入,以及之前的时间的价值。这种结构特征可以解决时间问题,如图4

RNN的计算方程可以表示为(4)和(5)。 在哪里X代表模型的输入数据, 表示之间的权向量输入层、隐藏层和年代代表隐层中的数据, 表示输出层和隐层之间的权向量,O指的是模型的输出数据, 是一个隐藏层和隐层之间的重量。然而,超大号的训练文本数据造成长期依赖和胜过冗长的序列,将导致梯度爆炸或消失。考虑到这些缺点,RNN的应用大大降低。

3.1.4。LSTM神经网络

LSTM的隐层神经网络由三个门结构,包括输出门,忘记门,和输入通道,控制信息的传播U—构成。在每一个门,有一个点乘法操作和乙状结肠层。乙状结肠层的输出值范围是[0,1],它可以描述通过每个部分的信息量,其中0表示没有和1意味着所有传球。(1)输入层的信息 计算。 代表输入数据之间的权向量和隐藏层, 表示输出的重量之前的时间, 代表偏移量。 (2)输入门t计算。 表示输入节点之间的权重的门和输入信息, 表示输入通道和输出之间的重量在前面的时候, 代表输入门和细胞之间的重量在前面的时候,和 是抵消。 (3)同样,忘记门计算。 (4)细胞的状态值计算。 (5)计算输出的状态值门。 (6)最后的输出LSTM网络表达如下:

3.1.5。格勒乌神经网络

格勒乌神经网络是通过一个简化的LSTM NN。LSTM NN有复杂的门结构,所以检测与LSTM神经网络是一个复杂和耗时的过程(15]。相对,LSTM NN的简化版本,格勒乌NN,凝聚了闸门结构为两个,即复位和更新登机口。重置门可以控制丢弃格勒乌以前状态的细胞结构,同时更新可以控制门的丢弃以前存储单元信息。图4显示了格勒乌结构。

更新的门j格勒乌细胞在时间t可以计算如下:

重置门口t计算如下:

因此,方程(14)可以获得。

3.2。数据处理
3.2.1之上。数据处理流的文本情感分析模型

在这里,英语文本的语义特征进行了分析使用DL模型。具体过程包括几个步骤:英语文本数据的收集,英语文本数据的预处理,获得了向量化的数据,建立最优模型和测试款。收集到的英语文本语义数据分为两个部分:测试集和训练集(16,17]。

3.2.2。数据预处理

获得的英语文本预处理的数据,就像所有其他语义特征分析的实验。预处理可以过滤掉无关的数据,以减少实验误差(18,19]。预处理的流程图如图5

3.2.3。改善SO-PMI SO-Pointwise互信息算法

原始点互信息算法(PMI)所示以下方程:

所示的SO-PMI算法的计算以下方程:

首先,SO-PMI区分积极情感英语文本从消极情绪英语文本,分类和计算文本,然后减去他们的情感倾向的英语文本20.]。然而,不同类型的英语文本的选择需要人工干预和高专业,所以人员的选择是非常细致的。此外,每次将出现一个新的英语单词,以前的英语情感词典应调整,使建立一个可靠的英语情感词典非常困难(21,22]。既然存在这些问题,专门选择SO-PMI算法。方程(17)和(18)用于采购经理人指数的计算: 在哪里 代表任何单词出现在英语文本由TF-IDF算法过滤掉;P(POS)是指积极情绪词的出现概率的英语文本数据集; 表示词的概率 出现在整个英语文本数据集(23];采购经理人指数( ,POS)代表之间的关系词 和积极的情感词在英语文本;和采购经理人指数( ,POS) > 0表明这个词 属于积极的情绪类型和值越大,词的积极情感强度就越高 是多少。相反,PMI(越小 ,POS),词的积极情感强度越弱 是多少。PMI(底片)是指发生消极情绪词在英语文本数据集的概率。 表示词的概率 出现在整个英语文本数据集。采购经理人指数( ,底片)代表之间的关系词 和消极情绪词在英语文本。采购经理人指数( ,底片)> 0表明这个词 属于消极情绪类型和值越大,词的负面情感强度就越高 是多少。相反,PMI(越小 ,底片),词的负面情感强度越弱 是多少。

接下来,情感倾向( )的词 可以通过减去PMI(计算 ,底片)和采购经理人指数( ,POS)根据原始SO-PMI算法:

当( )> 0,这个词 属于积极的情绪类型和更大的( )是,积极的情感强度越高的单词 是多少。当( )接近0,这个词 属于中性情感词。当( )< 0,这个词 属于消极情绪类型和较小的( )消极情绪的强度越高,单词 是多少。

3.2.4。实验设计

的效率改进SO-PMI算法验证英语文本特征分析通过建立多个模型(24]。(1)美国有线电视新闻网。CNN模型只包含一个卷积层,和特性分析是通过卷积核的组合完成的。完全,有120卷积核的卷积层。(2)LSTM神经网络。算法验证通过Bi-LSTM(双向LSTM)神经网络,每一层包含50 LSTM NN单位。(3)格勒乌神经网络。SO-PMI算法验证通过双通道格勒乌神经网络模型中,每一层包含50格勒乌NN单位。

英语文本功能分类可以发现通过以下指标:F1分,记得,精度和准确性。图6显示了这些指标由混淆矩阵表示。

在图7,TP代表积极预测积极的英语文本的数量,和FN代表消极预测积极的英语文本的数量。FP代表积极预测消极的英语文本的数量,和TN代表消极预测消极的英语文本的数量。

精密的积极趋势(P+)和消极的倾向(P−)计算如方程(20.)和(21),分别。

召回率的积极倾向(R+)和消极的倾向(R−)计算如方程(22)和(23),分别。

积极的趋势(F(1 +)和消极倾向(F1−)计算如方程(24)和(25),分别。

整个模型的精度计算如下:

3.3。双通道CNN模型的建设

双通道CNN模型由两个卷积特色频道,这两个卷积对应于池层和层,分别。因此,干扰不会发生在池和卷积计算(25),两个CNN可以训练和构建整个模型同时与文本数据,而不会相互影响。短可以最小化的情感属性,然后从这两个函数提取通道折叠并输入到分类器来决定文本的情感(26,27]。每个通道的CNN直接影响原始数据,然后随后的层的多层CNN会影响处理数据,因此,CNN可以提取更直接的功能从这两个渠道28]。图7显示模型的操作过程。

3.3.1。数据输入

获得的英语文本数据输入到双通道CNN模型特征矩阵。不同于单通道CNN,双通道CNN模型输入英语文本的词向量到不同渠道根据他们的特征。

3.3.2。卷积层和汇聚层

的卷积层双通道CNN操作一样的单通道CNN,从英语文本数据中提取文本特征与卷积核(29日]。

3.3.3。功能合并

双通道CNN卷积有两个独立的渠道,以及合并图层。合并图层可以提取两个独立的卷积渠道的特点建立一个完整的特征矩阵,输入到网络英语文本的完整特性分析。

3.3.4。情感分类使用将Softmax分类器

后上面的步骤1,2,3,英语文本的特性分析和计算是通过将softmax实现分类器(30.]。

3.4。改进的双通道CNN模型
3.4.1。双通道CNN + Bi-LSTM

CNN可以从英语文本大数据提取局部特征。CNN不太敏感的时间特征的文本。更好地结合的优势CNN和LSTM CNN模型结合LSTM提出神经网络,即双通道CNN + Bi-LSTM模型。具体来说,LSTM神经网络是整个模型,与实验结果验证。首先,数据输入到LSTM神经网络同步信息,然后输入到完全连接层进行后续操作。这里,常见的结果LSTM双通道CNN与拟议的CNN + Bi-LSTM模型,双通道的性能CNN和普通LSTM神经网络相比。

3.4.2。双通道CNN + Bi-GRU(双向格勒乌)

简化后的LSTM NN,格勒乌NN。基于上述模型中,Bi-GRU神经网络是用来取代Bi-LSTM CNN的神经网络模型。然后,双通道CNN + Bi-LSTM和CNN + Bi-GRU比较和分析。

3.4.3。双通道CNN与注意力机制

机制模仿人类视觉注意机制。当人们通过视觉识别一个场景,他们不注意所有的细节,而是专注于整个场景的关键点。要点更有助于理解。重量是相同的,英语文本特征分析模型的性能将下降,注意力机制打哪里来,进一步提高了该模型的性能对英语文本特征分析。

3.4.4。比较试验设计

提高实验的数据对比,DL算法和SVM(支持向量机)算法用于模型之间的比较分析,进一步验证注意机制的有效性模型+格勒乌NN +双通道NN在文本功能分析。

4所示。实验结果分析

4.1。情感词向量训练模型

8显示了模型训练的结果使用情感词向量。

9意味着当这个词频率不添加到训练模型,获得的情感词的结果向量模型是相对贫穷,和模型的参数并没有改善,但减少了。此外,模型的准确性没有单词频率低于普通模型的0.68%。这个实验也表明,检测质量相对较低时,词频不是添加到模型中,和情感词向量基于该模型不执行在英语文本的情感特征分析。图9显示了使用LSTM NN模型统计结果,和图10演示了使用格勒乌NN模型统计结果。

数据910显示的结果LSTM NN模型和格勒乌NN模型是一致的使用不同类型的英语单词时向量。数据比较显示,当英语单词频率不是添加到格勒乌NN,模型的精度没有明显下降。与此同时,比较分析表明,当英语单词频率向量不添加到模型中,只有中使用的常见词向量模型,两者的区别不大,和词向量训练模型的准确性略有减少。然而,当英语单词频率被添加到模型中,将显著提高模型的精度,特别是LSTM NN模型。因此,三组实验的对比分析证明了改进SO-PMI算法可以自动建立英语情感词典,和添加语义特征信息的方法从英语情感词典词向量可以实现。

4.2。比较分析实验在双通道CNN

11显示的比较单通道和双通道CNN模型的结果。

11意味着有很大的区别的准确性双通道CNN和文本数据集的单通道CNN。相比之下,英语文本数据集的准确性由双通道建立的CNN可以达到96%,高于4.45%的单通道CNN模型。结果还表明,模型建立的双通道CNN可以提取更全面的大数据英语文本的语义特征。与单通道CNN相比,双通道CNN模型显示更好的利用电子商务评论的简短文本的价值,与此同时,英语文本的语义特征的分析是非常重要的。图12显示双通道之间的实验结果的比较CNN和LSTM NN。

12显示的语义特征分析影响LSTM NN模型在英语文本数据集不如双通道的CNN模型。双通道之间的比较分析数据CNN和LSTM NN证明当LSTM NN补充说,该模型性能提高英语文本的语义特征的分析,从94.32%到95.41%,如果没有LSTM NN。因此,对时间序列特征分析模型的性能改进LSTM NN时补充道,这英语文本中的双通道CNN模型的性能特性进一步提高。图13展示了实验结果的比较中双通道CNN,双通道CNN + LSTM,格勒乌NN。

比较分析下格勒乌NN +双通道CNN模型和双通道CNN + LSTM NN模型,格勒乌NN +双通道CNN模型更好的英语文本语义特征的检测,但性能提升是不太明显的双通道CNN模型格勒乌NN +双通道CNN。各自的模型训练后,双通道的语义特征分析时间CNN + LSTM NN模型了。这里,格勒乌NN +双通道CNN模型实验被选中,因为它确保更高的语义特征分析的准确性,提高了分析速度模型,具有很好的实用价值。图14实验检测结果显示格勒乌NN +双通道CNN后注意机制是补充道。

14显示,当注意力机制是补充说,语义特征分析的准确性格勒乌NN +双通道CNN模型提高了近1.3%。因此,添加关注机制的预期结果是获得,可以改善的准确性格勒乌NN +双通道CNN模型。显然,这是一个很好的方法注意机制应用于格勒乌NN +双通道CNN模型。

5。结论

在这里,双通道的应用CNN算法主要研究英语文本的语义特征分析大数据。首先,LSTM NN和格勒乌介绍了神经网络,及其对特性的影响分析的英语文本数据进行了分析。然后,改进SO-PMI算法用于分析英语文本大数据的语义特征。最后,一个双通道CNN模型实现。通过实验,发现双通道CNN模型的影响在英语文本语义特征分析是明显不同的添加LSTM-NN之前和之后,在语义特征和效果分析从94.32%提高到95.41%。LSTM-NN模型可以提高模型的时间特性分析的能力,从而进一步提高双通道的能力CNN模型来分析英语文本功能。与此同时,格勒乌NN模型具有更好的检测效果比LSTM NN,但是双通道的性能提升CNN模型格勒乌NN +双通道模型是不太明显。模型训练实验表明LSTM NN +双通道CNN模型需要更多的时间比格勒乌NN +双通道CNN语义特征分析模型。当注意力机制是补充说,语义特征分析的准确性格勒乌NN +双通道CNN模型提高了近1.3%,和添加关注机制的预期结果,使格勒乌NN模型的准确性。因此,格勒乌NN +双通道CNN +注意机制模型更适合大数据语义特征分析在英语文本。 However, there are still some limitations: the experiment has not involved specific analysis of different types of English parts of speech, such as adjectives, nouns, and verbs, so the addition of parts of speech analysis should be considered in the follow-up research to further improve the semantic feature analysis ability of the model.

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

本研究支持的数据科学学院青岛黄海大学。