网络舆论监测系统基于大数据对农业产品

文摘

网络舆论的影响农产品安全的社会正在增加。为了正确引导网络舆论的方向对农业产品,帮助农业部门将从被动到主动公众舆论,及时预防负面舆论的传播,并减少对公众舆论热点事件的负面影响,尤为重要的是,要提高的能力监控农产品的网络舆论。本研究基于大数据技术开发一个农业产品的网络舆论监控系统能够收集、过程,和实时分析数据,发现和追踪热点话题,并计算和可视化公众情绪的极性。大数据技术的使用来提高处理速度的目标是加强公众舆论的监督农业产品和提供一个有效的网络安全相关部门决策的基础。

1。介绍

解决农产品的质量和安全是为了更好的改善和保障民生。农产品的质量将迅速通过各种传播媒体和社交网络。互联网几乎已经成为信息传播的主要渠道。公共意见的风险一般农产品的质量和安全是造成负面的公众舆论。传播和传播各种情绪,态度,和观点对农产品的质量和安全网民通过互联网将减少政府的应急反应的效率,降低政府的公信力,误导公众的看法,和混乱的社会秩序等causepotentialdangers [1]。农产品安全问题的传播之后,他们被放大和炒作。没有验证的真实性问题,它严重影响消费者和工业经济,带来不必要的麻烦,农产品的质量和安全监督。这增加了监管的难度。,很难积极回应和及时引导公众舆论。

使用农产品舆论监控系统及时获得民意问题,进行正确的指导。网络舆论作为一种软实力,指导中发挥着越来越重要的作用。它有效地控制舆论的方向,调整公众意见的内容,掌握舆论的大小。操纵舆论的存在与否,实现领导和公众之间的沟通(2]。在大数据时代,先进的计算机技术应该用于进行舆论研究[3,4]随着监控网站的数量增加,情况复杂,内容广泛,手动分析公众舆论已经很难处理。利用信息技术建立网络舆论监测和分析系统有舆论变成活跃的指导(5,6]。

互联网的快速发展和日益增长的信息量,有必要使用大数据技术来解决传统舆论的处理速度和存储瓶颈监控在大数据时代的背景下。大数据的应用使更深层次的分析和更准确的预测的社会舆论。使用Hadoop开源平台建立大数据基础,实现数据的分布式存储,实现分布式计算和处理数据和MapReduce和火花,对收集到的数据进行文本处理,并使用适当的算法模型分类和聚类文本信息来完成文本情感倾向分析和话题发现与跟踪和研究有一定程度的创新。把握舆论的发展现状有关农产品的信息,并提供实时和有效的舆论为政府有关部门分析服务,具有十分重要的意义,引导正确的舆论方向的农产品和消除不利影响公众舆论对农产品的安全和质量。

2。研究内容和方法

本研究以农产品舆论监控系统为主要研究对象。现有的公众舆论监控系统的基础上,它解决的问题利用大数据的分布式技术实现农产品的舆论监督在垂直领域的大规模的互联网信息。它使用大数据技术来存储数据;使用大数据计算能力来处理和分析数据;并使用中文自然语言处理技术,包括中文分词和文本分类、文本聚类算法过程并计算文本和开采数据主题和情感倾向等公众舆论信息。这些技术可以改善现有的公众舆论系统的处理效率。系统模块图如图1。

基于现有的公众舆论系统,本研究分析了农业的需要舆论监督和舆论监控系统设计。功能分为四个部分:公众舆论信息采集、舆论信息处理、舆论信息分析,和公众服务。信息收集首先使用分布式爬虫Scrapy-Redis收集事先准备好种子的HTML页面的URL, HBase将收集到的数据存储到数据库,然后使用内容提取算法提取保存的HTML页面的内容并将它们存储在HBase。最后HBase中的数据同步到SolrCloud动物园管理员,以便建立一个索引,提供高效的检索功能。编写Python中的火花程序并使用jieba段提取的内容的中国。计算矢量通过word2vec这个词,进行自然语言处理,文本分类、文本聚类主题识别和捕获的信息跟踪和情绪判断的公众舆论。使用Django,引导,和其他技术构建农产品网络舆论系统的显示功能,实现公众舆论警告和数据显示。

3所示。农产品网络舆论监测系统的关键算法基于大数据

文本特征选择和提取的研究热点。文本特征选择是找到单词,并有很强的区别。例如,预处理粗分词后,它会过滤虚词,代词,停止词的分词结果。通常这些词经常出现但没有明确的意义。通过减少无用的功能的文本,文本处理可以提高效率,如文本分类;使用文本特征选择算法来选择的话,影响区分类别作为文本特征。文本特征选择算法包括以下。

3.1。文档频率(DF)

单词的频率出现在文档集合被称为文档频率(DF),这是在以下公式计算:

设置上限阈值和更低的阈值的文档频率(DF),计算文档的文档频率的单词集合。文档频率低于 ,并不代表这个词,这个词就是从文本特征空间中删除。文档频率高于 ,并不代表这个词,这个词从文本特征空间中删除(7]。最后文本的特征空间保留这句话。

3.2。卡方检验(气)

卡方测试先给假说和理论计算值基于的假设。正确的理论价值是根据观测值和理论值的偏差。如果正确的速度大,理论价值的假设是正确的。偏差计算下列公式所示:

在上面的方程中,一个是观测值,E是理论值,k是观测值的数量。的值越接近是0,更有可能的是我们的假设是正确的。当偏差较大时,假设我们做出更正确。测量的数值标准偏差的大小是由卡方分布测量。

在文本分类的特征选择,使用卡方检验测量类别和单词之间的相关性。有一组T包含特征单词和一组C包含类别标签。属于一组T,属于一组c卡方测试可以测量之间的关系和 ,假设和符合卡方分布的第一个自由度。的和计算如下:

在上面的方程中,一个是短信文本集合中包含的数量吗,属于 ,B是短信文本集合中包含的数量吗但不属于 ,C不包含的文本数量吗但属于 ,D是短信的数量,不包括或集合,N是文本的数量在文本集合。时的值更大,这意味着之间的关系和更强。在选择功能,可以选择最相关的单词与每个类别作为文本功能分类等文本处理。

3.3。信息增益(IG)

信息增益措施的重要性单词根据这个词带来的大量信息分类系统,选择功能词。之间的区别,当系统包含的信息量当不包括获得这个吗词带给整个分类系统。信息收益考虑词的影响在所有类别而不是一个单独的类别。有一组T包含featrue单词和一组C包含类别标签。属于一组T,属于一组C;有米类别的C类别设置,通过计算获得的信息量的信息熵。收益计算如下:

代表类别的发生概率在文本中,代表文本的发生概率包含这个词在文本中,表示文本包含的条件概率,属于类别的文本集,代表发生的概率不包含这个词的文本在文本集,和代表了条件概率不包含的文本但属于类别的文本集。

3.4。互信息(MI)

互信息是基于信息理论的基础。在课堂上出现的频率更高,而这句话在其他类别出现频率较低有更大的互信息类。通过以上原则,单词和类别的相关性可以测量。这个词的互信息和类别计算如下:

一个是短信文本集合中包含的数量吗,属于 ,B是短信文本集合中包含的数量吗但不属于 ,C不包含的文本数量吗但属于 ,D是文本的文本数量不包括或集合,N是文本的数量在文本集合。

卡方检验和互信息的文本特征选择低频词的问题缺陷。他们只考虑到案例中包含的文本不考虑的次数出现在文本中,这使得算法的选择低频词的选择错误。文本特征选择代表单词在文本设置为功能和减少的数量特征,从而减少空间的维数向量,实现文本的降维向量,减少计算机操作的压力,大大提高文本处理的效率。

文本特征选择保留文本的重要特征。文本特征提取计算每个文本的每个特性的重量来衡量不同文本的不同的权重下相同的特性。文本特征提取算法如下。

3.4.1。TF-IDF算法

TF-IDF算法计算的重量特性通过集成一个词的频率在一个单一的文本和文档频率的词。计算公式如下:

是项目的频率特性,是这个词的频率在文本中 ,和这个词的重量吗在文本中。这个词的频率的计算公式下列公式所示:

是逆文档频率(8), 文本包含这个词的数量吗 ,和是文本的文本集合,总数,计算公式如下:

TF-IDF算法的结果来分析一个词的重量在一个单一的文本。文本是长还是短。当有必要相互比较和计算,如计算余弦相似性,不同向量的数值偏差严重影响计算结果。结果向量TF-IDF规范化,向量的每个组件的范围仅限于[0,1]。归一化公式如下:

3.4.2。Word2vec算法

word2vec算法获得fixed-dimensional词向量通过训练文本集。传统的一个炎热的编码词向量有巨大的维度和过于稀疏,可以很容易地导致记忆灾难。

与深层神经网络(款)的崛起,款是用来训练词向量处理单词之间的关系,但词汇通常是数百万,款需要计算输出层的输出每个单词的概率。计算的数量是巨大的,这个过程是非常耗时的。款模型如图2。

Word2vec使用CBOW或skip-gram模型(见图3)。CBOW模型预测目标词上下文,但不使用传统款模型。它使用一个简单的方法总结所有输入词向量和平均输入层到隐层的地图,和哈夫曼树是用于替换的神经元隐层到输出层。哈夫曼树的叶节点函数作为输出层神经元。叶节点的数量大小的词汇。隐层神经元的内部节点扮演的角色,和哈夫曼树称为层次softmax模型。较高的叶节点的重量霍夫曼树靠近根节点,和代码较短,而较低的叶节点重量远从根节点,和代码更长,以确保最短的加权路径。从隐层到输出层的映射在word2vcec霍夫曼树一步一步,和这个词向量的根节点是这个词向量映射从输入层到隐层,然后,二进制逻辑回归方法用于指定左边。树走是一个负类(编码为1),沿着正确的子树是一个积极的类(编码为0),是这个词向量的内部节点,然后呢θ的逻辑回归模型参数的内部节点需要从训练样本获得。区分的方法p(+),p(−)是使用c形的功能:

利用哈夫曼树,计算量n的是减少到款 ,在哪里n词汇量的大小,越接近这个词与高体重是根节点,较短的时间达到目标。解决哈夫曼树的目的是找到这个词向量叶子节点和θ模型参数的内部节点。假设这个词向量隐藏层的映射 ,总结点的数量从根节点到叶子节点目标词在哪里是 ,的我节点通过记录 ,和相应的霍夫曼编码记录 ,和内部节点表示为模型参数。的对数似然函数给出如下:

计算的梯度表达式和如下:

根据梯度表达式,随机梯度上升迭代方法可以用来解决和。最初,θ内部节点和所有词向量的参数随机初始化。

基于哈夫曼树,解决CBOW模型的维数向量被认为是这个词米,上下文CBOW模型的大小是2c,有c话说在前面c话说在后面。从输入层到投影层(隐层),找到2c词向量在并取平均值以下公式:

从投影层到输出层,我们更新我们和通过梯度上升的方法。通过添加2c词向量和平均。的更新是2c词向量更新,更新公式的见公式(21),更新公式见公式(22),η的步长梯度提升方法:

迭代、更新和2c词向量直到梯度收敛迭代计算结束。

skip-gram模型解决了基于哈夫曼树。输入层的词向量 ,和这个词向量直接映射到投影层(隐层)。skip-gram模型是一个上下文的输出大小2c词向量 ,和skip-gram模型迭代更新输入不像CBOW模型,但迭代更新2c输出。

哈夫曼树遇到罕见的词与低体重,和将会非常大,需要连续迭代直到样品梯度是收敛的。解决复杂的计算霍夫曼树罕见的话说,负采样(NegativeSampling)可以用来解决word2vec模型。消极的抽样,共2c话说之前和之后的中心词记录作为上下文( ),在哪里和上下文( )记录为构成一个积极的例子 ;通过负采样,得到否定中央wi 不同于w,上下文(w)和wi构成否定负面的例子,表示否定( )= 。以正面例子和否定负面例子为一套样品( )= ,当我= 0,wi是w。积极的例子执行二进制逻辑回归模型参数对应于每个单词(我∈{0,1,2,……,neg}) and the word vector of each word. The whole process is simpler than the Huffman tree. The log likelihood function of以下公式:

的更新公式和方程所示(18)和(19)。同样的,更新的CBOW模型和skip-gram模型的同步上下文2c词使用负采样向量:

大米的相似的单词和类似的值如表所示1。类似的中药材和大米的话显然是聚在一起在图4。


沼泽大米
单词	余弦

稻田	0.686254
大米	0.620230
杂交水稻	0.602272
帕迪	0.585341

为了比较word2vec的文本表示,tfidf(字frequency-inverse频率)和弓(袋的话)的二维视图的文本向量随机下三种类型的文本表示tfidf,弓,分别word2vec计算和绘制。Word2vec意味着文本是文本的所有词向量的平均值。结果如图5。的文本向量tfidf弓有明显的重叠部分,和文本的三种类型的边界由word2vec更明显。

(一)

(b)

(c)

实验对比表明,word2vec有更强的文本语义和表达,同时,解决了高维稀疏tfidf和弓向量的问题,和弓文本向量表现不佳。摘要word2vec结合tfidf将被用作文本功能分类模型的输入。

3.5。文本分类

文本分类分类未知类别的文本为已知的类别,包括手动分类和标签文本集,利用训练集的标签文本结合未知文本的文本特征来区分文本的类别。文本分类算法有基于传统机器学习方法和深层神经网络学习。传统的朴素贝叶斯机器学习,K最近邻居算法(资讯),支持向量机(SVM),神经网络等深层神经网络学习fastText模型,TextCNN模型,TextRNN模型等。

3.5.1。朴素贝叶斯(NB)

朴素贝叶斯分类器是一种概率分类器,它使用文本bag-of-words模型特性和使用每个单词的频率作为文档的功能。假定分类在标签文本集米类别的文本。有一个文本d分类,寻找的分类d:

公式(23)计算文本的概率值d下 }。文本d属于类别的最大概率值。假设一组词的文本d是 ,计算分母为每个类别都是一样的,可以省略。方程(22)进一步简化如下:

自从朴素贝叶斯假设属性(特征项)是相互独立的,公式(22)可以得到:

通过训练集文本的统计信息,很容易计算一个词在每个类别的概率,但概率虽小,产品结果将变得越来越小。介绍了对数函数, :

朴素贝叶斯的文本分类的缺点是其条件独立性假设。它假定单词是独立的,没有相关性。文本被视为bag-of-words模型,忽略了影响文本分类的词序。N她们可以引入朴素贝叶斯。模型提高了文本分类,下面的公式是改进公式(30.)(假设的集合安排在文本顺序,使用2克模型):

3.5.2。K最近邻居算法(资讯)

对文本进行分类d,找到k文本接近文本d在训练文本集。文本的分类d基于这些分类标签k文本。简而言之,大部分的分类标签k文本属于一个特定的类别。然后,文本d也属于这一类9,10]。文本之间的距离d分类和训练样本可由欧几里得距离或余弦相似性计算11,12]。

资讯的优点是适用于自动分类与样本量相对较大,但对于小样本大小,很容易造成误分类。当训练样本的分类的数量不平衡、文本分类的预测精度在少数类别较低。

3.5.3。支持向量机(SVM)

支持向量机算法是一个通用的学习方法Vapnik和贝尔实验室提出的集团在1995年,基于VC统计和结构风险最小化的原则13]。支持向量机分类的基本思想方法是寻找一个超平面n维空间线性可分的情况下,区分两种类型的样本空间,解决multiclassification问题通过将它转换为一个two-classification问题然后解决它。

为了判断分类算法的性能,进行必要的评价分类算法,精度,精度,和回忆是用来评估模型的性能分类。公式如下:

的公式,P和N在FP, FN、TP、TN代表模型的判断的结果,和T和F评估模型的判断结果是否正确。FP是假阳性,这意味着这种类型的预测,但实际的数字不是这种类型的数量;FN假阴性,这意味着预测不是这种类型的,但实际上是这种类型的数量;TP是正确的积极的,这意味着这种类型的预测是,实际上也是这一类的数量;TN是真实的负数,这意味着预测不是这一类的,实际上它不是这个类别的数量。全面考虑到准确率和召回率,计算F分数(调和平均数);的β重量是1,F1-Score值计算。值越大,模型分类性能就越好。的公式F1-Score如下:

策划的真正积极率(TPR)和假阳性(玻璃钢)ROC曲线也是一个方法来评估分类模型。ROC曲线下的面积AUC (ROC曲线下的面积)。AUC面积越大,分类效果越好。

3.5.4。TextCNN

TextCNN是卷积神经网络(CNN)的应用在文本分类。CNN最初在图像领域取得了极大的成功。CNN主要抓住了地方特色。金提出的CNN句子分类模型(14)如图6。

输入层TextCNN这个词在文本向量矩阵。假设文本n词和词向量维度k,那么这个矩阵的大小。这个词向量可以直接使用这个词向量计算word2vec,或者它可以作为CNN模型的嵌入层参与反向传播算法参数优化。隐藏层TextCNN由卷积层和一个池层。卷积层有多个不同的卷积核。输入矩阵和几个不同的卷积核进行卷积运算获得几个特征向量。池层完成的工作降低特征向量的维数。通常有池平均和最大池操作。TextCNN文本分类通常选择最大池压缩每个特征向量并选择每个特征向量的最大价值。输出层使用标准化将softmax函数输出向量和输出每个类的概率。在TextCNN实验中,可以任意组合多层卷积和池来实现不同的实验效果。

3.5.5。TextRNN

递归神经网络(RNN)引入了时间序列的概念网络结构,具有更强的适应性在时间序列数据分析15- - - - - -17]。RNN处理时间序列数据可以保存历史信息和应用信息的前一层一层的信息较低。RNN培训梯度和梯度爆炸消失的问题18]。Hochreiter。的和。施密德胡贝尔表示改善RNN,长期和短期神经网络(LSTM) [19],它可以实现长距离依赖信息。LSTM RNN模型结构主要是用于文本处理,如图7。LSTM增加了细胞的状态和控制单位原始RNN的结构复杂的结构单元(隐层)。信息可以通过添加或删除单元的输入通道的结构,忘记门,和输出门,可以选择性地发送消息。

在文本分类任务,LSTM由多个单元连接。输入每个单元对应一个词的文本。最后一个单元输出的完全连接softmax层,并分类结果是输出。

3.6。文本聚类

文本聚类是自动分类文本集合的过程。文本集合的分类不是预先确定,但从数据本身。文本聚类是类内相似度,最大限度地减少类之间的相似度。文本聚类是一种无监督学习方法具有一定的灵活性和高自动处理能力(20.]。根据聚类算法的思想,它可以分为分区聚类、层次聚类,密度聚类,等等。

3.6.1。分簇

分裂和集群使用分割方法构建一个数据集(N长度)K集群。K则属于划分聚类方法。首先,选择K初始质心类别用户预期的数量,并随机选择K重心。通过距离计算,文本分为最亲密的质点的类和这个类的重心重新计算;重复这个过程,直到质心的位置不会改变;然后,聚类得到的最终结果。相似度计算可以使用方法如欧氏距离来计算文本向量的距离。距离越小,相似度越高的数据。的K的价值K则需要提前确定。对于无监督任务,实际数量分类的数据集是未知的。很难获得的价值K。一般来说,一个粗略的估计是通过聚类结果的评估和其他层次聚类。基于经典的K算法,则叮Ruoyao引入了分级的概念,而基于分区的density-based,解决这个问题的多少和如何选择初始聚类中心21]。更新重心;如果有太多的异常点,重心会偏向异常的坐标点,导致一个糟糕的集群效应。K——使用欧氏距离来衡量样本数据的相似性,和聚类结果偏向凸分布、不友好的非凸数据聚类。最初的重心是随机选择的,和初始质心对聚类的效果有一定的影响。

操作。分层聚类

层次聚类利用层次化分解过程直到预期的条件得到满足给定的数据集。层次聚类有两个方案,“自下而上”和“自上而下的。“桦树采用平衡迭代协议和集群,扫描数据集在一个通过,并利用聚类特征树帮助快速聚类。BIRCH算法不需要输入的类别数K价值。如果K值不是输入元组的数量最终聚类特征树的决赛K;否则,将mergedaccording元组聚类特征树的距离输入K值的总和。BIRCH算法聚类速度快。它只需要扫描一次训练集建立聚类特征树,确定噪声点,但是它不执行在高维数据聚类特性。

3.6.3。密度聚类

与基于距离的聚类计算相比,密度计算解决了缺点,距离计算只能找到“quasi-circular”集群。密度聚类算法,DBSCAN是比更适合凸分布数据K则和桦树,也适用于非凸分布数据。DBSCAN聚类速度快的优势,有效处理噪声点和发现任意形状的空间聚类,但DBSCAN算法并不是一个完全稳定的算法。

3.7。主题爬虫算法

主题爬虫使用LSTM + CNN分类模型来判断主题相关性的收集信息,并进一步提取相关信息页面的链接进一步信息。农业信息收集的实验数据包含23000件和25000件搜狗新闻数据。模型结构如图8。

进行如下:(1)数据输入:固定的矩阵参数嵌入层。参数是词向量由word2vec训练。所有的文本都加工成固定长度的时间序列数据和网络的输入。嵌入层变成了一个二维矩阵。每一行是一个词。(2)模型训练:嵌入层参数不参加模型训练,和获得的word2vec直接使用。中的所有文本序列训练集作为网络的输入层数据,和二维时间序列数据转化成LSTM层通过嵌入层,和LSTM的输出层作为CNN的输入。卷积层由3层的卷积。最大池过程后,它是连接到3层完全连接层。激活函数使用Relu,最后,该层包含将softmax激活函数是用来输出分类结果。使用反向传播来更新整个网络的参数,以提高模型的泛化能力和避免过度拟合,一些神经连接(辍学)是随机丢弃22),和批处理规范化(批量标准化)23是补充道。(3)模型验证:用测试集与训练模型进行评估。使用测试集作为输入模型的比较真实的分类标签和分类模型的输出来验证模型的预测精度和相关性能参数。

评价模型的计算准确度,召回率,和F每个实验,绘制ROC曲线下1-Score可视化分类算法的分类效果。实验比较的差异LSTM + CNN和其它分类算法和支持向量机(SVM)进行实验,多项式朴素贝叶斯(MultinomialNB)和卷积神经网络(CNN)。线性核函数支持向量机使用多个分类。MultinomialNB使用统计数据分类方法用于文本分类。CNN本地感知的特点,全球共享,卷积和多个内核。CNN模型试验使用卷积层三层卷积核128,最大池层和三层完全连接层(RELU激活函数)。最后,将softmax层输出分类结果。LSTM模型试验使用一层LSTM与500台连接到3 - layer完全连接层(RELU激活函数)通过将softmax层输出分类结果。LSTM + CNN的结构模型试验融合到CNN和LSTM [24]。序列的输出LSTM CNN的输入数据用于文本分类。分类结果如表所示2。


模型	精度

支持向量机	52.55
贝叶斯	92.78
美国有线电视新闻网	94.86
LSTM	95.61
LSTM +有线电视新闻网	98.21

从表中的数据2和图9,可以看出,该方法基于CNN-LSTM优于传统支持向量机和贝叶斯在各种指标。主要原因是tf-idf用于表示文本特征在传统分类。这个特性表达不充分利用上下文信息,和部分信息丢失。简单的CNN和LSTM分类方法不准确的特征提取后的组合LSTM-CNN信息提取的特征。

(一)

(b)

(c)

(d)

(e)

3.8。信息提取算法

TextRank模型可以表示为一个有向加权图在哪里V是一组点和E是一组边缘。任意两个点之间的边的权重是。对于一个给定的点是指向Vi的集合点,是第六指出的点的集合,这个点的计分公式如下公式所示:

其中,d阻尼系数,值范围从0到1,代表的概率从一个特定角度指向其他的图形,通常需要一个值为0.85。起初,每个点都有一个随机的初始值,和马尔可夫转移矩阵法用于递归地计算,直到结果聚合(误差小于阈值)。

系统使用TextRank作为关键字和抽象提取算法。关键字提取使用共病的词汇关系在一个特定的窗口类单词并提取关键字。主要步骤如下:(1)文本分割成句子。(2)对于每一个句子,进行分词和词性标注,过滤器停止的话,保留指定词性的单词(如名词、动词和形容词)。(3)构建 ,组成的步骤(2)中保留字。然后,用构造的同现关系吗E边集。有两点之间边缘只有相应的词共现的窗口长度K。K代表了窗口大小,最多K词共现。(4)根据公式(1),迭代计算每个点的分数,直到收敛。(5)逆转比分的每一个点作为候选关键字最重要最热门词汇。(6)马克候选关键字的原始文本。如果相邻词组形成,它们组合成多字关键词。

自动摘要提取基于TextRank形式总结通过选择较高的句子文本中的重要性。主要步骤如下:(1)将文本分成句子来获得 ,建立一个图表 ,在哪里是这个句子组、段句子和删除停止的话, ,在哪里 (2)构造边缘设置E。根据句子之间的内容范围,给定两个句子 ,以下所示的计算公式: 如果相似度大于设定的阈值,这两个句子边缘被认为是相关的,准备好了吗E补充说,体重将相似的价值(3)根据公式(1),迭代解决每个句子得分(4)逆转分数和提取前句子重要性最高的候选人抽象的句子(5)根据要求候选句子的形式总结

自动提取关键字和抽象,“元”标签和“头衔”的标签在页面的信息收集可以提到。信息提取的示例如表所示3。


内容	与市场上大量养殖淡水鱼,寿光淡水鱼价格在寿光城市,潍坊城市和山东省整体下降;其中,鲤鱼的价格大幅下降;8月下旬,价格从每公斤25元降到每公斤18元,下降30%;鲫鱼和银鲤鱼的价格也略有下降;根据专家的分析,价格下降的主要原因淡水鱼如下:一是当地淡水鱼的过高价格在早期阶段,另一个是,大量的淡水鱼类养殖池塘最近投放市场;尽管淡水鱼价格整体下降,它仍然是普遍高于去年同期;随着中秋节的临近,淡水鱼,如鲤鱼、草鱼、鲢鱼也可能经历价格上涨(来源:寿光城市,海洋和渔业,作者:Nongbo网络)

关键字	价格、淡水鱼、寿光城市,银鲤鱼,鲤鱼,,,去年同一时期,作者,池塘,价格下降,中秋节,渔业、来源、下降,接近,上升,出现,分析。

关键短语	淡水鱼的价格

总结	尽管整个淡水鱼价格下跌,但他们仍普遍高于去年同期;随着中秋节的临近,价格的鲤鱼、草鱼、鲢鱼、和其他淡水鱼也上升;寿光淡水鱼价格整体下降

3.9。话题检测算法

本文采用自适应增量K——聚类算法结合单次的话题检测算法。算法步骤如下:(1)对于每一个增量,集确定文本年代是第一个文本;如果是,那么创建第一个主题的文本年代;如果没有,比较文本之间的相似度年代和其他主题中心(2)根据相似性年代每个主题,找到话题T文本相似度最高的年代。相似度计算公式所示(31日)[25]: 在哪里是文本之间的相似之处吗 , 功能词的重量吗在文本 ,和功能词的重量吗在文本 ,m是文本的单词的总数。(3)使用单次的算法,判断文本之间的相似度年代和主题T大于阈值 ;如果大于阈值θ,文本年代包含在主题T;否则,使用年代创建一个新的主题和更新主题数K。(4)确定文本处理的数量。如果不是0,继续步骤(1)和流程下一个文本。如果是0,输出的话题K和聚类结果,并继续下一步。(5)计算的平均值K后续的主题作为初始聚类中心K则算法。(6)计算每个集群之间的余弦距离中心和所有文本根据公式(31日),文本分类与最小距离集群中心。(7)重新计算每个集群的均值作为新的集群中心。(8)法官新的集群中心之间的变化和前面的集群中心;如果是低于阈值米,继续下一步;否则,迭代计算(6)和(7)根据新的集群中心。(9)法官数量增加,0;算法结束和输出数量的主题K和聚类的结果。否则,回到步骤(1)和流程下一个增量文本。

在上述算法的步骤(2)中,文本之间的相似度年代计算每个主题,选择一个有效的文本从每个主题的代表的话题。以下所示的计算公式:

选择有效的文本的文本组成相似主题的最大平均每个话题,是当前的主题集,是当前的主题文本的数量。与此同时,将会有一定程度的相似性的话题。之间的相似主题可以检测到相关主题漂移。主题之间的相似性是由以下公式计算26]:

文本集的相似度计算在每个两个主题,和最大相似性作为主题之间的相似性。

3.10。话题跟踪算法

在这篇文章中,K最近的邻居(缩写为资讯,和原来的基础上作了一些改进。然而,比较并选择最近的K已知的主题文本分类相关文本的主题K文本。来确定文本的主题分类,算法的步骤如下:(1)计算文本间的相似性进行跟踪和一个已知的有效的文本主题。见公式(4)为有效文本选择和公式(3)相似度计算。选择K主题相似度最高的。(2)计算的所有文本之间的相似度K主题和文本被跟踪,选择K文本相似度最高的,计算的平均相似K文本单元的主题。(3)最大平均相似度≥阈值ρ,确定文本跟踪属于这一主题。

3.11。情绪分析算法

本文采用基于情感词典的方法来检测情绪倾向。情感词典的建设是一个复杂和艰巨的任务。本文采用知网的结合情绪词典和南大由台湾大学的基本情绪词典和添加用户的基本情感词典。字典用于分词和必要的扩展和改进。使用Word2Vec和基础情感词典构建字典,施工过程如图10(27,28]。

构建一个情感词典的主要步骤如下:(1)保留在语料库情绪化的话,这里保留作为候选情感词形容词和副词。(2)语料库的构建这个词向量基于word2vec词向量计算工具,并获取最近的10个词候选词。(3)判断所有10个无法找到类似的单词在基本情感词汇,和没有人可以跳转到步骤(5);否则,继续步骤(4)。(4)确定的情感倾向根据候选情感词之间的语义相似度和10之间的赞赏的情绪词相似的单词。以下所示的计算公式: 其中, 使用这个词向量的word1 word2余弦值计算相似,和计算公式见公式(34),P词代表了赞美的词,N词代表贬义的词,O(词)> 0是候选词,这是一个褒义词,O(词)< 0意味着这个词是贬义的词。(5)选择15%的推荐的和明显的贬义的词和强大的情感倾向作为种子词的基本情感词汇,并使用知网工具来计算候选词之间的语义相似度和种子词来确定情感倾向:

其中, 是知网的语义相似度计算的工具,然后呢P词代表了赞美的词,N词表示贬义的词,O(词)> 0意味着候选词是赞美的词,和O(词)< 0意味着这个词是一个贬义词。

情感词被分配,积极情绪词1分,消极情绪词−1分,中性词语是0,程度副词是基于情感词典给出的分数,和消极词汇都设置为−1。总结所有单词在文本的情绪权重;如果获得的分数大于0,这是一个积极的情绪。如果分数小于0,这是一种消极的情绪。如果比分是0,这是一个中性的情绪。

随着情绪的增加注释数据,舆论的情绪判断信息是通过构造一个文本情感分类模型实现的。情绪分类与域分类不同。一般特征提取算法在文本分类领域可以发挥很好的分类效果,但它有自己的独立情绪特征分类,和一般的文本特征提取算法不能起到良好的效果。市场人气的特性,可以选择分类包括情绪的话,消极词汇,过渡词,程度副词。见表4具体描述表5字典,和表6消极的字典,字典,字典和程度副词。


类型	情感词

积极情绪词	爱,羞愧,不知疲倦,欣慰,赞美,理解,支持和期待
消极情绪的词	不满,失望,浪费,威胁,邪恶,伤害,恐惧,危机,粗俗,恶心


特征数	特色内容	描述

1	积极和消极情感词	积极情绪和消极情绪词汇
2	消极词汇	有负面含义的单词
3	把单词	有把含义的单词
4	程度副词	程度副词描述
5	演讲的一部分	词性的情感词
6	情感上的标点符号	!然后呢?


字典类型的话	字典类型的话

消极的字典:不,不,不,五个	消极的字典:不,不,不,五个
过渡字典:返回,但相反,但是,但是	过渡字典:返回,但相反,但是,但是
程度副词字典:100%,极端,绝对的,非常,非常,特别是几乎略,更多,更多,更多,一点点,一点点,也特别,非常	程度副词字典:100%,极端,绝对的,非常,非常,特别是几乎略,更多,更多,更多,一点点,一点点,也特别,非常

针对农产品的分析网络舆论信息,大量的信息在互联网上,本文提出了平台的设计和实现农业民意基于大数据技术的数据采集和监控系统。系统可以收集大规模数据,扩大集合地点灵活,执行初步自然语言处理收集到的实时数据并将其导入数据库。实现公众舆论话题的识别和跟踪,实现舆论的预警信息基于情感极性计算和关键字监控,并直观地显示数据。

4所示。总结

(1)首先,分析网络舆论的现状在当前网络环境的发展,进一步分析农业舆论的现状,并详细说明有效农业网络舆论监测的重要性及相关背景条件的在线民意研究国内外(2)介绍相关技术如Hadoop,引发计算模型,HBase数据库,Solr文件检索服务和Scrapy-Redis分布式爬虫在大数据生态环境(3)系统需求分析和非功能需求分析:设计和解释系统的物理结构和技术结构,分层次设计功能模块和设计HBase和MySQL舆论系统数据库(4)介绍了文本处理的基本算法,文本分类算法,和文本聚类算法,提高舆论话题检测与跟踪的算法分析和情感分析任务

5。结论

(1)实验对比表明,word2vec有更强的文本语义和表达,同时,解决了高维稀疏tfidf和弓向量的问题,和弓文本向量表现不佳(2)这项研究得出的结论是,农产品网络舆论信息的分类基于CNN-LSTM优于传统支持向量机和贝叶斯(3)本文的解决方案能够满足用户的要求的监测网络舆论农产品

本文的研究有几个缺点需要改进。例如,网站的anticrawling策略和动态加载技术防止爬虫抓取信息。算法分析的准确性已得到改进,但仍有错误,可以进一步提高。

数据可用性

没有数据被用来支持这个研究的发现。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是支持的项目的吉林省科学技术厅(20190303035科幻小说),长春市政科技局项目(20170101051 jc),吉林省教育项目部门(JJKH20190923KJ),长春科技计划项目科技创新“双十工程”科技重大项目(18 ss018),吉林省科技发展计划(20190301024纽约)。

引用

中国互联网络信息中心,44次中国互联网络发展状况统计报告,中国互联网络信息中心,北京,中国,2019。
m·林网络舆论:研究影响因素及其作用机理、浙江大学、浙江,中国,2013。
李x和y邓小平”,分析国家心态食用农产品的质量和安全产品”的舆论事件过度草莓残留导致癌症”为例,在北京中国食品和营养杂志》上,21卷,不。6,5 - 9,2015页。视图:谷歌学术搜索
张黄黄h . m . w . s . Pospisil和t . Wu”实验调查康复锈蚀钢筋混凝土柱与BSP和HPFL组合载荷下,“结构工程杂志,卷146,不。8篇文章ID 04020157, 2020。视图:出版商的网站|谷歌学术搜索
z熊:肖,f .徐,“基于等价交换的数据转发激励方案,以社会意识到网络,”信号处理系统杂志》上,卷93,不。1、1 - 15,2021页。视图:出版商的网站|谷歌学术搜索
江和j·j .赵j . Liu,“高效部署mmWave无人机通信与几何分析,“IEEE无线通信信,9卷,不。7,1115 - 1119年,2020页。视图:谷歌学术搜索
钱x, y, y邓小平,“网络舆论监测和分析中国农产品的质量和安全,2016年,“科学通报,卷62,不。11日,第1102 - 1095页,2017年。视图:出版商的网站|谷歌学术搜索
凌,“2013年上半年农产品质量和安全网络民意调查资料,”2013年,http://yuqing.people.com.cn/n/2013/0813/c364391 - 22540650. - html。视图:谷歌学术搜索
w . y . Chen郑、w·李和y黄”大群活动安全风险评估和风险预警基于随机森林算法”模式识别的字母,144卷,2021年。视图:谷歌学术搜索
z Baozhong, x Di、l . Yu和l .)“多尺度蒸散的夏玉米和控制气象因素在中国北方,”农业和森林气象学卷,216年,页1 - 12,2016。视图:谷歌学术搜索
l .郭y气李嫣y丽安,和李x”反思网络舆论监控农产品的质量和安全,”中国食物与营养,18卷,不。12日,5 - 7,2012页。视图:谷歌学术搜索
徐x和y赖”,农业产品质量安全风险监测和分析网络民意,“福建政府大学杂志》上4卷,第100 - 95页,2014年。视图:谷歌学术搜索
j .香港和马x”,在收集、分析和指导的网络舆论,“华中科技大学学报(社会科学版)》第六卷,第107 - 104页,2007年。视图:谷歌学术搜索
y . Kim“卷积神经网络对句子分类,”2014年,https://arxiv.org/abs/1408.5882.link。视图:谷歌学术搜索
霁丹和y .谢,“中国网络舆论研究的历史回顾和反思——基于CNKI的观察和CSSCI高被引论文”上海交通大学学报(哲学社会科学版),20卷,不。4,48-56,2012页。视图:谷歌学术搜索
Xinge”,研究总结国内外舆论”图书馆学期刊,33卷,不。9日,第142 - 140页,2011年。视图:出版商的网站|谷歌学术搜索
x y Fu和郑”,审查和前景的研究在国内外网络舆论,“编辑之友》12卷,56-58,2013页。视图:谷歌学术搜索
t .白色,Hadoop的权威指南:大数据的存储和分析,清华大学出版社,北京,2017。
格玛沃特,h . Gobioff, S.-T。梁,“谷歌文件系统”19 ACM学报》研讨会上操作系统的原则,页29-43,纽约,纽约,美国,2003年。视图:出版商的网站|谷歌学术搜索
r . Lammel,”谷歌的MapReduce编程model-Revisited”,科学的计算机编程,卷70,不。1、外墙面,2008页。视图:出版商的网站|谷歌学术搜索
c .汉张,h·陈,z,和y . Liu”空间分布式基于遥感作物模型”,农业水管理卷,218年,第173 - 165页,2019年。视图:出版商的网站|谷歌学术搜索
刘w·张,y, j . et al .,“进步乙烯作用机理及其应用在作物株型形成,”沙特生物科学杂志》上,27卷,不。6,1667 - 1673年,2020页。视图:出版商的网站|谷歌学术搜索
h . Zengyong用户行为分析系统的设计和实现基于Hadoop,北京交通大学,2014。
d . Ruoyao”研究的发现和跟踪互联网主题基于博客,”博士论文,北京交通大学,北京,中国,2011。视图:谷歌学术搜索
z唐、基于Hadoop的推荐系统的设计和实现成都电子科技大学,中国,2013。
j .歌曲中,w . Wang c . Su和刘y, z . Tan“FPDP:灵活的智能农业、保护隐私数据发布方案”IEEE传感器杂志,卷99,p . 2020。视图:出版商的网站|谷歌学术搜索
z Lv、y汉和a·k·辛格“诚信基于人工智能工业物联网系统,”IEEE工业信息,卷99,p . 2020。视图:谷歌学术搜索
z Lv, l·乔j . Li和h的歌,“深入学习使物联网的安全问题,”IEEE物联网,卷99,p . 2020。视图:出版商的网站|谷歌学术搜索

科学的规划

为精准农业科学编程

文摘