网络舆论的影响农产品安全的社会正在增加。为了正确引导网络舆论的方向对农业产品,帮助农业部门将从被动到主动公众舆论,及时预防负面舆论的传播,并减少对公众舆论热点事件的负面影响,尤为重要的是,要提高的能力监控农产品的网络舆论。本研究基于大数据技术开发一个农业产品的网络舆论监控系统能够收集、过程,和实时分析数据,发现和追踪热点话题,并计算和可视化公众情绪的极性。大数据技术的使用来提高处理速度的目标是加强公众舆论的监督农业产品和提供一个有效的网络安全相关部门决策的基础。
解决农产品的质量和安全是为了更好的改善和保障民生。农产品的质量将迅速通过各种传播媒体和社交网络。互联网几乎已经成为信息传播的主要渠道。公共意见的风险一般农产品的质量和安全是造成负面的公众舆论。传播和传播各种情绪,态度,和观点对农产品的质量和安全网民通过互联网将减少政府的应急反应的效率,降低政府的公信力,误导公众的看法,和混乱的社会秩序等causepotentialdangers [
使用农产品舆论监控系统及时获得民意问题,进行正确的指导。网络舆论作为一种软实力,指导中发挥着越来越重要的作用。它有效地控制舆论的方向,调整公众意见的内容,掌握舆论的大小。操纵舆论的存在与否,实现领导和公众之间的沟通(
互联网的快速发展和日益增长的信息量,有必要使用大数据技术来解决传统舆论的处理速度和存储瓶颈监控在大数据时代的背景下。大数据的应用使更深层次的分析和更准确的预测的社会舆论。使用Hadoop开源平台建立大数据基础,实现数据的分布式存储,实现分布式计算和处理数据和MapReduce和火花,对收集到的数据进行文本处理,并使用适当的算法模型分类和聚类文本信息来完成文本情感倾向分析和话题发现与跟踪和研究有一定程度的创新。把握舆论的发展现状有关农产品的信息,并提供实时和有效的舆论为政府有关部门分析服务,具有十分重要的意义,引导正确的舆论方向的农产品和消除不利影响公众舆论对农产品的安全和质量。
本研究以农产品舆论监控系统为主要研究对象。现有的公众舆论监控系统的基础上,它解决的问题利用大数据的分布式技术实现农产品的舆论监督在垂直领域的大规模的互联网信息。它使用大数据技术来存储数据;使用大数据计算能力来处理和分析数据;并使用中文自然语言处理技术,包括中文分词和文本分类、文本聚类算法过程并计算文本和开采数据主题和情感倾向等公众舆论信息。这些技术可以改善现有的公众舆论系统的处理效率。系统模块图如图
系统模块图。
基于现有的公众舆论系统,本研究分析了农业的需要舆论监督和舆论监控系统设计。功能分为四个部分:公众舆论信息采集、舆论信息处理、舆论信息分析,和公众服务。信息收集首先使用分布式爬虫Scrapy-Redis收集事先准备好种子的HTML页面的URL, HBase将收集到的数据存储到数据库,然后使用内容提取算法提取保存的HTML页面的内容并将它们存储在HBase。最后HBase中的数据同步到SolrCloud动物园管理员,以便建立一个索引,提供高效的检索功能。编写Python中的火花程序并使用jieba段提取的内容的中国。计算矢量通过word2vec这个词,进行自然语言处理,文本分类、文本聚类主题识别和捕获的信息跟踪和情绪判断的公众舆论。使用Django,引导,和其他技术构建农产品网络舆论系统的显示功能,实现公众舆论警告和数据显示。
文本特征选择和提取的研究热点。文本特征选择是找到单词,并有很强的区别。例如,预处理粗分词后,它会过滤虚词,代词,停止词的分词结果。通常这些词经常出现但没有明确的意义。通过减少无用的功能的文本,文本处理可以提高效率,如文本分类;使用文本特征选择算法来选择的话,影响区分类别作为文本特征。文本特征选择算法包括以下。
单词的频率出现在文档集合被称为文档频率(DF),这是在以下公式计算:
设置上限阈值<我nl我ne-formula>
卡方测试先给假说和理论计算值基于的假设。正确的理论价值是根据观测值和理论值的偏差。如果正确的速度大,理论价值的假设是正确的。偏差计算下列公式所示:
在上面的方程中,<我talic>
一个是观测值,<我talic>
E是理论值,<我talic>
k是观测值的数量。的值越接近<我nl我ne-formula>
在文本分类的特征选择,使用卡方检验测量类别和单词之间的相关性。有一组T包含特征单词和一组C包含类别标签。<我nl我ne-formula>
在上面的方程中,<我talic>
一个是短信文本集合中包含的数量吗<我nl我ne-formula>
信息增益措施的重要性<我nl我ne-formula>
互信息是基于信息理论的基础。在课堂上出现的频率<我nl我ne-formula>
卡方检验和互信息的文本特征选择低频词的问题缺陷。他们只考虑到案例中包含的文本<我nl我ne-formula>
文本特征选择保留文本的重要特征。文本特征提取计算每个文本的每个特性的重量来衡量不同文本的不同的权重下相同的特性。文本特征提取算法如下。
TF-IDF算法计算的重量特性通过集成一个词的频率在一个单一的文本和文档频率的词。计算公式如下:
TF-IDF算法的结果来分析一个词的重量在一个单一的文本。文本是长还是短。当有必要相互比较和计算,如计算余弦相似性,不同向量的数值偏差严重影响计算结果。结果向量TF-IDF规范化,向量的每个组件的范围仅限于[0,1]。归一化公式如下:
word2vec算法获得fixed-dimensional词向量通过训练文本集。传统的一个炎热的编码词向量有巨大的维度和过于稀疏,可以很容易地导致记忆灾难。
与深层神经网络(款)的崛起,款是用来训练词向量处理单词之间的关系,但词汇通常是数百万,款需要计算输出层的输出每个单词的概率。计算的数量是巨大的,这个过程是非常耗时的。款模型如图
款模型。
Word2vec使用CBOW或skip-gram模型(见图
CBOW skip-gram。
利用哈夫曼树,计算量<我talic>
n的是减少到款<我nl我ne-formula>
计算的梯度表达式<我nl我ne-formula>
根据梯度表达式,随机梯度上升迭代方法可以用来解决<我nl我ne-formula>
基于哈夫曼树,解决CBOW模型的维数向量被认为是这个词<我talic>
米,上下文CBOW模型的大小是2<我talic>
c,有<我talic>
c话说在前面<我talic>
c话说在后面。从输入层到投影层(隐层),找到2<我talic>
c词向量在<我nl我ne-formula>
从投影层到输出层,我们更新我们<我nl我ne-formula>
迭代、更新<我nl我ne-formula>
skip-gram模型解决了基于哈夫曼树。输入层的词向量<我nl我ne-formula>
哈夫曼树<我nl我ne-formula>
的更新公式<我nl我ne-formula>
大米的相似的单词和类似的值如表所示
词的语义相似度向量。
| 沼泽大米 | |
|---|---|
| 单词 | 余弦 |
| 稻田 | 0.686254 |
| 大米 | 0.620230 |
| 杂交水稻 | 0.602272 |
| 帕迪 | 0.585341 |
大米和中药材的二维向量表示。
为了比较word2vec的文本表示,tfidf(字frequency-inverse频率)和弓(袋的话)的二维视图的文本向量随机下三种类型的文本表示tfidf,弓,分别word2vec计算和绘制。Word2vec意味着文本是文本的所有词向量的平均值。结果如图
文档向量表示。
实验对比表明,word2vec有更强的文本语义和表达,同时,解决了高维稀疏tfidf和弓向量的问题,和弓文本向量表现不佳。摘要word2vec结合tfidf将被用作文本功能分类模型的输入。
文本分类分类未知类别的文本为已知的类别,包括手动分类和标签文本集,利用训练集的标签文本结合未知文本的文本特征来区分文本的类别。文本分类算法有基于传统机器学习方法和深层神经网络学习。传统的朴素贝叶斯机器学习,<我talic> K最近邻居算法(资讯),支持向量机(SVM),神经网络等深层神经网络学习fastText模型,TextCNN模型,TextRNN模型等。
朴素贝叶斯分类器是一种概率分类器,它使用文本bag-of-words模型特性和使用每个单词的频率作为文档的功能。假定分类<我nl我ne-formula>
公式(
自从朴素贝叶斯假设属性(特征项)是相互独立的,公式(
通过训练集文本的统计信息,很容易计算一个词在每个类别的概率,但概率虽小,产品结果将变得越来越小。介绍了对数函数,<我nl我ne-formula>
朴素贝叶斯的文本分类的缺点是其条件独立性假设。它假定单词是独立的,没有相关性。文本被视为bag-of-words模型,忽略了影响文本分类的词序。<我talic>
N她们可以引入朴素贝叶斯。模型提高了文本分类,下面的公式是改进公式(
对文本进行分类<我talic>
d,找到<我talic>
k文本接近文本<我talic>
d在训练文本集。文本的分类<我talic>
d基于这些分类标签<我talic>
k文本。简而言之,大部分的分类标签<我talic>
k文本属于一个特定的类别。然后,文本<我talic>
d也属于这一类
资讯的优点是适用于自动分类与样本量相对较大,但对于小样本大小,很容易造成误分类。当训练样本的分类的数量不平衡、文本分类的预测精度在少数类别较低。
支持向量机算法是一个通用的学习方法Vapnik和贝尔实验室提出的集团在1995年,基于VC统计和结构风险最小化的原则
为了判断分类算法的性能,进行必要的评价分类算法,精度,精度,和回忆是用来评估模型的性能分类。公式如下:
的公式,<我talic>
P和<我talic>
N在FP, FN、TP、TN代表模型的判断的结果,和<我talic>
T和<我talic>
F评估模型的判断结果是否正确。FP是假阳性,这意味着这种类型的预测,但实际的数字不是这种类型的数量;FN假阴性,这意味着预测不是这种类型的,但实际上是这种类型的数量;TP是正确的积极的,这意味着这种类型的预测是,实际上也是这一类的数量;TN是真实的负数,这意味着预测不是这一类的,实际上它不是这个类别的数量。全面考虑到准确率和召回率,计算<我talic>
F分数(调和平均数);的<我talic>
β重量是1,<我talic>
F1-Score值计算。值越大,模型分类性能就越好。的公式<我talic>
F1-Score如下:
策划的真正积极率(TPR)和假阳性(玻璃钢)ROC曲线也是一个方法来评估分类模型。ROC曲线下的面积AUC (ROC曲线下的面积)。AUC面积越大,分类效果越好。
TextCNN是卷积神经网络(CNN)的应用在文本分类。CNN最初在图像领域取得了极大的成功。CNN主要抓住了地方特色。金提出的CNN句子分类模型(
TextCNN模型。
输入层TextCNN这个词在文本向量矩阵。假设文本<我talic>
n词和词向量维度<我talic>
k,那么这个矩阵的大小<我nl我ne-formula>
递归神经网络(RNN)引入了时间序列的概念网络结构,具有更强的适应性在时间序列数据分析
LSTM结构。
在文本分类任务,LSTM由多个单元连接。输入<我nl我ne-formula>
文本聚类是自动分类文本集合的过程。文本集合的分类不是预先确定,但从数据本身。文本聚类是类内相似度,最大限度地减少类之间的相似度。文本聚类是一种无监督学习方法具有一定的灵活性和高自动处理能力(
分裂和集群使用分割方法构建一个数据集(<我talic>
N长度)<我talic>
K集群<我nl我ne-formula>
层次聚类利用层次化分解过程直到预期的条件得到满足给定的数据集。层次聚类有两个方案,“自下而上”和“自上而下的。“桦树采用平衡迭代协议和集群,扫描数据集在一个通过,并利用聚类特征树帮助快速聚类。BIRCH算法不需要输入的类别数<我talic> K价值。如果<我talic> K值不是输入元组的数量最终聚类特征树的决赛<我talic> K;否则,将mergedaccording元组聚类特征树的距离输入K值的总和。BIRCH算法聚类速度快。它只需要扫描一次训练集建立聚类特征树,确定噪声点,但是它不执行在高维数据聚类特性。
与基于距离的聚类计算相比,密度计算解决了缺点,距离计算只能找到“quasi-circular”集群。密度聚类算法,DBSCAN是比更适合凸分布数据<我talic> K则和桦树,也适用于非凸分布数据。DBSCAN聚类速度快的优势,有效处理噪声点和发现任意形状的空间聚类,但DBSCAN算法并不是一个完全稳定的算法。
主题爬虫使用LSTM + CNN分类模型来判断主题相关性的收集信息,并进一步提取相关信息页面的链接进一步信息。农业信息收集的实验数据包含23000件和25000件搜狗新闻数据。模型结构如图
LSTM + CNN模型结构。
进行如下:
数据输入:固定的矩阵参数嵌入层。参数是词向量由word2vec训练。所有的文本都加工成固定长度的时间序列数据和网络的输入。嵌入层变成了一个二维矩阵。每一行是<我talic> 一个词。
模型训练:嵌入层参数不参加模型训练,和获得的word2vec直接使用。中的所有文本序列训练集作为网络的输入层数据,和二维时间序列数据转化成LSTM层通过嵌入层,和LSTM的输出层作为CNN的输入。卷积层由3层的卷积。最大池过程后,它是连接到3层完全连接层。激活函数使用Relu,最后,该层包含将softmax激活函数是用来输出分类结果。使用反向传播来更新整个网络的参数,以提高模型的泛化能力和避免过度拟合,一些神经连接(辍学)是随机丢弃
模型验证:用测试集与训练模型进行评估。使用测试集作为输入模型的比较真实的分类标签和分类模型的输出来验证模型的预测精度和相关性能参数。
评价模型的计算准确度,召回率,和<我talic>
F每个实验,绘制ROC曲线下1-Score可视化分类算法的分类效果。实验比较的差异LSTM + CNN和其它分类算法和支持向量机(SVM)进行实验,多项式朴素贝叶斯(MultinomialNB)和卷积神经网络(CNN)。线性核函数支持向量机使用多个分类。MultinomialNB使用统计数据分类方法用于文本分类。CNN本地感知的特点,全球共享,卷积和多个内核。CNN模型试验使用卷积层三层卷积核128,最大池层和三层完全连接层(RELU激活函数)。最后,将softmax层输出分类结果。LSTM模型试验使用一层LSTM与500台连接到3 - layer完全连接层(RELU激活函数)通过将softmax层输出分类结果。LSTM + CNN的结构模型试验融合到CNN和LSTM [
不同的分类方法的分类(%)。
| 模型 | 精度 |
|---|---|
| 支持向量机 | 52.55 |
| 贝叶斯 | 92.78 |
| 美国有线电视新闻网 | 94.86 |
| LSTM | 95.61 |
| LSTM +有线电视新闻网 | 98.21 |
从表中的数据
ROC曲线。
TextRank模型可以表示为一个有向加权图<我nl我ne-formula>
其中,<我talic> d阻尼系数,值范围从0到1,代表的概率从一个特定角度指向其他的图形,通常需要一个值为0.85。起初,每个点都有一个随机的初始值,和马尔可夫转移矩阵法用于递归地计算,直到结果聚合(误差小于阈值)。
系统使用TextRank作为关键字和抽象提取算法。关键字提取使用共病的词汇关系在一个特定的窗口类单词并提取关键字。主要步骤如下:
文本分割成句子。
对于每一个句子,进行分词和词性标注,过滤器停止的话,保留指定词性的单词(如名词、动词和形容词)。
构建<我nl我ne-formula>
根据公式(
逆转比分的每一个点作为候选关键字最重要最热门词汇。
马克候选关键字的原始文本。如果相邻词组形成,它们组合成多字关键词。
自动摘要提取基于TextRank形式总结通过选择较高的句子文本中的重要性。主要步骤如下:
将文本分成句子来获得<我nl我ne-formula>
构造边缘设置<我talic>
E。根据句子之间的内容范围,给定两个句子<我nl我ne-formula>
如果相似度大于设定的阈值,这两个句子<我nl我ne-formula>
根据公式(
逆转分数和提取前句子重要性最高的候选人抽象的句子
根据要求候选句子的形式总结
自动提取关键字和抽象,“元”标签和“头衔”的标签在页面的信息收集可以提到。信息提取的示例如表所示
信息提取的例子。
| 内容 | 与市场上大量养殖淡水鱼,寿光淡水鱼价格在寿光城市,潍坊城市和山东省整体下降;其中,鲤鱼的价格大幅下降;8月下旬,价格从每公斤25元降到每公斤18元,下降30%;鲫鱼和银鲤鱼的价格也略有下降;根据专家的分析,价格下降的主要原因淡水鱼如下:一是当地淡水鱼的过高价格在早期阶段,另一个是,大量的淡水鱼类养殖池塘最近投放市场;尽管淡水鱼价格整体下降,它仍然是普遍高于去年同期;随着中秋节的临近,淡水鱼,如鲤鱼、草鱼、鲢鱼也可能经历价格上涨(来源:寿光城市,海洋和渔业,作者:Nongbo网络) |
|
|
|
| 关键字 | 价格、淡水鱼、寿光城市,银鲤鱼,鲤鱼,,,去年同一时期,作者,池塘,价格下降,中秋节,渔业、来源、下降,接近,上升,出现,分析。 |
|
|
|
| 关键短语 | 淡水鱼的价格 |
|
|
|
| 总结 | 尽管整个淡水鱼价格下跌,但他们仍普遍高于去年同期;随着中秋节的临近,价格的鲤鱼、草鱼、鲢鱼、和其他淡水鱼也上升;寿光淡水鱼价格整体下降 |
本文采用自适应增量<我talic>
K——聚类算法结合单次的话题检测算法。算法步骤如下:
对于每一个增量,集<我nl我ne-formula>
根据相似性<我talic>
年代每个主题,找到话题<我talic>
T文本相似度最高的<我talic>
年代。相似度计算公式所示(
在哪里<我nl我ne-formula>
使用单次的算法,判断文本之间的相似度<我talic>
年代和主题<我talic>
T大于阈值<我nl我ne-formula>
确定文本处理的数量<我nl我ne-formula>
计算的平均值<我talic> K后续的主题作为初始聚类中心<我talic> K则算法。
计算每个集群之间的余弦距离中心和所有文本根据公式(
重新计算每个集群的均值作为新的集群中心。
法官新的集群中心之间的变化和前面的集群中心;如果是低于阈值<我talic>
米,继续下一步;否则,迭代计算(
法官数量增加,0;算法结束和输出数量的主题<我talic> K和聚类的结果。否则,回到步骤(1)和流程下一个增量文本。
在上述算法的步骤(2)中,文本之间的相似度<我talic>
年代计算每个主题,选择一个有效的文本从每个主题的代表的话题。以下所示的计算公式:
选择有效的文本的文本组成相似主题的最大平均每个话题,<我nl我ne-formula>
文本集的相似度计算在每个两个主题,和最大相似性作为主题之间的相似性。
在这篇文章中,<我talic>
K最近的邻居(缩写为资讯,和原来的基础上作了一些改进。然而,比较并选择最近的<我talic>
K已知的主题文本分类相关文本的主题<我talic>
K文本。来确定文本的主题分类,算法的步骤如下:
计算文本间的相似性进行跟踪和一个已知的有效的文本主题。见公式(
计算的所有文本之间的相似度<我talic> K主题和文本被跟踪,选择<我talic> K文本相似度最高的,计算的平均相似<我talic> K文本单元的主题。
最大平均相似度≥阈值<我talic> ρ,确定文本跟踪属于这一主题。
本文采用基于情感词典的方法来检测情绪倾向。情感词典的建设是一个复杂和艰巨的任务。本文采用知网的结合情绪词典和南大由台湾大学的基本情绪词典和添加用户的基本情感词典。字典用于分词和必要的扩展和改进。使用Word2Vec和基础情感词典构建字典,施工过程如图
情感词典构建流程图。
构建一个情感词典的主要步骤如下:
保留在语料库情绪化的话,这里保留作为候选情感词形容词和副词。
语料库的构建这个词向量基于word2vec词向量计算工具,并获取最近的10个词候选词。
判断所有10个无法找到类似的单词在基本情感词汇,和没有人可以跳转到步骤(5);否则,继续步骤(4)。
确定的情感倾向根据候选情感词之间的语义相似度和10之间的赞赏的情绪词相似的单词。以下所示的计算公式:
其中,<我nl我ne-formula>
选择15%的推荐的和明显的贬义的词和强大的情感倾向作为种子词的基本情感词汇,并使用知网工具来计算候选词之间的语义相似度和种子词来确定情感倾向:
其中,<我nl我ne-formula>
情感词被分配,积极情绪词1分,消极情绪词−1分,中性词语是0,程度副词是基于情感词典给出的分数,和消极词汇都设置为−1。总结所有单词在文本的情绪权重;如果获得的分数大于0,这是一个积极的情绪。如果分数小于0,这是一种消极的情绪。如果比分是0,这是一个中性的情绪。
随着情绪的增加注释数据,舆论的情绪判断信息是通过构造一个文本情感分类模型实现的。情绪分类与域分类不同。一般特征提取算法在文本分类领域可以发挥很好的分类效果,但它有自己的独立情绪特征分类,和一般的文本特征提取算法不能起到良好的效果。市场人气的特性,可以选择分类包括情绪的话,消极词汇,过渡词,程度副词。见表
情感词的情感词典(部分)。
| 类型 | 情感词 |
|---|---|
| 积极情绪词 | 爱,羞愧,不知疲倦,欣慰,赞美,理解,支持和期待 |
| 消极情绪的词 | 不满,失望,浪费,威胁,邪恶,伤害,恐惧,危机,粗俗,恶心 |
情绪的分类特征。
| 特征数 | 特色内容 | 描述 |
|---|---|---|
| 1 | 积极和消极情感词 | 积极情绪和消极情绪词汇 |
| 2 | 消极词汇 | 有负面含义的单词 |
| 3 | 把单词 | 有把含义的单词 |
| 4 | 程度副词 | 程度副词描述 |
| 5 | 演讲的一部分 | 词性的情感词 |
| 6 | 情感上的标点符号 | !然后呢? |
消极的字典,字典,字典(部分)和程度副词。
| 字典类型的话 | 字典类型的话 |
|---|---|
| 消极的字典:不,不,不,五个 | 消极的字典:不,不,不,五个 |
| 过渡字典:返回,但相反,但是,但是 | 过渡字典:返回,但相反,但是,但是 |
| 程度副词字典:100%,极端,绝对的,非常,非常,特别是几乎略,更多,更多,更多,一点点,一点点,也特别,非常 | 程度副词字典:100%,极端,绝对的,非常,非常,特别是几乎略,更多,更多,更多,一点点,一点点,也特别,非常 |
针对农产品的分析网络舆论信息,大量的信息在互联网上,本文提出了平台的设计和实现农业民意基于大数据技术的数据采集和监控系统。系统可以收集大规模数据,扩大集合地点灵活,执行初步自然语言处理收集到的实时数据并将其导入数据库。我trealizes the recognition and tracking of public opinion topics, realizes the early warning of public opinion information based on emotional polarity calculation and keyword monitoring, and visually displays the data.
首先,分析网络舆论的现状在当前网络环境的发展,进一步分析农业舆论的现状,并详细说明有效农业网络舆论监测的重要性及相关背景条件的在线民意研究国内外
介绍相关技术如Hadoop,引发计算模型,HBase数据库,Solr文件检索服务和Scrapy-Redis分布式爬虫在大数据生态环境
系统需求分析和非功能需求分析:设计和解释系统的物理结构和技术结构,分层次设计功能模块和设计HBase和MySQL舆论系统数据库
介绍了文本处理的基本算法,文本分类算法,和文本聚类算法,提高舆论话题检测与跟踪的算法分析和情感分析任务
实验对比表明,word2vec有更强的文本语义和表达,同时,解决了高维稀疏tfidf和弓向量的问题,和弓文本向量表现不佳
这项研究得出的结论是,农产品网络舆论信息的分类基于CNN-LSTM优于传统支持向量机和贝叶斯
本文的解决方案能够满足用户的要求的监测网络舆论农产品
本文的研究有几个缺点需要改进。例如,网站的anticrawling策略和动态加载技术防止爬虫抓取信息。算法分析的准确性已得到改进,但仍有错误,可以进一步提高。
没有数据被用来支持这个研究的发现。
作者宣称没有利益冲突。
这项工作是支持的项目的吉林省科学技术厅(20190303035科幻小说),长春市政科技局项目(20170101051 jc),吉林省教育项目部门(JJKH20190923KJ),长春科技计划项目科技创新“双十工程”科技重大项目(18 ss018),吉林省科技发展计划(20190301024纽约)。