文摘
作为文化交流的一个重要载体,旅游可以发挥积极作用在促进区域生态和文化遗产。因此,本文以旅游景点在黄河流域为研究对象,构建矿业和评论情感分析旅游文本信息的黄河流域出现在社交媒体平台。基于这一理论的社会中心网络,黄河流域的旅游文化网络基于游客的情感分析。此外,基于线性融合算法的语义取向点态互信息和word2vec,本文构造一种情感词典在旅游领域的审查和提出了一套全面的情感计算规则基于中文文本表达结构。实验结果的32个景点黄河流域表明,该算法可以实现更好的旅游文本情感分类,扩大范围的应用领域情感词典的施工方法,并提高效率。
1。介绍
发布的信息的智能分析和挖掘游客借助互联网平台有一个广泛的影响旅游业各种各样的科目。旅游的游客对旅游目的地的看法来自旅游信息的传播(1]。因此,现在越来越多的游客将记录美丽的瞬间旅行通过微博上的照片和MVs,短视频平台,和其他新的社交平台。游客们可以喜欢、评论和分享,结果在在线旅游评论文本(2]。针对在线旅游评论的研究和挖掘文本,它提供了对旅游目的地游客的感知反馈(3]。“互联网+旅游”模式促进在线旅游评论信息的爆炸性增长。作为一种无形的财富,在线评论文本数据中扮演一个重要的角色在景区的管理和决策管理机构(4]。为了确保有效性、客观性和科学性,旅游评论数据,有必要进行足够的旅游文本挖掘分析(5]。作为一种最常用的文本挖掘方法,情感分析可以分析和处理大量的文本数据的游客的评论,提取关键主题句游客的评论,和感知的情感倾向游客对旅游目的地(6]。景区所写的评论数据来表达他们的直观感受风景区的游客,和其内容涉及的方方面面信息影响景区的流行,不同主题的特点。选择景区在线评论数据为研究对象,并对每个图像进行细粒度的情感分析景区的核属性集(即。,the factor set affecting tourists’ choice) is conducive to mining the emotional tendency of different topics in the review data and providing users with more valuable and accurate reference information.
黄河,它起源于巴Har山脉在青藏高原,是中国文明最重要的发源地,中华民族的母亲河。2020年11月,中国旅行社产业发展论坛和“皮带和道路倡议”城市旅游联盟年会、中国旅游研究院、戴斌说(7),“我们需要保护黄河生态的名义,继承黄河文化的名义,和发展黄河以旅游的名义。“如何恢复黄河流域生态和利用黄河文化已经成为一个必须解决的紧迫问题。目前,黄河流域中扮演一个重要的角色在弘扬黄河流域的生态环境质量。然而,不可否认的是研究黄河流域中扮演一个重要的角色在促进生态盆地的质量。需要通过一定的载体,文化和黄河文化的最佳载体形成的旅游景点依靠黄河文化。
具有重要意义构建的工具采矿和情绪分析黄河流域旅游文本信息在社交媒体平台上。本文首先设计采矿系统在黄河流域的旅游信息,提出了一个算法的互信息与情感取向点。
2。情绪分析模型的文献综述
情绪分析模型基于中文文本情感词典包含一个特定的文本情感词典构建自动提前。相对应的分析规则事先定义的算法模型。根据建立的分析规则,文本内容进行情感分析,和文本分析的结果。李的具体情感倾向分析的文本内容的微博网络舆论基于情感词典,不仅重新建立文本的情感词典还添加表达式的情感词典包(8]。Shaonpius等人词性分析添加到基本情绪词典完成的主观和客观分类分析文本数据(9];许等人扩大了情感词典包括基本情绪的话,领域情感词,一词多义情感词,提高情感分析的准确性(10]。(NB)朴素贝叶斯分类器是用于确定的文本区域位于一词多义的情感词汇,然后得到一词多义的情感词的情感价值。这些分析方法基于一种情感词典通常使用一般的基本情绪词典,这不是普遍的在不同领域。因此,建设一个特定领域情感词典是为提高情绪识别的准确性具有重要意义在评论文本。同时,机器学习算法弥补了情感词典方法的缺点。情绪分析方法基于机器学习算法可以使用一定数量的数据训练算法模型,以识别简短文本的情感倾向(11,12]。崔等人的实验表明,当数据集很大,识别分类器的性能基于高阶语言模型比先前文献中提出的分类器(13]。虽然培训少量的数据,NB分类器有更好的性能。桑托斯等人构建了一个基于一个新的文本模型深卷积神经网络,使用信息从字符句子层面进行简短的文本情感倾向分析(14]。
3所示。黄河流域的旅游信息挖掘系统
系统的功能包括数据采集、数据管理、景区的情感分析和比较分析。整个过程如下:首先,得到游客的评论数据从一个或多个旅游社交媒体平台通过数据采集功能,然后监视游客的情绪从整个景区的角度和细粒度的主题通过系统中集成算法。最后,结合数据的时间维度,本文的视觉比较游客的情绪在指定时间段的风景区,以便为游客提供信息符合他们的个人喜好和协助景区管理者改善景区的管理质量。
3.1。总体结构
这个系统是一个基于Java语言的web服务平台。Tomcat是用来服务发布和开源MySQL软件是用于数据库。系统的总体框架使用弹簧+ Spring MVC + MyBatis。与Spring的IOC功能,对象之间的依赖关系将在春天的控制,促进解耦和简化了开发通过Spring AOP的功能。SpringMVC是一个轻量级web框架,使用MVC设计思想解耦网络层和使我们的开发更加简单。它包括数据采集层、数据处理层、业务模块层和功能层显示。其中,数据采集层主要负责收集相关数据,和收集网站的范围包括业内,携程,桐城,Tuniu。数据处理层主要提供一系列的操作,比如数据清洗和仓储、检索、使用和交付。业务模块层用于算法模块加载和数据交互,和函数显示层是系统用户,用于数据采集、管理和智能分析和挖掘结果的反馈。总体框架如图1。
3.2。数据采集和管理
数据采集主要用于用户获取实时用户评论数据相应的景点在黄河流域从指定的旅游社交网站。首先,参数如省名、城市名、景点名称、开始和结束时间,以及相应的旅游社交网站设置,系统将自动从相应的旅游社交网站获取数据。获得数据后,系统会自动进行进一步的清洗操作,包括繁体中文转换、半角转换,和重复数据删除。最终的数据将存储在后台数据库的结构化形式。数据管理主要用于用户获取数据的指定时间和网站指定的风景区。首先,参数如省名、城市名、景点名称、开始和结束时间,并设置相应的旅游社交网站。根据数据进行分类和管理用户的名称、发表评论,发布时间,分数,和有用性。其中,四个功能是提供游客,包括浏览数量、时间、评级,和实用性。通过分类和管理评审数据,可以分析评论根据每个类别的属性,也方便后续研究。
3.3。文本情感分析
该模块主要用于用户分析和我的旅游信息,可用于研究根据获得的评估数据。该系统可以分类用户评论主题,用户可以选择独立情感类别和主题类别。因此,我们提出一种情绪倾向点互信息算法来分析旅游评论文本的情感倾向在黄河流域使用领域词典和情绪得分规则。
4所示。旅游网络结构建设黄河流域基于情感分析
4.1。节点网络指数
根据不同的分析角度,社会网络理论可以分为元素和结构元素的关系。元素的关系主要是解释社会关系之间的联系演员通过强度、密度、和规模;结构元素更加关注演员的位置在社会网络和社会结构的形成和演化。社会网络理论主要包括三个要素:节点,关系,联系(15]。相应的旅游流网络的结构,每个旅游目的地相当于社交网络中的一个节点结构,旅游目的地之间的关系相当于点之间的连接,和游客旅游目的地之间的转移,也就是说,交通通道,相当于连接。演员的所有个人、社会实体,或事件构成了社交网络的基本元素。他们出现在形式的“点”或“节点”和聚合成团体通过强和弱关系直接或间接的方式形成的。
以下4.4.1。学位中心
学位中心的数量来衡量一个旅游节点和其他节点之间的连接,以反映旅游节点中心位置。如果游客从其他旅游节点流向旅游节点 ,是一种内在的旅游旅游节点。 在哪里和代表内向和外向的中心节点 ,分别。j是用来计算节点之间的直接连接的数量和其他j−1节点。
4.1.2。亲密关系中心
亲密中心是用来测量之间的亲密程度,通过距离旅游节点和其他旅游节点。与同等程度的中心,距离中心内也可以分为外向接近中心和邻近中心,分别描述外向或内向的一个节点与其他节点之间的关系。 在哪里代表旅游节点之间的最短路径距离和 , 是靠近中心,旅游节点之间的距离的总和和其他旅游节点是互惠的。紧度越高,连接到其他节点越强,反之亦然。
4.1.3。中间性中心
中间性中心主要是用来测量的关键程度在一个地区旅游节点充当中介。如果旅游节点中介中心地位更高,这意味着该节点具有更多的中介作用在其他节点,和游客倾向于扭转,这可以是一个旅游分销中心。 在哪里代表的旅游路径最短的节点到节点通过旅游节点 ,和代表的旅游路径最短的节点到节点 。
4.2。建筑的情感词典
4.2.1。准备情感的种子字典
从15000年评论文本的河北旅游景点爬https://ctrip.com、Tset评论文本的词集,通过使用分词Jieba工具,并与知网分割的情感词典一个情感词集Tset = 。 是指情感词的情感倾向 。word2vec模型用于情感词集中的词转换成词向量 。为了达到一个更好的聚类效果的情感种子,种子词集基于余弦相似度的选择标准,见公式(4)和(5)。 在哪里和代表两个不同的词向量词的情感倾向 ; 代表的平均距离 - - - - - -情绪和情绪倾向 。 在哪里代表的距离阈值情感词的情感倾向 。
当 ,这个词是存储在种子情感词典,其情感倾向是标记为 。
4.2.2。领域情感词典
SO-PMI算法是基于PMI的方法来计算词的情感取向。SO-PMI的基本思想是选择一群积极的单词(P的话)和消极的单词(N词)在一个特定领域情感词典让一群积极的短语和消极的短语。然后计算候选点互信息区别词和积极/消极的词,然后比较不同设置的阈值来判断候选词的情感倾向,如以下公式所示(6): 在哪里和代表了积极和消极的情感词汇短语,和代表的积极和消极情绪词正面和负面的短语,分别。阈值是一个超参数的实验,这将直接影响情感词的数量被情感词典。经过分析的几个实验,一组非负阈值为0.3候选情感词的情感极性判断,判断公式所示以下公式(7): (词表明候选情感词的倾向得分大于阈值为0.3,和候选词被认为是积极的词添加到积极情绪词典。(词表明候选情感词的倾向得分-0.3,小于阈值和候选词被认为是消极词汇添加到负面情绪词典。而 (词)表明候选情感词的倾向得分−0.3和0.3之间,和候选词被确定为一个中立的词。
word2vec工具需要在指定的数据集训练获得的训练结果词向量,然后计算两个向量的夹角的余弦值来分析这两个词之间的语义关系。假设和分别代表两个或两个以上的词或短语,word2Vec用于词汇映射到n维向量 ,和 。余弦角公式用于计算平均候选情感词之间的语义相似度和种子中的所有情感词词典,和候选情感词的情感倾向得分,见公式(8): 在哪里 表示词语之间的语义相似性和 。
公式(9)表明,候选词的情感倾向得分计算基于word2Vec算法,和象征意义的变量上面是一样的意思。
为了充分考虑这两种算法的优缺点和实现的效果的显著改善情绪极性的候选词,本文利用线性加权法有效融合两种算法,在最终候选人情绪得分加权得到的候选情绪得分基于语义相似度计算和候选人情绪得分点互信息计算的基础上,以充分发挥两种算法的优点。计算公式见公式(10)和(11) 在哪里和分别代表的重量参数两种算法。
4.3。文本情感计算
摘要黄河流域旅游评论数据分为短句子和复杂句子根据标点符号。每个评论文本的情感得分计算通过使用上述语义规则和情感得分公式。如图2,具体情感得分计算过程可以分为以下三个步骤:(1)情感得分的计算短句子。在构建领域情感词典,每个短句评论文本的情感词搜索。如果不发现,情感词的情感得分为0;如果找到情感词,情感词的位置(索引),之前和之后的程度副词和消极词搜索匹配,并根据获得的权重不同的组合模式,然后乘以情感词的基本分数得到更多分数。在这个过程中,消极词汇的总数统计。当消极词汇的数量是奇数,对面的情感得分成为当前数字。数量是偶数,情感得分保持不变。最后的情感得分是视为一个句子的情感得分。(2)计算复杂的句子的情感得分。搜索连接短句子的连词,连词的权重根据匹配语义规则,用简短的句子的情感得分和连接词的权重得分的情感复杂的句子。(3)计算文本的情感价值。最后文本的情感价值可以通过总结获得的情感复杂的句子。
5。实验和分析
5.1。实验参数
这个实验的数据源是一样的以前的黄河流域旅游信息挖掘系统,包括1000年的积极旅游评论和1000 -旅游评论。手动检查后,发现精度可以满足实验的要求。精度、召回和F值是用来评估算法的有效性。
5.2。结果与讨论
5.2.1。特点分配不同的景点
32个景区在黄河流域选择测试他们的分布特征。相应的序列号的名字如表所示1。特征分布的结果如图3和4。
从图可以看出,壶口瀑布景区的最大值学位中心和接近中心,值为42.000和39.000,分别明显高于其他旅游节点。这表明景区有很强的集聚和辐射能力,是最重要的旅游目的地和旅游交通在黄河风景区山西、陕西、河南,拥有强大的旅游吸引力。外向中心和内向型的价值中心的玉林弘誓峡谷是最小的,不到1%,这表明它不是一个重要的风景区。此外,内部/外部学位中心的分布规律不同的景点几乎是相同的(除了兵马俑,李家山,和其他景点)。
靠近中心的价值越小,距离越高,越接近其他旅游节点。从的角度的位置白马山等景点,泰丰殿,和其他景点,这些景点是相对较弱的位置。
5.2.2。情感分类精度在不同的权重
上述结果表明,本文提出的模型具有良好的影响在黄河流域旅游信息挖掘,能够准确地分析不同旅游景点的分布特征。在此基础上,分类精度下的旅游评论的情感词典不同的参数进行了分析,结果如表所示2。
从表中的数据可以看出,当重量组合变化时,分类准确率提供了一个提高的过程,然后下降。这是因为情感点的互信息有很大影响候选词的情感分类时情绪极性划分。语义相似度信息的引入是为了避免极端情况候选情感词和种子词的同现率为0,从而导致一个大偏差在情感分类。因此,当重量组合= 0.6,= 0.4,精度最高。
此外,不同的单一算法的分类精度比较,结果如图所示5。与基于单一的情感词典的方法相比,该方法具有较高的准确性在情绪分析和克服的缺点过于依赖一种情感词典。
与单一word2vec模型相比,我们的模型可以提高分类效果。积极的评论文本的精度提高了6.1%,召回了6.6%,F价值的6.4%;而负面评论文本的指数提高了6.0%,7.2%,和6.6%,分别。该方法考虑了词语的情感信息的过程中,词向量表示。结果表明,该方法的使用建立特定领域情感词典结合情感信息词向量情绪分析本文方法比使用开放情感词典。结果表明,模型的精度和召回率提出了实验高于单一模型在测试集,和模型可以更好地解决这个问题,基于SO-PMI word2vec并不是单一算法实现的通用领域词典建设任务。提出了线性融合算法基于SO-PMI和word2vec具有较高的准确性和可用性。
6。结论
本文首先构建了黄河流域旅游信息挖掘系统,可以分析旅游业的大量数据对当前社会媒体平台。此外,黄河流域的旅游网络结构的基础上构造一个情感倾向,和上面的开采的旅游信息系统进行了分析。结果表明,它是可行的使用扩展领域情感词典实现中国评论文本的情感分类精度,可以避免很多人工注释,大大节省了时间和精力构建景区的满意度模型。
摘要黄河流域的旅游文本信息出现在社交媒体平台开采,它提供了一种工具,该地区的旅游业情绪分析,具有十分重要的意义,促进黄河流域的旅游文化。
数据可用性
数据集用于支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。