文摘
网络交互已经演变成一个组织范式作为文明发展和人工智能技术先进。这个网络组织模型已经迅速扩展交流空间,改善沟通内容,根据网民的需求。校园网络社区的快速增长可以帮助学生在满足各种通信需求和作为一个重要的平台研究和日常生活。它研究如何从评论文本中提取意见材料。提取的策略观点态度词汇和网络舆论的特点从单个评论文本提供一个更好的水平。半自治的发展领域情感词典生成技术改善意见和态度词提取的准确性。本文提出一种window-constrained潜在狄利克雷分配(LDA)主题模型,提高了提取网络舆论功能词的准确性,确保网络舆论功能词和观点态度词使用位置信息进行同步的意见态度的话。两级意见领袖采矿方法和线性阈值模型的主题是基于用户角色模型模拟测试在这个研究。表明两级意见领袖挖掘方法建议在这个研究可以大大减少运行时间,同时正确地寻找意见领袖与更强的领导通过比较结果与现有的模型。它还表明,线性阈值模型提出了基于用户角色可以有效地限制的活跃用户总数信息扩散过程中多次被激活来区分不同的用户角色的影响扩散过程的信息。
1。介绍
随着互联网技术的不断发展,人们的通讯方式在互联网上也发生了显著变化,从搜索信息,阅读新闻,看视频收集和讨论在微博等团体,QQ,微信1]。这种类型的网络组打乱了传统的面对面的会议和讨论,让每个人都分享信息在虚拟网络空间,导致不同的话语和行动网络公共空间组织,已成为大学生的人际关系和情感联系。学院和大学网络组织现在跨度学生生活的方方面面,教育和沟通。在某种程度上,这些网络组织可能促进多样化的交互和作为学生学习和生活的重要平台2,3]。然而,网络社区也影响他们的学习习惯,生活方式,思维模式,整体的人格发展。大学生快速思想家和接受新思想。他们喜欢表达他们的思想在国家政治、社会热点,他们看到和听到在互联网社区,但他们缺乏合理的思想和判断,缺乏教育和经验,观点不足。在表达思想时,自然受到别人的意见。此外,一些学生缺乏政治意识、道德意识和法律的理解,导致不正确的观点的传播在网络社区(4]。
为了更好地了解社交网络舆论,有必要掌握社交网络舆论的发展现状和特点,系统地总结了价值形式的社交网络舆论,并分析社交网络舆论的形成的原因(5]。移动互联网和智能终端的使用来创建新的通信技术,社会媒体的媒体优势展示公众舆论的价值,网民的合理要求自己的合法利益,和政府管理网络创建一个清晰、理性的网络都是社交网络舆论研究理论的例子(6,7]。任何一种研究系统结构是按照一定的规则和相关显示特定的内部法律制度。理论意义主要体现在本文的研究来促进社会网络舆论研究的建设理论体系,提出一个社交网络舆论研究机制模型从信息生态的角度,并提供一个新的研究视角研究社交网络舆论的沟通。现实意义主要体现在本文的研究在理论研究的基础上,促进建设早期预警和监控机制的进化社交网络舆论事件,引导公众舆论管理有关部门管理网络用户,并指导相关的公众舆论管理部门来管理网络用户关系。
处理过程是追究文本预处理和NLPIR-based评论文本切分和词性标注算法主要是介绍。情感词典的意见和态度词提取,提取的意见和态度词是通过建立领域情感词典。window-constrained LDA网络舆论功能词提取提取功能的网络技术提出了意见。证实了算法的有效性和准确性的几个实验比较。TSRank技术介绍了工作是增强通过添加聚类寻找候选人意见领袖使用UserRank算法,大大降低了程序的执行时间。而安定药系统执行一些更糟糕的是当用户影响识别人更多的理论能力,它执行时更好的识别的人有更大的实际用户影响的能力。同时,当发现意见领袖的总数是温和,镇定剂的方法执行得更好。结果,TSRank方法建议在这个工作是有效和准确的。在肝移植相比,K-LT模型在这篇文章中,介绍了线性阈值模型URI-LT基于用户角色可以提供更准确的解释真正的社交网络建模信息扩散的过程。因此,本研究中描述的线性阈值模型是合理和有效的。
2。相关工作
很少有外国文学对大学生在线社区和大学生的表达网上意见(8]。他们主要研究领域相关的在线社区意见和网络意见领袖。意见领袖Lazarsfeld最初提出的,他们大多是在政治领域,逐步扩大到生活的其他部分(前9,10]。通常认为,外国的研究意见领袖在互联网上主要是关心身份,特征,类型。有缺乏研究等基本观念影响和影响,和更少的是加上大学生意识形态教育。相关学者的公众观点被认为是第一类的社会舆论。通过引入互联网,互联网社区的观点已经表达了11]。因为互联网的普及在西方国家早在国内市场,也有很多作品在网上社区的意见,但他们往往注重于应用学科,更需要检查互联网社区的观点从不同的角度和影响力。
考虑两种不同的类型的信息的传播和不同的释放时间和假设每条消息的内容可能与其他消息的内容无关,相关学者提出一个信息扩散模型同时双重信息和动态传播在一个复杂的网络,以及一个双重感染的信息传播模型(12]。研究人员提出了一个舆论传播模型不断的潜伏期传染在社交网络13]。通过模型的分析,noninfection平衡达到当地的稳定状态,和常微分方程的几何方法证明了全球稳定noninfection平衡(14]。相关学者们讨论的角色认知信念影响在线用户的决定在网上分享热事件(15]。认知天真的参与者更有可能比参与者分享在线热事件,并有很强的认知。相关学者认为反击机制,构建一个谣言传播模型在复杂网络(16]。他们相信谣言传播过程的最终状态固有电阻增加而增加。研究人员建立了一个动态模型的网络恶意软件传播基于谣言传播的无标度网络模型,提出了一个模型,其中exposure-infection-recovery-inoculation州易感,并进一步改进了增加接种的时间(17]。
相关研究人员已经提出了一个微观风险扩散模型,预测网络的动态传播风险和威胁从microprobability的角度和收集目前最有可能感染了边界节点承受网络风险和威胁18]。假设社会媒体舆论危机信息的传播是一个竞争的过程之间的真实和虚假信息,相关学者讨论了传播危机信息传播的不同阶段的特点,提出了一个竞争的危机信息传播模型(19]。研究人员量化该病毒的传播影响的搜索引擎,以及病毒的传播过程的稳定性。他们提出了一个受欢迎的反馈模型通过评估社交网络的社区结构,以防止病毒传播。生命周期假说学者使用独立的网络舆论的发展分为几个阶段(20.]。网络舆论的发展过程中,意见容易分化,反对,或收集,导致群体极化现象,比如网上对抗和网上谴责。
相关学者使用知识地图的方法分离的主体属性映射的实体,提取的主题和时间属性映射的实体Neo4j图形数据库,和跟踪民意的发展主题使用多维特性融合分析(21]。相关的研究人员研制出了一种进化博弈模型,包括战略网络媒体之间的相互作用和传染性疾病的地方政府为更精确的模型(22]。同时,鉴于预期效用理论的局限性在定义游戏的损益科目,他们分析了各地方政府指导策略的影响公众舆论的进化。研究人员提出了一个动态网络舆论发展模型,研究模型理论,如动态网络模型的结构演化特性,和描述的方法(23]。相关研究概述了重要元素影响紧急网络舆论的发展进行比较和评估性能的5例事件和传输通道中的相似和差异的网络舆论在每个阶段(24]。众多元素影响网络舆论的发展,这部分的研究和研究人员有不同的意见,包括进化的划分为三个,四个,六个阶段,进化需要仔细澄清的法律学者(25]。
3所示。语料库建设和知识图施工
3.1。语料库建设
因为网络舆论事件传播和扩散分析需要意见领袖采矿、图形可视化、知识和交流和扩散分析、语料库标注,字符编码、时间切片对于网络舆论事件语料库是必要的。(1)语料库标注
意见领袖发挥关键作用,网络舆论的传播。因此,分析网络舆论事件的传播和扩散,需要意见领袖挖出来。为了验证意见领袖挖掘的有效性,有必要把意见领袖在真实数据集。结合语料库的网上舆论事件和网络舆论的发展规律,本文将新浪微博用户意见领袖满足以下四个方面:(1)用户事件当事人;(2)新浪微博被标记为“大V”;(3)用户转发超过300事件;和(4)官方微博用户,如政府、学校和新闻媒体。(2)字符编码
本文使用Neo4j图数据库作为存储知识的平台图形。Neo4j数据库只支持utf - 8编码格式的文件,所以网络舆论事件语料库的编码格式需要统一调整,以utf - 8编码。(3)时间片
网络舆论的生命周期的划分是很重要的分析网络舆论的扩散和传播。根据网上舆论生命周期理论,网络舆论事件语料库数据除以时间。
3.2。建设知识图的网络舆论事件
网络舆论事件知识图属于领域知识图,和领域知识图的建设通常采用自上而下的施工技术。首先,网络舆论事件是仿照本体,和概念、实体、属性和关系网络的舆论事件语料库是解决。为了保证图像的可靠性,本体层是手动验证;然后,知识获取、实体连接,消除按顺序完成。网络舆论事件知识的质量评估。图1构建知识图的示意图显示网络舆论事件。
知识表示和推理的目的是将知识图的三元组转换成可计算的离散向量知识通过知识的表示图,然后,完成知识图和关系推理可以通过计算向量之间进行。提出了一个衰减的注意机制和嵌入在图像网络构成图衰减注意网络的关注。知识表示和推理是由使用图衰减网络关注。
4所示。提取的意见内容基于主题模型的评论
4.1。分析的观点内容提取算法
意见内容提取与传统的文本内容提取的不同之处在于,它需要提取的网络舆论功能的话,意见的态度的话,和搭配评论文本的两个之间的联系,和收集的数据的数量是相当重要的。有几项研究正在进行提取的观点和态度,其中大多数是通过情感词典的使用,和公共字典都可以访问。提出了提取网络舆论功能词和他们的位置使用情感词典的方法,然后提取网络舆论态度词使用LDA主题模型基于意见词的位置,以达到同时提取网络舆论的功能词和意见的态度的话,确保互联网舆论的性格。意见的工作流程图本文中描述内容提取算法如图2。
从图可以看出2整个算法接收文本内容作为输入最后输出的内容意见后提取意见和态度的话基于情感词典和提取网络舆论特征基于主题模型。显然,有三个关键任务,即文本预处理,看来,和态度词提取基于情感词典和网络舆论功能词提取基于主题模型。
信息增益(IG)代表的数量之间的差异信息,当某一特征项存在和可用的信息量时缺席。因此,信息增益可能被视为的临界特征项,可以用作标准是否保存一个特征。熵确定多少信息是用于分类。信息增益等于区别原始系统的熵和条件熵的特征项 ,如以下公式所示:
的熵类别的文档定义如下,代表文件类别的概率出现在训练集。
特征项的条件熵的定义是,代表文档的概率特性出现在训练样本。
最后的信息增益的表达式
4.2。文本预处理
写的评论用户的语言风格因人而异,不完全符合语法规则。为了确保评论内容提取模型的准确性,预处理是必需的。
不同的应用有不同的处理要求,预处理过程将相应调整。例如,本文进行预处理的评论文本,主要过滤无效的评论和过滤词不会导致意见的表达。
分词和词性标注,找出中国词和词类(形容词、名词、动词等)的文本。分词和词性标注技术相当成熟,像NLPIR,是一个广泛使用的分词系统。本文是基于NLPIR分词系统,并将其添加到NLPIR用户字典通过构造专用词汇分词词典在电子商务领域。自用户词典的优先级高于分词系统,它可以确保专有词汇正确识别。例如,高端、高档情感词“高大商”,描述了事情应该被视为一个词代替多个单词。
4.3。观点和态度词提取基于情感词典
创建情感词汇的过程分为两个阶段:第一阶段是基本建设的字典,和第二阶段涉及到扩张的基本词汇。情绪的扩展字典是归类为域和合成情绪词的扩张。情感词典的构建过程如图3。
模板的基本词典在这篇文章来自于情感词汇本体数据库。通过提取出正面和负面的词语,稀有罕见字删除。域的扩张的话操作实现的基于语义相似度。预处理评论文集时,如果一个新单词,不包括在基本字典,并参考词之间的语义相似度计算,将合格的词语进入候选词典,和候选新词是最后评估。语义相似度是通过点互信息操作,可以用来衡量两个词的相似度。计算公式如下:
其中, 代表单词的概率和一起出现在一个特定类型的文档,代表这个词的概率仅存在于一个特定类型的文档,代表这个词在特定类型的文档的概率在文档中独特的存在。
4.4。提取网络舆论功能词LDA基于主题模型
无监督学习是通过使用潜在狄利克雷分配(LDA)模型。主要采用文本分析计算领域的文本数据集相似,潜在主题挖掘和文档总结生产。它实际上是一个三层贝叶斯网络,单层网络文档,主题,和文字。bag-of-words模型是用来将文本输入到computer-calculable词频信息。
在LDA模型中,已知的数据文本中的词,每一个主题都是随机组合词的词汇,和每个文本是一个随机变量组成的各种主题,它们满足多个项目。
文档的情况下 ,这个词的概率是
乔治是一个无监督学习模型。你只需要设置和优化模型参数。不需要手动标记训练集的文本,可以节省人力和时间,适用于大规模语料库处理。与其他主题的方法相比,LDA具有较强的泛化能力,不是容易过度拟合问题,并执行在文本信息降维聚类和主题信息。这些优势使LDA模型非常适合网络舆论的特征提取。因此,本文采用LDA提取网络舆论功能词。
5。仿真实验与分析
5.1。意见领袖开采模拟实验
5.1.1。获取意见领袖的候选人
首先,本文开发一个社交网络图模型以确定的数量2摄氏度的邻居,的数量核心,和2摄氏度的邻居聚合系数中的每个节点图。执行最大和最小正常化后三个属性值,分别将每个属性的零值替换为一个非零的最小值,使计算第四属性。我们开始通过选择最优聚类过程集群数量使用弯头的方法。设置2个甘蓝型如图所示4,手肘图。见图4,集群效应相当强劲 。
5.1.2中。用户影响力理论的可能性
见图5,LDA主题模型执行最好的识别最重要的头n个意见领袖在每个用户的体重追随者有相同的影响。LT-a模型是完全基于社交网络的拓扑结构为目的的模拟信息分散。LDA主题模型是一个增强的PageRank算法,可以准确地评估用户的效果在一个社交网络结构。因此,LDA主题模型优于其他用户影响的理论模型。因为UserRank和镇定剂算法是深受用户的实际过去的行为数据,LT-a主题模型在模拟执行明显不如LDA主题模型。虽然ClusterRank方法只使用社交网络拓扑识别意见领袖,它只使用聚合系数和球迷的数量来量化用户的效果。ClusterRank LT-a低性能的模型表明,球迷的数量定义用户不再是足够的。同时,从图可以看出5UserRank算法的性能低于LDA的话题模型。这表明本文提出的意见领袖挖掘算法有更好的挖掘效果没有集群获得候选人意见领袖集。TSRank算法的总体性能较低,因为TSRank降低聚类的准确性在这个过程中获得候选人意见领袖。
从图可以看出6当用户影响重量计算是基于用户的历史行为数据,的价值增加,LDA主题模型仍然是最优的性能。这是因为LDA主题模型计算用户影响和活动之前基于用户行为数据,而UI-LR算法生成初始用户影响过去基于用户行为数据。因此,头n个意见领袖识别通过LDA的话题模型更接近真实的社交网络意见领袖。的整体稳定TSRank算法更好。
5.1.3。实际用户的影响能力
- - - - - -值计数如何影响许多不同的用户通过微博发布或转发头n个意见领袖中每个算法的用户的历史行为。从图可以看出7方面的, - - - - - -价值,LDA主题模型的性能优于其他四个算法,表明LDA主题模型更准确识别用户高影响的历史。
5.2。信息传播模型模拟
5.2.1。不同衰减的影响因素
LT算法的基础上,首先考虑到用户影响体重的影响时间衰减系数,T-LT模型提出了。我们设置的初始影响体重T-LT算法。只为了让扩散效应的影响衰减因子和种子节点,本文统一设置阈值 为每个用户。考虑到当衰减的因素太大,节点上的衰减效应的影响体重太大,不能有效地积累的影响。因此,我们设置的值来 。以0.05为增量,我们研究的影响不同值的扩散效应。
图8显示了一个种子节点受到不同的衰减因素的影响。图中A、B和C代表不同的种子节点。水平轴代表不同的衰减因子。衰减因子等于0时,T-LT模型相当于肝移植模型。用户种子节点集的总数可能影响下相关的纵轴显示时间衰减因子。衰减因子大于0时,用户的总数影响种子节点集波动作为一个整体,见图8。节点的拓扑属性A、B和C是显示在表中1通过深入研究,以调查各种变化模式的原因。
见表1,一个节点有一个适度数量的球迷,很长的扩散范围,较低的扩散效果的价值。这表明节点有大量二次粉丝(传播广度-粉丝的数量等于二次粉丝的数量),和球迷之间的关系和次要的粉丝很弱,这意味着激活整个扩散过程需要大量的尝试。国家有一个非常小。最小衰减因子时,球迷的早期传播期间不受影响,导致未成年人总数的变化影响的人。当衰减因子增加,球迷的数量有效触发在扩散的第一阶段减少,导致整体用户数量显着减少的影响。节点B粉丝数高,一个低二次范数,和高扩散效率值,表明有更多的粉丝和二级球迷之间的连接。即使衰减因子很小,影响用户的总人数大幅减少,这意味着更多的球迷需要许多激活尝试之前激活整个传播阶段。同样,它表明,在球迷和二级节点C的粉丝,用户的数量之前必须激活多次成为活跃也很高。比较实验结果的LT, T-LT R-LT, URI-LT, K-LT。
后分别分析时间衰减因子的影响和用户影响体重信息扩散,本文提出了基于LT URI-LT算法,考虑时间衰减因子和用户同时影响体重。我们分析的扩散效果相同的种子节点集在不同的信息扩散模型。在这里,我们设置阈值 为每个用户。根据分析结果的影响不同值、衰减的因素 被选中做信息扩散衰减因子的影响更加明显。摘要在分析不同比例的意见领袖的影响,意见领袖的总数 被选中。表2显示信息扩散的比较不同的信息传播模型的结果。
根据记录在表2和比较的结果信息扩散与不同的信息传播模型,可以发现,当种子节点是相同的,预测的信息扩散结果T-LT, URI-LT, K-LT都小于LT模型和R-LT模型。LT的预测结果是没多大区别的结果肝移植模型。这是因为T-LT模型有效地过滤一些节点需要多个激活转变成一个激活状态通过时间衰减系数。在一个真实的社交网络,当用户没有新任命多次接触相同的信息,用户最终会转发信息的概率非常小。T-LT模型假定用户的影响体重会减少时间和用户受到信息长期没有转发它将无法正确地转换成一个活跃的状态。
6。结论
提出了一种同步提取方法的观点态度的一个评论文本和网络舆论的特点在细粒度级别。观点和态度词提取的准确性是增加了开发一个半自治领域情感词典生成方法。window-constrained LDA话题模型,利用位置信息的观点态度词增加网络舆论功能词提取的准确性,保证网络舆论功能词和观点态度词都是同步的。最后,评价的实质是从评论文本中提取的。同样的种子节点,用户总数URI-LT模式会影响小于用户的总数,LT模式会影响但大大超过用户的总数K-LT模型可以影响。它说明了URI-LT模型是非常准确的,当用户角色和时间衰减效应考虑在内。此外,通过比较R-LT的结果,T-LT,和URI-LT信息扩散,本文发现,当用户的重量分布的影响同时根据用户的角色,用户的影响力是动态积累的重量根据时间衰减系数。这是因为,在确定用户在用户角色之间的相对重要性,本文限制用户范围的相对相关性(1,2]。然而,在真实的社交网络,用户的比例值要大得多。因此,URI-LT模型中的用户角色的作用可以加强通过调整值范围的用户的相对重要性。提出了一种两阶段挖掘框架基于现有的意见领袖的意见领袖挖掘方法从所有网络用户,我的意见领袖导致较高的计算复杂度。框架更有效减少计算复杂度,但是仍有一些缺点的计算精度,和后续的改进是必要的。同时,线性阈值模型提出了基于用户角色的提高可以有效地展示了意见领袖的角色在促进信息传播在社会网络,但仍有缺陷在计算用户之间的相对重要性。
数据可用性
数据是可用的。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作是财务支持的特定主题的研究顾问委员会的工作2019年江苏省高等教育协会:研究表达机制和大学生的指导意见在互联网上(项目19 fyhzd019)。