文摘
这项工作研究的交互网络(回复、转发和引用),出现在Twitter上与气候变化等相关主题。我们发现,这些网络的最大连接组件呈现低平均度和介数的值,以及一个小直径相比,网络中节点的总数。最大的转发和引用网络连接组件也展览- assortativity非常低。引用和转发网络有一个比回复网络层次结构。我们还发现,出现新的链接的过程交互网络可以正确地建模(高精度)通过使用提供的映射进行支持向量机模型Node2Vec算法。随机森林模型使用某些节点之间的相似性措施作为解释变量还提供了精度高。此外,我们分析了社区存在的每个交互网络通过鲁汶的方法。标签/社区的累积概率分布也检查了。
1。介绍
许多实际系统可以被描述为图,节点代表对象和链接表示它们之间的关系。社交网络,包括个人和他们的关系,分析了几个字段的兴趣,可以研究图表(1]。
一些调查提出的分类方法根据情感交互在社交网络上或框架分类比较的方法,使用社会背景(2- - - - - -4]。链接预测是一个相关的问题,因为它允许隐藏链接的识别的可见部分交互网络或预期未来的链接从当前的网络拓扑。的研究存在进行全面审查,分析和讨论的艺术状态的预测在社交网络上的链接(5]。基于节点指标、架构标准和social-theory-based指标进行了研究。此外,提出了几个增长模型在文献[6,7]。巴巴斯和艾伯特的增长模式8]还任命优惠附件模型已经常用来生成无标度网络,提供了一个基础的理解的机制,导致某些属性在不同的实际网络。也有调查建议不是唯一的关键因素影响程度无标度网络的发展,作为“适应性”存在于每个节点还象征着其倾向吸引链接(9,10]。研究解释说,社交网络是最好的弱无标度(11),表现出不同的特征。在[11),作者描述,考虑到分析251的社交网络,其中一半缺乏任何直接(幂律本身就是一个好的模型的度)或间接证据(幂律分布不一定是一个好的模型的度,但它是一个相对更好的模型比替代品)的无尺度结构不是无标度(50%),而间接证据是普遍略低于(41% superweak)。
本研究旨在研究网络的互动在Twitter上关注气候变化。在这些网络中,节点是Twitter用户,它们之间的交流存在的链接。共计631027条状态进行了分析。这次调查的目的是描述的结构和特征形成过程的联系回复,转发,引用网络。此外,我们的目标是发现如果在这些网络社区用户常见的交互模式。据我们所知,这还没有做之前在气候变化等问题。
2。材料和方法
2.1。使用资源的概述
2.1.1。T-Hoarder工具
下载数据从Twitter, T-Hoarder工具(12)是利用。它是一个软件程序,能够执行推爬行和数据过滤和显示关于Twitter的摘要信息活动在一个特定的主题。该工具提供了两种API(应用程序编程接口)下载数据:Rest API和流API。第一个在同步工作方式,限制搜索前一周的数据。第二可以进行实时数据下载。
T-Hoarder工具中实现UNIX操作系统和利用Python编程语言。使用T-Hoarder,以下数据可以收集每个Tweet: Tweet ID、时间戳、作者、文本、应用,作者ID,追随者的作者,作者后,状态作者、位置、URL、地理位置、名称、生物,URL媒体,媒体类型,和朗。更详细的描述中可以找到这些字段补充材料(可用在这里)文档。
总共有839968条下载从Twitter从2021年3月到2021年5月。
2.1.2。软件程序
在Python中几个项目(13)和R (14)开发为目的的执行以下功能:(我)处理的数据,通过R语言,和熊猫图书馆在Python中使用。(2)网络特性和图像处理,它是由应用Networkx包在Python中(15)和R igraph包中(16]。(3)建模是利用scikit-learn和StellarGraph在Python包。脱字符号,LiblineaR和e1071包也用于R估计节点之间相似之处是利用R的链接预测方案。(iv)社区使用CDLIB [17]。
Gephi平台是用来绘制交互网络18]。
2.2。使用方法的概述
2.2.1。获得微博
总共有839968条从Twitter利用T-Hoarder工具下载从2021年3月至5月。包括tweet消息来自Twitter用户以及他们的交互(转发、回复和引用)。必须指出的是,只在英语被认为是微博。为了决定最合适的关键词过滤的微博与气候变化无关,一小群人聚集在订单执行的选择。在提出了超过15个关键词的情况下,他们将分组利用一个亲和图(19]。之后,关键字过滤利用多个投票系统。最后,七个字。这些都是全球变暖,温室效应、气候变化,气候危机,气候灾害,气候紧急,气候行动。都有或没有间距考虑标签,共有589272个转发,94084回复,156612报价。此外,执行过滤系统,以消除可能的重复可能发生的数据如何收购(流和Rest api)。在这之后,仍有631027条tweets。
2.2.2。建立交互网络
我们用图形来研究气候变化对Twitter网络的交互。在每个tweet, node1是作者的ID和node2是用户的ID与交互。因为有与多个用户在同一微博的互动,尽可能多的链接生成交互存在。回复的交互类型、引用和转发。生成的图表是无向和无关紧要的。基于各种交互,创建三种类型的图表。
统计网络的主要参数如表所示1。这些都是节点和链接的数量,以及最大和平均程度。的总连接网络,信息和其他数据,如节点和链接的数量,以及巨大的大小组件也包括在内。不同的特征GC分析和链接的节点数量等直径(d),平均路径长度( ),平均度(k ),中间性中心(公元前 ),和assortativity系数(r)。这些指标定义如下。(我)一个节点的程度l,k(左)为一个无向图,G在Twitter上,如交互网络,是20.,21] 在哪里是元素邻接矩阵。 如果节点连接到节点和0。象征着网络中节点的总数。(2)的中间性中心节点在 , ,是(21,22] 在哪里从节点的最短路径总数吗到节点和象征着那些经过的路径的数量 。(3)assortativity程度(23)被定义为“预期度”之间的皮尔逊相关分布和“联合学位”分布(23在 。第一个分布表示的链接通过的概率分布和发现节点与学位终止的链接。第二个分布象征着一个链接的概率分布有学位在一个终止和程度在另一个终端。在无向的情况下,标准化的皮尔森系数和提供了assortativity系数网络,它可以被描述为(23,24] 在这里和的预期值或平均值和标准偏差 。如果网络是完全选型(= 1),那么它的节点加入只有与其他节点相似度。(iv)的平均路径长度 被描述为链接的平均数量,必须通过最短路径任何两个节点对之间和 。如果认为 当 ;也就是说,如果任何之间的路径和存在,那么可以被描述为 (v)的直径 , ,象征着长度最长的测地线(链接)任意两个节点之间的路径(25]。
2.2.3。建模的交互网络
(1)过程的概述。对节点之间的链接形成的过程建模使用两种机制:(我)第一个程序使用Node2Vec算法(26]。众所周知,Node2Vec semisupervised可伸缩的功能在网络学习的方法,它利用一个定制的基于目标函数,使用随机梯度的方法(27]。该算法提供了一个特性表示,最大化保护节点的网络社区的可能性年代维特征空间。一个 - - - - - -顺序随机游走的方法是利用生产网络社区为每个节点(26]。生成一个特征表示为两个节点的链接和 ,算法定义一个二元运算符的作者在相应的特征向量和生成一个表示的目的 如 ,在那里的空间维度是一对吗 。运营商建立了任何一对节点即使它们之间的链接不存在。所有运营商产生链接嵌入,等于输入节点嵌入维数。然后,给出任意两个节点,命名和 ,及其特征向量,和 ,运营商定义如下:(我)阿达玛: (2)l1:(3)l2:(iv)平均: (2)第二个程序使用特定的相似性指数。在这种方法中,类似地,28],我们计算本地、拟局部和全局节点之间的相似性度量。具体地说,当地的措施是资源分配(29日],Leicht-Holme-Newman [30.),常见的邻居,cos (31日],余弦相似性L + (25],中心推广[32],Jaccard [33),中心抑郁(32),优惠附件(8],Sørensen [34]。全球相似性措施使用平均通勤时间(25],Katz [35(直接),L +25森林),矩阵(36),和随机漫步重启(37]。最后,以下拟局部相似性的措施:利用图的距离和本地路径29日]。这些索引辅料文档中详细解释。
作为输入变量,模型的特点,取得了为每个链接,通过算法,或对节点之间的相似性指数。模型的输出变量的标志链接是否存在一对节点之间(其值为1或0)。使用监督学习,从例子都是已知的输入和输出变量,模型预测输出新输入的值,对应情况下不利用学习(培训过程)。
交叉验证是用于生成模型。作为一种替代方法把数据集分成训练和测试的子集,在上述机制,平等的分区数据集进行的。模型训练时间:每次选择一个分区作为测试集,并与其余模型训练折叠。每个折叠利用一次作为测试集。因此,最后,对整个数据集有不同的预测。因为上面的,评估的任何参数确定模型的效率存在。这个参数可以平均28]:
在这个调查中,我们考虑 , , , ,和 。所有这些参数中定义的部分2.2.2。
最后,一个独立的评估之前表示执行参数利用一个验证集。
作为一个数据集的交叉验证过程应用,我们把金额对应链接总数的75% (t75)血压得到较好的控制。相同的值无关的双随机选择节点之间不存在的链接被认为是(t75)血压得到较好的控制。作为验证集,总数的25%的链接(t25)考虑和一个类似的值(汽车)是不存在的链接。
(2)获得通过Node2Vec嵌入。通过Node2Vec节点映射进行计算的方式接近的节点图中仍在嵌入空间中。它的过程分为两个阶段,第一个涉及运行随机漫步在图上获取上下文对第二使用这些走到火车Word2Vec模型(26]。计算嵌入的,我们使用StellarGraph包在Python中,和几个参数必须指定:(我)p控制的概率在散步回到节点来自哪一个。值在[0.1,2)在步骤0.1尺寸。(2)问管理探索未知的概率部分的图表。它决定了Node2Vec嵌入维数,即特征向量的大小。值在[0.1,2)在步骤0.1尺寸。(3)num.散步,它定义了走由每个节点的数量。值(0.1,10)在步骤0.5尺寸的选择。(iv)走的长度,它象征着每个随机漫步的长度。值在[19,38大小的选择在步骤5。(v)窗口大小,它指定的上下文窗口大小Word2Vec。值在[39,401)选择的步骤大小。(vi)代表的数量num iter SGD迭代(时代)。值在[38,411)选择的步骤大小。
优化hyperparameters,我们计算亲密中心(或近似中心)的所有节点G。这个参数可以定义为 在上面的公式中,叫远中心。象征着链接的数量在节点之间的最短路径和 。
考虑为每个节点获得的嵌入 ,根据每个选定hyperparameter选项,我们计算指标 ,可以被描述为哪一个 在上面的公式中,之间的欧几里得距离向量对应和节点。最后,之间的关系 和 是获得。
皮尔森相关(42)或者斯皮尔曼相关42)将利用,取决于和变量会表现出正态分布。的正常分布利用Anderson-Darling检查测试(43显著性水平) 。考虑的假设如下:(我) :“样本来自正态分布”。(2) :“样品没有来自正态分布”。
如果 , 必须被拒绝,是拍摄;否则必须接受。
一个组合的hyperparameters相关性大于0.9获得被选中。我们使用p= 1.0,问尺寸= 64 = 1.0,num.走= 5,行走长度= 50,窗口大小= 10,num iter = 1。
必须指出的是,如果一个新节点添加到网络,执行Word2Vec整个图上需要生成新的嵌入。
(3)获取节点之间的相似性。此前表示,计算节点之间的相似度,使用R的链接预测方案。补充材料中所描述的相似索引文档。
2.2.4。建筑模型
三个模型进行了测试:随机森林(RF) (44),逻辑回归(LR) [45),而支持向量机(SVM) [46)模型。每个模型优化的5倍旨在网格搜索在参数网格为了找到最好的为每一个参数。
链接预测包仅可在R语言。结果,我们在实现该模型R,如果相似度指标作为解释变量,而如果从Node2Vec嵌入的,它是在Python语言开发的。
在Python语言,应用hyperparameters射频模型如下:在森林里的树木数量(n_estimators)和最小数量的样品需要分裂的内部节点(min_samples_split)。在R中,利用hyperparameters如下:在森林里的树木数量(max_depth)和变量随机抽样作为候选人的数量在每一个分裂(mtry)(最小节点大小(min.node.size) = 1)。最小节点大小基尼视为分裂规则R和Python语言。
LR和SVM模型,hyperparameters R和Python语言是相同的。LR模型,最好的逆正则化强度(Cs)和L2 [47]惩罚项(点球)。的支持向量机模型,正则化强度的倒数(C)和内核系数(γ)是利用。(我)射频模型(Python): n_estimators: [100、150、300], max_depth: 3、5、10,没有,和min_samples_split: (2、5、10)(2)射频模型R: num.trees: [100、150、300], mtry:[2、5、10],和max_depth:没有(3)LR模型(Python和R): Cs:(1、5、10、20),处罚:(l1, l2) (ranger方法脱字符号包,我们用来构建RF,不允许我们指定的限制 )。(iv)支持向量机模型(Python和R): C: ,gamma:
测量的性能模型,计算以下指标:(我)曲线下面积(AUC)。接受者操作特性曲线(ROC)是一个概率曲线,每个点代表一个真正的阳性率(TPR) /假阳性率(玻璃钢)对阈值对应于一个决定。TPR和玻璃钢可以被描述为 在上面的公式中,TP、TN FP,和FN象征着真正的阳性,真正的底片,假阳性、假阴性,分别。如果中华民国(t)是与中华民国相关的函数曲线,曲线下的面积(AUC)可以表示为 AUC允许我们估计分类器的性能,建立类之间的辨别能力;,0表示没有一对节点之间的联系和1表明,一对节点之间存在的联系。(2)在二进制分类准确性,我们正在处理,象征着正确的比例预测(真阳性(TP)和真阴性(TN))总数的情况下检查。它计算如下28]: (3)灵敏度或召回,代表的能力分类器正确识别正样本(1:一对节点之间的联系存在),可以被定义为(28] (iv)特异性和选择性,它象征着能力的分类器来识别一个负样本(节点)之间有任何联系,被定义为(28] (v)精确的定义是 (vi)F1的分数可以解释为加权平均精度,即分类器的能力不是标签样本看作是积极的,实际上是负的,和回忆的能力分类器找到所有积极的样品。这一点在范围(0 - 1),它被定义为 (八)几何平均数之间的平衡措施多数和少数类的分类性能。低GMean表明糟糕的表现积极的分类情况下即使消极的情况下正确分类。这一点被定义为
2.2.5。社区分析
根据(48),一个分析的形式在大规模网络的模块化结构。在这种背景下,社区是一个密集的子网,也就是说,一组紧密连接节点在一个更大的网络。可以透露这些企业利用网络拓扑的信息编码。分析存在的社区回复,转发,和引用的相互作用网络,各种算法评估。
(1)鲁汶算法。该方法包括模块化优化和社区聚合阶段。在第一阶段,每个节点最初分配给一个社区。之后,相应的模块化估计通过消除节点l从社区和把它放在邻居j的社区。如果一个存在于模块化,l搬到这个新社区;否则,它仍然在原来的社区。这种机制是对网络中所有节点重复49]。 在哪里象征着链接的权重的总和在社区里面l是进入。代表的总和的权重的链接节点的社区动作。加权的程度吗 。 是权重的总和之间的联系在社区和其他节点是进入。是权重的总和所有链接的网络。如果未加权的网络,它的每个链接的重量是1。
在第二个阶段,构造一个新的网络的节点是在前一个阶段获得的社区。两个阶段的重复,直到模块化不能进一步增加(49]。
(2)莱顿算法。它是基于鲁汶的方法。这个过程介绍了精化阶段除了模块化优化和社区聚合阶段,使它稍微复杂(50]。类似地鲁汶算法,该算法也开始通过每个节点分配一个社区。之后,单个节点从一个社区移动到另一个获得增加模块化。下一步涉及个人的细化社区发现前面的步骤。这个精致的分区得到如下。
最初,细化分区被设置为一个独特的分区,每个节点是在自己的社区50]。该算法在本地节点带在一起 :节点在自己的社区中可以合并一个不同的社区。应该注意的是,合并执行只有在每个社区的分区在第一阶段获得的。此外,节点加入到一个社区只有两者都足够加入他们的社区在第一阶段(50]。
细化步骤后,主社区可能分成多个:确保人脉广泛的社区。之后,大会进行了基于社区的节点细化分区 。重复这些步骤,直到没有更多的改进可以模块化(50]。
(3)标签传播算法(LPA)。运作如下:首先,网络初始化,这样每个节点分配一个唯一的标签。然后,每个节点选择大量的邻居,应用标签本身。如果不止一个标签是利用相同的最大数量的邻居,其中一个是随机选择。各种重复后,相同的标签往往是与企业集团的所有元素(51]。达到收敛当每个节点有多数邻国的标签52]。
(4)意外的算法。(39,41,53]提出一个不同的全球性能测量被命名为“意外”来评估企业的计算。他们建立一个网络的社区结构计算内部的分布和共同性与累计超几何分布(54]。的方法假定一个空模型存在链接节点之间随机出现。的观察到的分区从预期的分布测量的节点和链接到企业集团考虑这个零模型。利用[以下累积超几何分布39]: 在哪里是网络的最大数量的链接吗 ,与节点的数量。是观察到的链接数,的最大数量是intracommunity链接为一个特定的分区,然后呢intracommunity链接中观察到的总数,特定的分区。
这个参数可以估计的精确概率分布和节点建立社区网络中为一个特定的分区(53]。
4提到的算法已经被选择,因为他们已经被证明是有效的在多种形式的研究39,50,55,56),因为,网络分析,在很短的时间内完成他们的执行(小于2分钟),在电脑上运行时具有以下特点:(我)英特尔处理器:11日创(R) (TM)核心i7 - 1160七国集团(g7) @ 1.20 GHz 2.11 GHz(2)内存:16.0 GB
计算三个指标来评估社区检测算法的性能:(我)模块化(13),评估部门的力量。大型模块化是密集的社区内节点之间的连接和稀疏节点位于不同社区之间的连接。然后,模块化问一个分区被定义为(13] 在哪里米是链接的数量,是邻接矩阵的元素G,节点的度和 ,和 是一个分辨率参数,等于1如果和在同一个社区和0。是一个分辨率参数。如果是低于1,问倾向更大的社区。相反,如果它的值大于1,问有利于规模较小的社区。一个值等于1被调查。模块化的价值是在[−1/2,1]未加权的和无向图(13,58]。(2)性能(58]。 在哪里和是节点和 , 表示两个节点属于相同的社区和加入了一个链接, 表示两个节点属于不同的社区,而不是加入了一个链接,和 节点的社区吗和所在地。节点的数量在吗 。 (3)报道。
它可以被定义为的数量的比率intracommunity链接总数的链接(58]。
高的值与适当的分区。因此,其最大值所对应的分区应该是最好的58]。因此,研究互动网络,提供的分区方法具有更高的价值被选中但考虑,同时,这种方法使我们能够获得一个良好的价值的性能和覆盖率。所有这些都是用最小数量的社区。
2.2.6款。标签的累积概率分布的分析
我们也分析标签的累积概率分布为所有类型的交互,在全球范围内,由社区。Kolmogorov-Smirnov测试(38)= 0.05显著性水平是用于分布的比较。以下假设是:(我)零假设 :“源自相同的样本分布”。(2)备择假设 :“这些样本来自不同的分布。”
如果p获得值< 0.05的测试,必须拒绝零假设;否则,它必须采取。
3所示。结果与讨论
3.1。主要的交互网络的结构属性
图1显示了图对应回复、转发和引用交互网络的利用微博从3月11日到5月26日。
(一)
(b)
(c)
表1和表2展示的交互网络的结构属性从3月11日到2021年5月26日以及他们的 。如前所述,中间性中心估计节点的次数取决于其他节点之间的最短路径。关于 ,可以观察到表中2,平均中间性很低(0.008)在所有网络分析。这意味着很少有用户连接其他用户发挥中介作用。平均学历也低(2.8),如图2程度低,许多节点存在,而只有少数具有高度。平均路径长度和直径都是相似的转发和引用网络。然而,这些更高的回复互动网络,证明有糟糕的连接。网络的连接是由它的直径,它定义了任意两个节点的能力相互作用。
(一)
(b)
(c)
我们也分析了k-core分解(59在 ,允许我们检测特定子集(k-cores)图。这些计算递归消除所有节点的度低于 ,直到所有剩余节点的程度高于或等于 。这些值最高对应节点拥有更高的学位和更多的中央位置 。k-core分解确定层次嵌套的子图,1-core包括双核,同样包括3 core等等,直到k-core最高。更高的值意味着一个更相关和中央子图。
我们已经确定了回复、引用和转发网络2,10,22 k-cores。回复网络,节点的最高比例是在第一个k-core (94.16%)。与此同时,在引用和转发网络,第一和第二k-core最大的比例((83.72 / 12.66%)和(76.60% / 14.37%))。比例,用户注册的5.84%最高k-core回复交互和网络的其余部分的0.04%。根据上面的,这些用户显示最高k-core有更大的相关性。
3.1.1。回复交互建模
链接为每个类型的交互建模形成在不同的时间段。这是因为,尤其是在转发和引用网络,大量存在于2021年3月至5月的链接。的天微博下载的时间补充材料文档中详细分析。
(1)建模使用Node2Vec从获得嵌入。表3描述了每个模型的最佳hyperparameters使用Node2Vec回复互动从3月11日到4月10日,2021年。图3展示了新的交互(503新形成的链接)。表4和5显示每个运营商的性能指标和模型使用。结果显示,该模型展览SVM模型更高的精度。具体来说,运营商利用l1和hyperparameters作为C: 0.01和伽马:0.01。更多的分析包含在文档补充材料。在这些时候,最好的模型也支持向量机但使用阿达玛操作符,展览一个微小的区别对运营商l1, hyperparameters作为C: 100.0和伽马:0.01。然而,当我们看到后,更好的准确性是获得这两种情况下利用节点之间的相似性作为解释变量。
(2)建模获得了节点之间的相似之处。从3月12日回复互动直到2021年4月12日,表6显示每个模型的最佳获得hyperparameters 2.2.2使用表示节点之间的相似性度量。表7描述了每个操作符的性能指标和模型利用。结果表明,最好的准确性得到射频模式,与hyperparameters num.trees = 300, mtry = 5, min.node.size = 1。这个精度略高于实现如果模型是建立使用嵌入应用Node2Vec获得。其他时间段的研究被纳入辅料文档。在这些时候,稍微更好的准确性得到RF模型hyperparameters num.trees = 300, mtry = 10, min.node.size = 1。
3.1.2。建模系统交互
(1)建模使用Node2Vec从获得嵌入。在表8,最好的获得为每个模型利用Node2Vec hyperparameters转发互动从5月21日到2021年5月26日可以观察到。表9和表10显示每个运营商的性能指标和应用模型。图4显示了新的交互在上述时期;2581个新建成的链接。额外的时间已经包含在文档补充材料。类似于发生在回复互动网络,分析时间间隔,SVM获得的最佳模型,应用阿达玛算子。模型的hyperparameters取决于。尤其是利用上面指定的期间内hyperparameters C:是10.0和伽马:0.01。
(2)建模获得了节点之间的相似之处。为转发互动从5月21日到2021年5月26日,表11显示每个模型的最佳获得hyperparameters根据2.2.2使用相似性度量。在表12每个模型的性能指标,可以看出使用。次辅料文档中描述。获得最高精度的射频模式,与hyperparameters num.trees = 300, mtry = 10, min.node.size = 1。这个精度略高于一个实现使用通过Node2Vec获取嵌入的最佳模式。它可以指出,这种情况发生的次数对所有分析。
3.1.3。引用交互建模
(1)建模使用Node2Vec从获得嵌入。在表13,最好的获得为每个模型使用Node2Vec hyperparameters引用交互从4月12日到2021年4月22日进行描述。表14和表15显示每个运营商的性能指标和应用模型。额外的时间包含在文档补充材料。图5显示了上述的12651个新节点之间的联系。得到最好的价值准确性利用阿达玛算子,对支持向量机模型与hyperparameters max_depth:没有,min_samples_split: 2,和n_estimators: 300。SVM模型使用阿达玛操作符也展示了最高精度的时间间隔进行了研究。
(3)建模获得了节点之间的相似之处。为引用交互从4月12日到2021年4月22日,表16描述了每个模型的最佳hyperparameters获得使用节点之间的相似之处。表17显示每个运营商的性能指标和模型利用。最好的精度实现射频模型采取hyperparameters num.trees = 150, mtry = 5, min.node.size = 1。回复和转发互动网络,精度略高于接受使用嵌入计算Node2Vec。其他时间中描述补充材料文档。倍,精度高的射频模型利用相似性解释变量也观察到。
4所示。社区分析
表18,19,20.节目的总结的三个指标用于评价社区检测算法。社区中确定每个方法的数量也会显示。我们选择的方法给出了一个物有所值的所有性能参数考虑,还提供了一个更小的社区。
一旦候选人用于社区检测算法进行了分析,并选择其中一个作为最合适的,概率累积分布检查标签的所有交互网络,在全球范围内和由社区。数据6- - - - - -8和9展示收集的结果。631027微博分析,只有28952包含标签被确定(18439个转发,10333引用,180回复)。从#标签都是格式化的词1词2….Word对单词1_Word2…._Word ,tw的最大数目词在每个tweet。这些标签发现超过100次的转发交互如下:“C_O_P26”,“C_E_Ebill”,“环境”,“C_O_P26”,“C_E_E_Bill”,“C_O_V_I_D19,”和“Earth_Day, Clean_Delhi。“回复互动最频繁使用的标签是“Climate_Brawl”包含了22倍。“C_O_P26”、“C_E_Ebill”、“C_O_P26”和“C_E_E_Bill”检测到标签在引用超过100次的交互。图10显示的字云表示标签/交互类型。
(一)
(b)
(c)
(一)
(b)
(c)
(一)
(b)
(c)
(一)
(b)
(c)
5。结论
气候变化及其影响是今天一个相关的话题。这个问题一直在强调各种国际活动,如2030年由联合国建立可持续发展议程(60),气候紧急宣布欧洲议会(40),或者零世界倡议建立的美国(61年]。社交网络是一个很好的机会让人们表达他们的意见。Twitter是一个社交网络,拥有超过3.4亿用户62年),由于这个原因,分析交互发生在这样的一个站点可以有很高的相关性。我们发现回复、转发和引用交互网络可以通过两个模型适当地描述:(我)一个SVM模型,利用Node2Vec提供的嵌入算法和阿达玛算子。(2)一个射频模型,使用某些指标为解释变量描述节点之间的相似之处。
我们发现最相关的标签使用类型的互动,还发现标签由社区的累积概率分布是相似的。在全球范围内,回复和转发互动的累积分布表现出不同的模式。更好地了解Twitter交互在气候变化等相关问题上,这次调查可以继续在几个方面:(我)检查的时间的交互合作网络的演化可以执行使用传统的进化博弈理论。(2)扩散机制的分析以及考试的意见形成的动力学可以执行。上面将有可能研究的程度可以操纵舆论算法程序(机器人)以及影响互动网络结构的可能。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
信息披露
这个研究项目进行了结果:料斗:女性,社会,科技和教育在内部呼吁研究项目被授予2021年在大学弗朗西斯科•德•维多利亚。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这部分工作是由西班牙电信在弗朗西斯科•德•维多利亚大学的椅子。作者感谢玛丽Luz Congosto马丁内斯对她帮助培训T-Hoarder工具的利用率。
补充材料
补充材料包括(i)的概述T-Hoarder工具,(ii)的描述相似措施(本地、全球和拟局部方法),和(3)表相关的交互网络的建模。(补充材料)