最近,已经有越来越多的经验证据支持这一假说,在社交网络上的雪崩microposts传播,如Twitter,与一些社会政治事件有关。此类事件的典型例子是政治选举和抗议运动。受这一现象的启发,我们构建了一个现象学模型,描述了Twitter的自组织临界状态。这个条件的外部表现是microposts雪崩的传播网络。模型是基于部分带三个参数的自组织机制与随机源。结果表明,绝热模式的自组织临界状态的密集的协调行动是由一个相对较小的网络用户的数量。确定网络的关键州和验证模型,我们提出了一系列的三个microposts观测时间序列的比例指标。
一个bstract>一般20世纪科学发展的趋势,也是通过在新的世纪里,逐步渗透的物理思想和方法在自然以及人文传统。自1970年代以来,数学和物理建模的方法已经被越来越多的应用在人口统计学等科学、社会学、经济学、历史、和政治科学。在所有这些科学、客观、欲望,最好有一个定量描述各种社会和经济现象正在增加。
定量模型的发展社会学、政治学、交通流理论,和其他领域的社会调查逐渐相关任务从人文科学和工程科学的跨学科应用数学和物理。在近年来的文献中,术语sociophysics [
研究的对象和现象的一些sociophysics社交网络(例如,看到评论(
在1980年代末,贝克et al。
从SOC模型出现的那一刻起,这个模型开始适用于描述关键现象系统无论其性质(例如,看到评论(
我们调查的动机是这样的。有许多研究(例如,看到的作品(
提出了结构化如下工作。部分
本节提出了一种定性nonformalized描述的机制出现在Twitter上自组织临界状态的协调行动的战略导向的网络用户。指标的范围自组织临界性的一个社交网络被定义为网络的标识符在亚临界(SubC)功能,自组织临界(SOC)和超临界(SupC)状态。
<年代ec id="sec2.1">著名的物理模型的自组织临界性,阿贝耳沙堆模型(
我们假设Twitter自组织临界状态的结果一致的行为相对较少的网络用户(<我nline-formula>
首先,我们介绍的概念,需要进一步讨论。让<我nline-formula>
将网络用户划分为两个类的基本原理是研究结果Pramanik和合作者在他们的论文中提出的
在我们看来,我们使用Twitter用户提出的详尽的分类(
考虑网络的特性用户的交互作用,导致在Twitter上SOC状态的出现。解释机制的出现这样的状态,它是适当的区分三个连续网络状态:SubC状态,SOC状态,SupC状态。
年代ubC状态是混乱的网络状态,观察到在一个特定的时间间隔或在亚临界时间<我nline-formula>
假设在每一时刻的时候,一个苏(<我nline-formula>
应该指出的是,被认为是层次结构并不是唯一的结构,通过它可以产生雪崩microposts更大的尺寸。其他可能的机制产生临界将描述的结论。然而,上述各种规模的microposts雪崩的传播机制,在我们看来,是最合理的。这是由用户的基本细节决定组织在Twitter上:用户(层次级# 1),他的订阅者(层次级# 2),用户的用户(层次级# 3),等。此外,在
如果<我nline-formula>
在<我nline-formula>
Twitter的自组织临界状态时microposts的数量(<我nline-formula>
常规回到SOC状态对任何偏离它让我们表明,它是一种特殊的稳定平衡的发展网络,根据贝克,称为间断平衡(
命令SupC状态,如果观察到<我nline-formula>
节
确定网络状态,有必要确定雪崩microposts的规模,这将允许分配给社交网络的一个关键的州。
考虑到自组织临界性理论的基础之一是复杂性理论(有时也被称为范式)
在Twitter的情况下,我们正在谈论某些特性的观测时间序列microposts (<我nline-formula>
社交网络的复杂性的关键特性在它们生成的时间序列的幂律概率分布函数(幂律PDF) microposts,时间序列的功率谱密度(PSD)的时间序列的特征<我nline-formula>
在一般情况下,幂律的pdf文件可以被认为是一个统计的价值尺度不变性microposts:时间序列的
幂律PDF (
的另一个特征尺度不变的时间序列的属性<我nline-formula>
的<我nline-formula>
第三个通用功能的复杂性与权力相关法律(
复杂系统具有幂律降低ACF的时间差<我nline-formula>
幂律的存在ACF的时间序列microposts意味着当前microposts数量很大程度上取决于过去的microposts由Twitter,以及信息的缺乏特征倍microposts之前的外观将会丢失。此外,依赖(
这根本上是重要的存在长时间相关性的Twitter的出现。这一事实决定的可能性的出现雪崩的microposts(极值事件)的协调战略导向的网络用户的行为。紧急Twitter属性发生的机理是详细描述部分
首先,相关的Twitter段,包括苏和劳斯,分发microposts有关一个特定的主题,在SOC状态。其次,权力的法律描述大尺度不变性microposts结构时间序列的自组织生成的关键的社交网络。尺度不变性的方法研究被认为是部分的
PDF、PSD、ACF权力法律的形式使其可以使用的范围区间指标<我nline-formula>
在本节的结论,我们注意到,该方法识别网络的复杂性不是基于图结构的统计分析,但在时间序列的统计和分形分析生成的网络。
根据Dorogovtsev和合作者的定义
应该注意的是,巴斯的优惠附件并不是唯一一个无标度网络的机制出现;有几个其他机制(例如,看到的作品(
有很多研究,提出可行性的实证依据方程(
我们建议的方法的优势是什么?
首先,不需要无标度网络划分为几种类型取决于评估的价值指标<我nline-formula>
其次,频谱的使用<我nline-formula>
第三,频谱的使用<我nline-formula>
第四,<我nline-formula>
本节提供了一个简短的概述的使用数据挖掘技术所需的形成时间序列microposts及其统计和分形分析,以及Twitter的评价指标及其复杂性解释。
<年代ec id="sec3.1">最适合挖掘的数据源的Twitter时间序列数据包含tweet id (tweet的惟一标识符)对于不同的事件,如政治选举和自然灾害,是哈佛Dataverse。它包含的数据集的tweet id在12个不同的主题,每个数据集,包括超过200万个独特的tweet id的形式18位数字(例如,1128408193699340294)组合成一个文本文件(. txt)。哈佛Dataverse收集的数据使用社交饲料管理器,它是丰收的开源软件从Twitter社交媒体数据和网络资源。为什么有必要开始使用Twitter id,而不是微博本身,是每个Twitter的开发政策,tweet id可能会公开共享用于学术目的,但微博可能不是。
然而,为了获得Twitter时间序列,有必要水合物tweet id的获得数据集。保湿是加载的过程从微博基于JSON对象可用tweet id。它可以通过使用Twitter的api接口,以及使用第三方应用程序。我们用0.0.3水合器版本软件。根据获得的数据,可以构建用户的交互结构和时间序列的tweet(包括转发和其他提到)。
我们使用以下相关tweet id时间序列事件和主题的形成和随后的统计和分形分析的时间序列microposts:
2016年美国总统大选Tweet id (
女性的Tweet id(3月
项2016年底美国政府推特档案库(
哈维和厄玛飓风Tweet id (
移民和旅行禁令Tweet id (
夏洛茨维尔Tweet id (
2018年冬季奥运会Tweet id (
美国政府Tweet id (
新闻媒体Tweet id (
2018年美国国会选举Tweet id (
第115届美国国会Tweet id (
爱尔兰8日Tweet id (
结果,我们得到了12个等距(步骤1秒)时间序列microposts<我nline-formula>
在我们的研究中,时间序列的分析的主要目的microposts是统计确认声明的经验指标范围的复杂性<我nline-formula>
过渡到简单线性回归的可能性为时间序列的统计分析是由于依赖性的尺度不变性(
ACF的观察时间序列<我nline-formula>
时间序列分析的传统方法依赖于PSD的测量和ACF。然而,只有高斯过程的实现是详尽的描述了他们的第二个时刻。外这样的实现,一个完整的统计描述需要估计的高阶的时刻。此外,高阶的时刻并不总是有这样一个清晰的物理意义为ACF和PSD。因此,评价一个小值的数量可以被赋予一定的意义变得重要。这些价值包括时间序列的分形维数。
分形维数的比例指数密切相关<我nline-formula>
DFA方法是一种有效的方法来分析时间序列的特征的存在长记忆或<我nline-formula>
DFA方法允许这两种估计比例指标的时间序列<我nline-formula>
英足总方法并不总是给指标的正确估计<我nline-formula>
DFA方法的一个算法基于意识形态的过渡从原始时间序列<我nline-formula>
microposts的数值描述不同类型的相关动态,如果<我nline-formula>
表
值的估计microposts的频谱指数时间序列复杂性。
符号“-”表示无统计上显著的DFA估计<我nline-formula>
最重要的背景下,我们的研究结果是存在的两类时间序列microposts和tweet id对应于它们。
第一节课的时间序列<我nline-formula>
第二个类包含的时间序列<我nline-formula>
时间序列的分析结果microposts节
足够的Twitter的自组织临界模型验证指标的法律(
众所周知(例如,看到的作品(
基于从属的协同作用的原理,可以认为Twitter的自组织临界状态是完全由抑制无限的微观行为的自由度由少量的宏观的自由度。因此,社交网络的用户的集体行为是由几个参数定义或自由度:订单参数<我nline-formula>
动力学方程和一个详细的物理证据之间的关系给出了其参数在我们的论文
假设<我nline-formula>
反馈强度指标<我nline-formula>
另一个替代的替代方程(
过渡的意义<我nline-formula>
此外,如果没有指定另外,参数<我nline-formula>
方程(
在绝热近似的特征松弛时间microposts的数量<我nline-formula>
使用Twitter作为一个开放的非平衡系统的绝热方法意味着,当社交网络的价值将由战略面向用户倾向于零(<我nline-formula>
使用绝热近似允许减少相空间的维数,即,从一个三维动态系统的分析与加性噪声(
朗之万方程(
认为社交网络Twitter是自组织成一个临界状态的结果同意苏和劳斯。这样一个饱和网络国家战略面向用户和信息具有以下特点:首先,由面向重要随机战略之间的相互作用强度的用户(<我nline-formula>
因此,方程(
假设均匀过程(
PDF的积分(
PDF(非规范的图
重对数坐标图的分布(
分布(
为了获得PSD分析值和随机过程的ACF (
在数据
PSD的重对数坐标图<我nline-formula>
ACF的重对数坐标图<我nline-formula>
因此,方程(
Twitter的SubC状态是一种混乱的状态,其特征是可以忽略不计的雪崩的存在microposts,因此,<我nline-formula>
因此,SubC Twitter是被下面的朗之万的状态方程:
假设流程(
分布的积分(
分布曲线(
重对数坐标图的分布(
很明显,PDF呈现在图
因此,它是合理的假设进一步提高战略面向社交网络用户的数量一定的临界值<我nline-formula>
Twitter SubC状态能够生成时间序列的microposts相对较小的值。也许,这些时间序列对应于以下微博标识符:“项2016年底美国政府”,“2018年冬季奥运会,”“美国政府”和“新闻媒体”。
如果<我nline-formula>
microposts的数量的分布特征是Twitter的SupC状态呈现在图
重对数坐标图的分布(
此图所示的分布符合幂律PDF。此外,权重分布的反面是由于增加注入网络的战略面向用户。如果Twitter SupC状态,那么苏和的数量,因此,microposts雪崩大小继续增长。
年代ec>结果都是感兴趣的对于识别SubC状态或Twitter的SupC状态对小干扰稳定分析的基础上观察到的时间序列microposts和确定的原因社交网络自组织临界状态。
存在的临界指标<我nline-formula>
很重要的SupC状态的识别网络不需要详细分析微程序级的用户之间的交互。只有一个时间序列的分析microposts光谱中是足够的,不需要进行大量的资源成本。此外,估计<我nline-formula>
之前在SOC状态网络的过渡时间<我nline-formula>
一个监控社交网络状态的方法基于光谱分析,例如,可以有效识别抗议运动的起源,Twitter是一个工具。此外,该方法可以用来研究用户在网络上的活动与政治选举。例如,如果社交网络处于SubC状态和相应的时间序列的microposts可以找到间隔<我nline-formula>
拟议中的现象学社交网络自组织方程(
Twitter的关键州。
SubC状态Twitter是一个典型的社交网络状态。事实上,网络由大量用户<我nline-formula>
必要条件的网络自组织临界状态的出现一定数量的用户<我nline-formula>
由于注入网络的战略导向的用户(<我nline-formula>
它根本上是重要的自组织临界状态发生的结果同意行动用户数量相对较小的一个策略。随机用户不能形成雪崩microposts各种规模的网络。
年代ec>总之,我们制定重要的问题,无法得到的答案在现象学的分析模型(
当讨论到Twitter的自组织临界状态(见节机制
Moriano和合作者状态在他们的论文中(
斯特拉和合作者
Gonzalez-Bailon和合作者
最后,让我们考虑谁可以作为苏或劳斯。应该注意的是,苏的识别和/或劳斯,时间序列分析的microposts是不够的。一个更有意义的情感数据分析等超出了我们的研究范围。
在第一节课,正如我们先前所讨论的,有个苏。在政治选举的情况下,苏可能是网络政治机器人或“僵尸网络”,一致行动和使用Twitter作为一个平台的形成microposts的雪崩。例如,Kollanyi和合作者
然而,它更有趣的考虑可能的用户的本质在第二课。我们的分析显示,只有在这些数据集:劳斯
项2016年底美国政府推特档案库。原来的微博是由3000用户与联邦政府的美国政府机构。我们假设这些用户行为相互不一致和发布内容。没有一致的行为在他们的行动,比如勾结。因此,他们是劳斯。
2018年冬季奥运会。显然,很多不同的用户使用Twitter平台广告内容;然而,所有用户追求他们自己的利益。例如,每个运动员使用Twitter作为自己品牌的广告平台。在这种情况下,他们是劳斯。
美国政府。原来的微博是由3400用户与联邦政府的美国政府机构。以前,这些tweet一般内容和没有统一到一个共同的目标,所以这些用户是劳斯。
新闻媒体。基本的微博是由新闻机构。然而,每个机构都有自己的主题,以及自己的方式呈现的新闻。此外,每个机构促进新闻在不同的时间,有时,支持不同的冲突,例如。我们认为这可能是最合理的描述为什么这些新闻机构是劳斯。
第115届美国国会。原来的微博是由535年,国会成员和他们的官方代表。2018年冬季奥运会的例子,每个成员使用Twitter作为平台来分享他的想法,但他们不是统一到一个共同的目标。在这种情况下,他们是劳斯。
之前报道的Tweet id数据被用来支持这项研究,可以在[
作者宣称没有利益冲突有关的出版。
年代ec>这部分工作是由俄罗斯基础研究基金会资助(批准16-07-01027)。
一个ck>