优化代理选择社会经济地位在Twitter上推理

文摘

个人的社会经济地位推理从在线跟踪是一个非常艰巨的任务。虽然目前的一般方法训练预测模型不完整的数据通过附加的社会经济信息的居民区或专业职业概要,很少有人注意到这些信息如何作为一个代理个人人口统计特征的兴趣当美联储学习模型。这里我们解决这个问题提出了三种不同的数据收集和组合方法首先估计,进而推断出法国Twitter用户从他们的社会经济地位在线语义。我们评估每个代理的有效性测量通过分析预测管道的性能,当训练数据集。尽管依赖于不同的用户集,我们发现培训我们的模型专业职业提供了更好的预测性能比公开的人口普查数据或遥感专家注释的习惯的环境。此外,我们释放我们开发的工具,希望它将提供一个普遍的框架来评估大量的Twitter用户的社会经济地位,以及为科学讨论社会分层和不平等。

1。介绍

在过去十年的出现改变了我们的网络社交服务扩散或获取信息以及我们如何相互作用。每天数十亿人使用这些服务,而渗透在我们的日常生活似乎日益增长。反过来,在线活动生成海量公开数据,对分析、开放的新数据驱动和燃料工业的发展和研究。这些进步导致范式转变营销策略的设计(1),新服务的出现,开门对社会现象数据驱动的推理依赖society-large观察(2]。数字足迹左跨这些多个媒体平台为我们提供一个独特的源来研究人类行为模式的个体层面,例如,了解给定用户的语言表型相关的社会属性,如社会经济地位(SES)。

个人的量化和推理SES社会科学是一个长期存在的问题。这是一个相当困难的问题,因为它可能取决于个人特征和环境变量(3]。有些功能可以更容易评估,比如收入、性别、和年龄而其他人,在某种程度上依赖自我定义,有时与隐私问题纠缠,很难分配像种族、职业、教育水平、或家庭的位置。此外,个人SES与其他个人或网络属性,用户倾向于与他人建立社会联系的SES相似,这种现象称为状态同质性(4),可以说是推动观察社会的分层(5]。同时,共享社会环境,相似的教育水平,社会影响已被证明,共同引领社会经济群体表现出典型的行为模式,比如共享政治观点(6)或类似的语言模式(7]。虽然这些特性是纠缠和它们之间的因果关系还远未理解,他们出现的相关数据。

数据集记录多个特征的人类行为越来越由于数据收集技术的最新发展和日益流行的网络平台和个人数字设备。的自动跟踪在线活动(通常与配置文件数据和元信息),交互动态和移动模式的精确记录收集通过移动个人设备,详细和专家一起带注释的人口普查数据都提供了新的理由个人特性或行为模式的推理(2]。这些数据源的剥削已经被证明是卓有成效的最前沿的推荐系统,先进的健康记录的方法分析,或者成功的预测工具,社会行为严重依赖他们(8]。然而,尽管可用数据,一些推理任务,像个人SES预测,仍然是一个开放的挑战。

SES的精确推理将有助于克服多个科学挑战,可能会有多个商业应用(9]。此外,强劲的SES推理将提供独特的机会来获得更深的洞察社会经济不平等(10,社会分层5,推动网络演化的机制,如状态同质性或社会隔离。

在这项工作中,我们采用了水平方法这个问题,探索不同的方式来推断的SES社交媒体用户的大样本。我们提出不同的数据收集和组合策略使用开放,crawlable或专家带注释的社会经济数据预测任务。具体来说,我们使用了一个广泛的Twitter数据集的1.3用户位于法国,所有与他们的tweets和概要文件相关信息,其中32053已经推断出家里的位置。个人估计SES依靠三个独立的数据集,即社会经济普查数据,爬的职业信息,专家注释谷歌街景图片用户的位置。每一个真实数据集被用作来推断SES Twitter用户的概要文件和语义特征类似于11]。我们的目标是探索和评估社交媒体用户的SES可以获得多少推理问题取决于注释和用户的个人和语言属性。此外,展示我们的力量位置推理方法,我们集团用户分成九个不同的社会经济类识别的可预测性迁移之间的相关性(12定位的用户和他们的社会经济地位。我们观察到随着用户的SES增加,那么他/她的回转半径进而降低了上界可预测性的他/她的下落。

我们提供部分2概述的相关文献了解我们工作的新颖性。节3我们提供的详细描述数据收集和组合方法包括分析Twitter,人口普查,流动性,职业,和家庭位置数据。节4介绍了特征提取的解决SES推理问题,结果中总结部分5。最后,在部分6和7我们结束我们的论文的简要讨论限制我们的方法和观点。注意,本文是部分基于结果发表在进行文献[13),而最近的报告方法的源代码发布(14]。新奇,我们概述以下贡献。(我),我们提出了一个新的分析框架来理解流动性之间的关系和社会经济状况以及它对我们的影响推理任务;(2)我们提供了详细的性能分析住宅位置过滤过程;(3)我们钻研研究预测性能,研究行列式的特征集最推断社会经济地位;最后(iv)我们发布给科学界在这项研究中使用的所有管道来减轻类似数据的收集和研究,以及激励进一步的研究在这个领域。

越来越多的工作在这一领域与人口普查记录,结合网络行为数据和专家注释信息来推断用户的在线服务的社会属性。预测属性范围从容易应税个人特征如年龄(15),或职业(11,16- - - - - -18),更复杂的心理和社会学特征像政治立场19)、个性(20.),或SES [11,21]。

预测特性提出了推断出所需的属性也很多。在Twitter,用户信息可以公开查询范围内的公共API22]。用户特征以这种方式收集,比如配置文件特性,微博的行为,社交网络和语言内容,已被用于预测,而其他推理方法依赖于外部数据源如网站流量数据23)或普查数据(24,25也被证明有效。尽管如此,只有近期作品涉及用户语义有关社交网络在更广泛的背景下,时空信息和个人属性(11,17,18,26]。

在这个框架中,聚合用户空间数据的研究一直在推动人类移动模式的分析特别有用。早期从事移动通信数据集(12,27]表明,个人倾向于回到几个高度经常光顾的地方导致高可预测性在人类旅行模式。后来类似的行为暴露在推特28),使这个社会媒体平台的使用作为一个代理跟踪和预测人体运动。

类似于这个链的研究,用户从在线平台收集的特性也被用于个人人口统计特征的推理。SES的个人语言相关的传统可以追溯到社会语言学的早期阶段,首次表明通过一个人的职业社会地位反映了语言使用方式的决定因素(29日]。这条线的研究最近被lampo等人重新审视研究SES推理问题在Twitter上。在一系列的作品(11,17,18,26),作者应用高斯过程来预测用户收入,职业,基于人口和社会经济类,心理语言学特征,和标准化的工作类别分类,Twitter用户映射到他们的专业的职业。高预测性能证明这个概念收入预测,9种SOC分类精度为55%,82%,二进制SES分类。然而,模型由作者学会了依靠数据集,是手动标记通过注释过程众包通过亚马逊土耳其机器人在一个较高的货币成本。尽管标签数据已经发布,并提供新扩展的基础(15),它有两个潜在的短缺,需要承认。首先,该方法需要访问一个详细的工作分类,在这种情况下,特定的英格兰,这阻碍了潜在的这条线的工作扩展到其他语言和国家。此外,语言与收入管道似乎显示了一些依赖于样本的用户主动选择在他们的Twitter透露他们的职业。特性得到这组可能不会轻易从一个更广泛的样本的Twitter用户。这限制了这些结果的概括不假设一个昂贵的收购一个新的数据集。

3所示。数据收集和组合

早些时候在本研究旨在克服我们的第一个动机限制通过探索替代数据收集和组合方法。我们研究这三种方法来估计SES的Twitter用户使用(a)开放的人口普查数据,(b)爬和手动标注数据在专业技能和职业,和(c)专家注释数据起始位置街景图片。我们这里提供程序的集合,使感兴趣的研究人员引入预测性能和可伸缩性的考虑当感兴趣的开发语言SES推理管道。在下面详细我们展示我们所有的数据收集和组合方法。

3.1。Twitter语料库

我们的中央数据集收集从Twitter,在线新闻和社交网络服务。通过Twitter,用户可以发布和互动,通过“推特”消息长度受到限制。微博可能有几种类型的元数据包括作者的概要信息和发现语言以及何时何地推特发布。用法语写的,具体来说,我们记录90369215条推讯发布格林尼治时间130万用户的时区和格林尼治标准时间+ 1 /一年(2014年8月至2015年7月)(这个数据集的集合是伦理委员会批准举办的学术研究所的作者)。这些tweet通过Twitter得到Powertrack Datasift提供的API的访问速率。使用这个数据集构建其他各种全集。

3.1.1。定位用户

找到用户代表起始位置我们跟着方法发表在30.,31日]。底线,我们集中在127614用户发布至少五个定位微博与有效的GPS坐标,其中至少有三个细胞内有效的人口普查(定义见后),和长时间超过七天。应用这些过滤器我们从定位微博获得了1000064个地点。通过关注定位用户,我们一直与有限的流动性,即。,中间位置之间的距离不大于30公里,微博发布地点和时间,不需要旅行超过130 内允许的最大速度(法国),不超过两秒内三个tweet窗口。我们进一步过滤掉tweet坐标对应位置指的地方(如“巴黎”或“法国”)。因此,我们删除位置不完全对应GPS-tagged微博用户,这是最有可能的机器人。

起始位置估计是最常见的位置为用户在所有坐标她访问了。这样我们获得32053用户,每一个与一个独特的位置。最后,我们收集了最新3200条时间轴的定位用户使用Twitter的公共API [22]。注意,通过应用这些连续过滤器我们获得一个更有代表性的人口基尼指数,表明整体社会经济的不平等,是37.3%之前过滤成为36.4%由于过滤方法,这是接近世界银行报告的价值(33.7%)32]。

来验证我们的结果,我们计算平均每个工作日和周末距离记录用户的位置推断起始位置定义成她的位置贴中最为频繁的位置整体或以外的时间是从早上9点到下午6点(见图1(一)和1(b))。早些时候很相似这昼夜模式显示结果(31日)有两个最大值,大致相当于乘以在工作场所,一个局部最小值由于人们在家里吃午饭下午1点位置张贴在工作日。此外,比较工作日和周末的行为模式时,我们注意到推断起始位置的平均距离似乎较小只在考虑地理位置张贴在周末,最有可能由于缺乏家乡工作通勤在周末。我们发现这昼夜模式更符合早期的结果(31日)当我们考虑所有定位tweet(“所有”图1(一)),而不是只有微博包括“相关的”表达式(“晚上”图1(a))。进一步验证推断家里位置,29389用户我们寻找正则表达式的一个子集的推文被表明在家里(31日),如“在莫伊”、“谣传”,“-”或“努特”。在图1(c)我们展示的时间分布率这个词“-”位置推断回家。这个分布出现峰值大约10点,这是非常不同的总体布局定位微博每天考虑任何位置(见图1(b))。

3.1.2。语言数据

获得有意义的语言数据预处理的推流在几个方面。作为我们的核心问题处理语言的语义,转发不给我们的研究带来任何额外的信息,因此我们默认删除它们。我们也删除任何表达式被认为是语义意义如url,表情符号,提到的其他用户(用@符号),和标签(用#符号)来简化后后处理。此外,文本预处理的最后一步,我们downcased和剥夺了每条tweet的标点符号的文本。

3.2。人口普查数据

第一个方法把SES定位用户建立在一个开放的人口普查数据集法国intraurban水平(收入33]。获得2010年法国税收回报,这是2016年12月公布的全国统计和经济研究所法国(法国国家统计局)。这个数据集收集详细的社会经济信息的个人在人口普查块级别(称为虹膜),它被定义为领土细胞大小不同但对应块的约2000居民,如图2更大的巴黎。对于每个单元格,十分位数的数据记录居民的收入分配。注意,虹膜数据没有提供完全覆盖的法国领土,一些细胞没有报道避免识别个人的(按照目前的隐私法),或避免领土细胞过度的区域。然而,这种限制并不妨碍我们的结果显著,我们只考虑用户发布至少三次有效虹膜细胞,部分将对此进行说明3.1.1。

每个用户关联一个收入值,我们确定了细胞的估计位置和分配他们的中值对应的收入分配。因此我们为每个用户平均获得的社会经济指标,这是按照帕累托法则(分布不均匀34]。这是显示在图6(a),累计收入分配作为人口比例的功能似乎与面积Lorentz-curve对角线正比于社会经济不平等。作为一个例子,图2描绘了2000用户的空间分布与推断在虹膜位置细胞位于巴黎市中心,彩色的平均收入。

3.3。流动性分析

为了进一步评估的有效性的位置分配给社会经济地位,我们研究了流动痕迹产生的定位用户的设置。具体来说,镜像以前的工作(12,28),我们专注于个人轨迹分析的可预测性的访问模式的位置。这样做,因为至少一个用户拥有访问不同的人口普查块,我们计算时间的一部分用户花在前最常访问的位置与用户出现的次数 - - - - - -位置。注意,在上面的定义中, 。这个指标显示了歌曲等。12)是一个上界个人的可预测性。同时,从人口普查细胞定位用户的平均收入推断我们九联系成一个社会经济类(1-poorest 9-richest)遵循社会阶层模型中引入[5]。这个过程各种用户通过他们的收入,需要提供的收入(如图6(一)),并将用户划分为组,每个组代表相同的收入总额。这个分区,由于Lorentz-curve提供的形状,提供了社会经济类与减少规模增加收入,按预期从实际观测理论和其他5,35]。

正如前面指出的(12,28)我们注意到,尽管社会经济类,第一和第二最常访问的地点集中在60 - 74%的地理位置,建议个人微博的高可能性优先从他/她的家庭或办公室28]。此外,通过聚合用户每个社会经济类,一个有趣的趋势被曝光:社会经济等级越高,越低(上界)考虑用户的可预测性是最高的的位置。实际上,当研究有关用户的社会经济地位,我们看到更高的社会经济类,不经常出现在最访问的位置(参见图吗3(a))。这一趋势的可靠性进一步评估重复我们的分析为不同的值 ,总是这下降趋势(见图中恢复3(b))。底层解释这种模式实际上可能在于人的社会经济地位之间的关系以及他们访问地点的多样性。举例来说,更大的多样性可能导致较低的可预测性运动,进而可能导致观察到的趋势。要控制这一点,我们计算平均回转半径 ,描述的典型范围用户的轨迹每个社会经济类,定义为在这里代表时的位置 , 质心的轨迹,然后呢的总数记录用户的位置点。当我们看到在图3(c),似乎增加平均更高的社会经济地位。因此,高SES用户往往比低SES的更多样化的移动模式,进而导致较低的可预测性的下落。这些结果可能与以前的工作(5,36],它解释了这一趋势的积极回报之间通勤去更远的地方更好的工作,同时保持更好的住房条件。结果,推断高SES用户可能不太精确的起始位置由于他们更分散的移动模式和较低的可预测性的下落。这就是为什么我们定义SES推理后作为一个双向推理问题,将用户划分为“富人”和“穷”类。

3.4。占领数据

早期的研究(11,17,18]证明了带注释的职业信息可以有效地获得精确的收入用于个人因此推断出他们的se。然而,这些方法需要有选择性的Twitter用户以及招聘高端昂贵的注释过程的注释,例如,从亚马逊土耳其机器人。我们的目标是获得一组通用的Twitter用户的职业没有注释器的参与,但通过收集的数据并行在线服务。

第二种方法来估算SES,我们把样品LinkedIn Twitter用户提到他们的37)配置文件URL的Twitter或在他们的微博。使用这些指针我们收集专业概要描述从LinkedIn依靠自动爬虫主要用于搜索引擎优化(SEO)任务(38]。我们获得4140 Twitter和LinkedIn用户所有相关的职称、专业技能和概要的描述。除了处理结构化数据的优势,专业信息从LinkedIn比Twitter的更可靠提取由于高度的社会监督每个概要暴露(39]。

将收入与LinkedIn Twitter用户概要文件,我们与他们与给定的薪水根据他们的职业和一个occupational-salary报道法国国家统计局提供的分类表(40]。由于模糊的命名工作和承认永久/永久性的,高级/初级合同类型我们跟着三个匹配策略。在40%的情况下,我们直接相关的报道头衔正则表达式占领。在50%的情况下,我们使用字符串排序方法(41)把报道和官方职业的名字和至少90%的比赛。剩余的10%的用户我们直接检查配置文件。估计工资反映了预期收入的分布异构性问题,如图6(a)。用户最终被分配到两种SES类基于他们的工资是否高于或低于平均值的收入分配秩序。还请注意,LinkedIn用户可能并不代表整个人口。我们讨论这个问题和其他类型的潜在的偏见6。

3.5。专家带注释的位置数据

最后,出于最近的遥感技术,通过分析我们试图估计SES推断家周围的城市环境的位置。类似的方法最近报道的遥感社区(42)来预测一个给定的社会人口特征社区通过分析谷歌街景图片检测不同的车型,或预测在城市地区的贫困率在非洲从卫星图像43]。由这条线的工作,我们估计的SES定位Twitter用户如下。

3.5.1。预选的位置

使用定位用户中标识部分3.1.1,我们进一步过滤他们获得一组较小的用户提供更精确的推断家的位置。我们检查所有的事业部tweet和寻找正则表达式决定是否在家发送一条微博(31日]。节中解释3.1.1,我们利用“home-suspected”表情似乎与一个特定的时间分布(见图1(c)),因为使用这些表达式在夜间当用户在家里。这个选择了28397用户经常提到“home-suspected”表达式在推断的家中的位置。

3.5.2。城市/居民区的识别

为了过滤掉的位置不是在城市居民区,我们通过谷歌地图静态API下载(44)在一个卫星视图半径在每个坐标(示例见图5(a))。区分住宅和非住宅领域,我们建立在土地利用分类器(45)使用加州大学默塞德航空影像数据集(46]。这个数据集包含2100个256×256 空中RGB图像超过21类不同的土地用途(一双样品图片见图5(b))。对土地利用进行分类,CaffeNet架构是训练有素的,精度达到95%以上。在这里,我们实例化一个ResNet50网络使用keras(47]pretrained ImageNet (48),所有层除了过去五被冻结了。然后网络训练与10倍交叉验证准确率达到93%后100时代(cf图4)。我们使用这一模型来估计的分类图像起始位置卫星视图(cf图5())和保留那些被确定为居民区(见图5(b),显示一分之二的激活隐藏层的训练模型)。这样,5396推断家里的位置被丢弃。

3.5.3。与专家注释SES起始位置数据

接下来,我们旨在估计SES从建筑/城市功能与家庭相关的位置。考虑到我们的目标是依靠社会经济标签没有估计的人口普查,我们丧失使用深度学习模型来推断SES依赖人类的注释。因此,对于每个家庭位置我们收集了两个额外的卫星视图在不同的决议以及六个街景图片,每个大约水平的看法。我们随机选择的样本1000个地点和参与架构师分配SES评分(从1到9)一组样本的选择位置基于周围的卫星和街景(样本有333个重叠的位置)。进行验证,我们把用户从每个注释SES类和计算他们的收入的分布推断从虹膜普查数据(见部分3.2)。小提琴的情节在图5(d)显示,在专家注释数据,正如所料,推断收入值呈正相关的注释SES类。标签被分为两个社会经济类比较的目的。总之,两个注释器分配相同的标签重叠位置在81.7%的样本。

解决SES推理问题的描述三个数据集(我们使用汇总见表1)。我们定义推理任务作为一个双向分类问题除以每个数据集的用户组分为两组。普查和占领数据集较低和较高的SES类分离的平均收入计算整个分布,而在专家注释数据的情况下我们分配人们从最低的五SES标签低SES类在双向任务。人的相对分数分配给这两个类是描绘在图6(b)为每个数据集和总结在表1。


	人口普查	占领	专家

大小
SES低
高SES

4所示。特征选择

使用用户个人信息和tweet来自每个账户的时间,我们建立了一个为每个用户的特性集,类似于lampo et al。11]。我们分类特征分成两个组,一个包含浅特性的直接观测到的数据,而另一个是通过管道获得的数据处理方法来捕获用户语义特性。

4.1。用户级的特性

用户级的特性是基于普通用户信息或聚合数据推(17]。因此我们包括通用顺序值等的数量和速度转发,提到,粗粒度的社交网络用户的信息(数量的朋友、粉丝和朋友比粉丝)。最后我们向量化每个用户的概要描述和微博,选择450年至560年期间,掉落和2克,分别观察到通过自己的账户(在给定掉落的秩估计通过tf-idf(49])。

4.2。语言特征

表示文本信息,除了单词计数数据,我们使用主题模型编码粗粒度的信息用户的推文的内容,类似于(11]。这使我们很容易解释语义之间的关系和社会经济特征。特别地,我们开始通过培训word2vec模型(50)成套的tweet(2014 - 2015年的时间框架中获得)通过使用skip-gram模型和负采样参数类似于(15,17]。扩大规模分析,嵌入维数是保持在50。这在初始数据集在一个嵌入式的话向量空间。

最终我们提取的话题通过运行一个词到一个词相似度矩阵的谱聚类算法与词汇量的大小和元素定义为余弦相似性词向量。在这里是一个向量的单词在嵌入, 向量的点积,是规范的一个向量。这个定义集群允许负矩阵中的条目,在我们的案例中是被设置为null。这是一致的目标聚类过程负相似之处不应编码之间的不同对单词但是嵌入之间的正交性。这个过程运行50、100和200集群和允许文字的均匀分布在集群(硬聚类)。最好的结果与100年主题主题模型。最后,我们手动标记话题根据分配给他们的话,计算一个话题到另一个话题相关矩阵图所示7。块对角化后,我们发现明显相关的主题可以与更大的局部通信等领域,广告,或者足球。

因此我们可以计算一个代表性的主题为每个用户分配,定义为一个向量归一化的使用频率从每个话题的单词。还要注意,给定用户的主题分布自动获得,它只取决于组tweet和学习主题集群没有进一步的参数化。

展示方面的歧视所确定的主题是如何与每个用户相关的SES的用户我们9等分相对应的收入分配统计值块的起始位置和计算为每个标签主题的用户平均收入取决于他们是否提到了给定主题。结果在图8证明主题相关政治、技术、或文化讨论高收入的人,而其他主题相关的俚语,侮辱,或非正式的缩写更使用的收入较低的人。这些观察到的差异之间的平均收入的人,使用(或不)字从歧视主题,展示良好的潜力词主题集群用作SES的推理功能。总之,每个用户在我们的数据集被分配1117特征向量编码词法和语义profile她在Twitter上显示。我们不适用任何进一步的特征选择的分布特性出现,而光滑的重要性(这里没有显示)。它没有提供明显的方法来识别一套明确的特别行列式的特性,而是表示,他们的结合是重要的。

5。结果

为了评估的语言特征可以用于识别用户的社会经济类,我们与这些特性集训练不同的学习算法。也就是说,我们使用了XGBoost算法(51),gradient-boosted决策树的一个实现这一任务。培训决策树学习算法涉及到一代的一系列规则,分割点或节点命令在一个树状结构,使目标输出值的预测基于输入特性的值。更具体地说,XGBoost,作为一个整体技术,单独训练通过按顺序添加大量的弱,但互补的分类器产生一个健壮的估计量:每一个新的模型是建立最大限度地与相关的损失函数的负梯度模型组装(52]。评价该方法的性能基准测试它对更多的标准整体学习演算法等算法,逻辑回归、支持向量机和随机森林。

对于每一个社会经济数据集,我们训练模型通过使用75%的可用数据训练和剩下的25%进行测试。在训练阶段,接受的训练数据 - - - - - -内部交叉验证,折叠 ,所有分裂计算以分层的方式来达到同样的比率较低的高SES用户。一分之四块被用于内部培训和其余的内部测试。这是为每个模型重复10次,这样最后每个模型的性能验证集平均50多个样本。对于每个模型,参数调整训练500个不同的模型在上述分歧。选中一个是平均提供了最佳的性能,并应用于伸出测试集。然后重复通过5倍交叉验证。

的预测评分,我们遵循一个标准过程在文献[53)和评估学习模型,考虑到接受者操作特征曲线下面积(AUC)。这个指标的概率可以被认为是一个标识符排名高于随机选择一个随机选择的正面实例- 1 (52]。这个过程是适用于我们每一个数据集。结果如图所示9和表3。

因此,我们第一次观察到XGBoost一贯提供最高预测分数相比演算法和随机森林(所有考试成绩表进行了总结2)。我们因此它用于预测在这项研究的其余部分。我们发现LinkedIn数据是最好的 ,训练一个模型来预测SES的人根据他们的语义特征。它提供了性能相比增加10%人口普查基础上的推理 ,和19%相对于带注释的数据与专家。因此我们可以得出结论,似乎有一种之间的权衡可伸缩性和预测质量,而占领数据集提供了最好的结果,似乎不太可能接受任何升级的高成本获得干净的数据集。依靠位置估计SES似乎更有可能受益于这种方法,尽管数量的增加为代价的贴错了标签,用户的数据集。此外,SES使用街景的注释器的估计在每个家庭的位置似乎阻碍了城市大变化的特性。注意,即使interagreement是76%,科恩kappa评分的注释器interagreement低点0.169。此外,我们评论专家注释管道也受噪声影响起始位置估计,这可能导致最低的预测性能。


	人口普查	占领	专家

演算法
物流Reg。
支持向量机
随机森林
XGBoost


数据集	SES类	性能测试集
数据集	SES类	精度	回忆	F1-score

人口普查	低	0.652	0.596	0.624
人口普查	高	0.628	0.682	0.652

LinkedIn	低	0.700	0.733	0.717
LinkedIn	高	0.735	0.702	0.720

架构师	低	0.622	0.598	0.607
架构师	高	0.550	0.573	0.556

我们也报告顶部和底部5主题按其重要性排名XGBoost模型训练时表现最好的代理,即。职业(见图10)。也许不足为奇的是,主题相关专业职业的认可的模型作为最重要的。然而,语法仍然是一个重要的特性。此外,主题与特定的社区(德国/土耳其)或一般利益(足球)似乎不那么有用的SES歧视。这反过来可以解释为个人使用的稀疏或相反,通过用户的广泛讨论。

最后,它还应该指出,最近的工作由Aletras和张伯伦(26),我们测试了我们的模型通过扩展的功能集node2vec嵌入用户从Twitter的共同提到图计算。然而,在我们的设置中,它没有显著增加的整体预测推理管道的性能。我们因此不包括它的特性集为了简单起见。

6。限制

在这个工作我们合并多个数据集从各种来源收集。每个人都带着一些偏见由于数据收集和后处理方法或不完整的一组用户。这些偏见可能会限制我们的推理的成功;因此,他们的身份是重要的解释和未来发展的框架。

(我)位置数据。虽然我们设计了非常严格的条件的精确推理家定位用户的位置,这一过程可能有一些不确定性由于异常行为。进一步偏见可能诱导之间的相对较长的时间通过张贴的位置数据和微博用户的集合。

(2)人口普查数据。我们已经提到过人口普查数据没有覆盖整个法国的领土,因为它只报告细胞有近2000居民。这可能会引入偏见在两个方面:通过限制在我们的样例的人数生活在农村地区,通过将收入与大变化来每一个细胞。前者限制了边际效应在我们的预测,Twitter的用户大多居住在城市地区,我们解决后者的效果相关联的用户平均收入位于给定的细胞。

(3)职业数据。LinkedIn作为一个专业的在线社交网络使用的主要是人,业务,管理,市场营销,或其他专业领域,通常与高等教育水平和更高的工资相关联。此外,我们只能观察用户在Twitter上分享他们的专业资料,这可能会进一步偏见我们训练集。occupational-salary分类而言,这些数据在40)收集在2010年因此可能不包含最近的职业。这些偏见可能诱发限制在训练数据的代表性,因此预测的精度。然而,结果基于该方法SES注释表现最好的测量,表明职业是SES的最有预测力的特性之一,据报道在[11]。

(iv)注释家的位置。遥感注释是由专家和他们的评价是基于视觉检查和一些不可避免的主观偏见。虽然他们的注释是交叉引用和发现是一致的,他们仍然包含偏见,像over-representative中产阶级,某种程度上影响了他们的预测任务基于这个数据集。

(v)不同的用户。我们方法依靠nonentirely重叠用户集时转向SES推理使用职业数据,普查数据,或者远程感知值作为代表个人的社会经济地位。结果无疑是与个人的集合中使用每个数据集,这可能影响区别的分析推理的优点,每个代理提供的任务。另一方面,由于相同的收集过滤器和预处理条件下,用户在这些子集可能被认为是足够相似能够提供的性能不同的方法进行比较。

尽管有这些缺点,使用所有三个数据集,我们可以推断出SES接近早些时候公布的业绩表现,这是基于更彻底地注释的数据集。使用开放的结果和我们的方法,遥感数据crawlable或突出的潜力提出了方法。

7所示。结论

在这个工作我们提出了一个新颖的方法的推理SES的Twitter用户。我们构建模型结合从许多来源获得的信息,包括Twitter在内的人口普查数据,LinkedIn,谷歌地图。我们开发了起始位置推理从地理位置的精确方法,遥感图像的小说注释的生活环境中,有效的组合来自多个来源的数据收集。新奇,我们证明了,在法国Twitter空间,利用不同的主题类别的词,确定通过tweet的高级语义分析,可以区分不同收入的人们和移动模式和可预测性强烈依赖于用户的行踪SES的人。此外,我们表明,候选人之间的社会经济代理选择,使用职业数据最好的结果。更重要的是,我们提出了一个概念验证,我们的方法是竞争的SES推理相比其他方法依赖于特定领域的信息。我们可以确定几个我们的未来的发展方向和应用工作。首先,进一步发展数据遥感信息的注释是一个有前途的方向。注意训练后,我们的模型需要输入只能收集到的信息全部来自Twitter,不依赖其他数据源。这个拥有巨大的潜在SES推理更大的Twitter用户,进而打开车门研究解决人口水平相关性的SES语言,空间,时间,或者社交网络。 As such, our methodology has the merit not only of addressing open scientific questions, but also of contributing to the development of new applications in recommendation systems, in predicting customer behavior, or in online social services.

数据可用性

为了维护严格的隐私法在法国以及与我们的数据提供商GNIP签署的协议,充分披露的原始数据集是不可能的。包含数据收集和预处理的GitHub库管道是可用的https://github.com/jaklevab/TWITTERSES。

的利益冲突

作者宣称没有利益冲突。

确认

我们感谢J-Ph。Mague j]。Chevrot, d . Seddah d . Carnino, e . De La Clergerie建设性的讨论和建议的数据管理和分析。我们感谢Altneder和m . Hunyadi贡献专家建筑师数据注释。手稿在2018年IEEE 18国际会议上提出了数据挖掘、IWSC 18第二国际社会计算研讨会(2018年11月17日)。这项工作得到了SoSweet ANR项目(ANR - 15 - ce38 - 0011),主题Stic-AmSud项目(18-STIC-07)和学者项目由国际防务展里昂。

引用

迈尔·舍恩伯格和k . Cukier大数据:一场革命,将我们如何工作,生活,和思考,2012年约翰·穆雷。
雷泽,d . a . Pentland l .亚当的et al .,“网络上的生活:未来计算社会科学的时代,“科学,卷323,不。5915,721年,页2009。视图:谷歌学术搜索
k·d·诉Liere和r·e·邓洛普”环境问题的社会基础:回顾假设,解释和实证的证据,”公众舆论的季度,44卷,不。2、181 - 197年,1980页。视图:出版商的网站|谷歌学术搜索
m·麦克弗森l . Smith-Lovin和j·m·库克“鸟类的羽毛:同质性在社交网络上,“年度回顾社会学,27卷,不。1,第444 - 415页,2001。视图:出版商的网站|谷歌学术搜索
y Leo, e .百合花纹的j . i Alvarez-Hamelin c·纳塔和m . Karsai“社会经济相关性和分层在社交网络中,”《英国皇家学会界面,13卷,不。125年,文章ID 20160598, 2016。视图:出版商的网站|谷歌学术搜索
j·l·Brown-Iannuzzi k . b . Lundberg,麦基,“社会经济地位的政治:社会经济地位如何影响政治态度和参与,”目前心理学观点卷。18日,11 - 14,2017页。视图:出版商的网站|谷歌学术搜索
j·l·Abitbol m . Karsai j . Mague j . Chevrot和e .百合花纹的“社会经济依赖语言模式的twitter:多变量分析,”万维网研讨会论文集(TheWebConf 18),页1125 - 1134,法国里昂,2018年4月。视图:出版商的网站|谷歌学术搜索
m·库辛斯d史迪威将军,t . Graepel是“私人特征和属性是可预测的数字记录的人类行为,”美国国家科学与美利坚合众国,卷110,不。15日,第5805 - 5802页,2013年。视图:出版商的网站|谷歌学术搜索
y Leo, m . Karsai c·纳塔,e .百合花纹的“相关性的消费模式和动态社会经济网络,”社会网络分析和挖掘,8卷,不。1,p。9日,2018。视图:出版商的网站|谷歌学术搜索
t . Piketty“资本在21世纪,”2014年。视图:谷歌学术搜索
d . Preoţiuc-Pietro美国茱莉亚,诉lampo y Bachrach, n . Aletras l·a·布劳恩斯坦,“用户收入通过语言学习,行为和影响在社交媒体中,“《公共科学图书馆•综合》,10卷,不。9篇文章ID e0138717 1卷,2015页。视图:出版商的网站|谷歌学术搜索
c .歌曲,z: Blumm, A.-L。巴斯”限制人类的机动性,可预见性的”科学,卷327,不。5968年,第1021 - 1018页,2010年。视图:出版商的网站|谷歌学术搜索
j . Levy Abitbol m . Karsai, e .百合花纹的“位置、占领和基于语义的社会经济地位在twitter上推断,”诉讼18国际会议上的数据挖掘(IWSC 18)和第二国际社会计算研讨会(ICDMW 18)2018年11月,页1192 - 1199。视图:出版商的网站|谷歌学术搜索
j·l·Abitbolhttps://github.com/jaklevab/TWITTERSES,2019年。
b·p·张伯伦c .猫和m . Deisenroth检测twitter用户的时代,2016年,https://arxiv.org/abs/1601.04621。
马萨诸塞州理工学院,h·肖,j·罗和t·t·阮“你推特的语言说什么关于你的职业,”第十届国际AAAI网络和社会化媒体会议上,2017年。视图:谷歌学术搜索
诉lampo: Aletras, j . k . Geyti b .邹和j·考克斯,”推断社会媒体用户基于行为的社会经济地位和语言,”先进的信息检索课堂讲稿,在计算机科学中,页。689 - 695年,激飞国际出版,2016年。视图:出版商的网站|谷歌学术搜索
d . Preoţiuc-Pietro诉lampo, n . Aletras”通过Twitter用户职业类的分析内容,”53的程序计算语言学协会的年度会议,第1764 - 1754页,北京,中国,2015年7月。视图:出版商的网站|谷歌学术搜索
美国茱莉亚,g .铜匠,b . Van Durme“推断用户从流媒体通信、政治倾向”52年会上的程序计算语言学协会(ACL的14)2014年6月,页186 - 196。视图:谷歌学术搜索
h·a·施瓦茨j . c . Eichstaedt m . l . Kern et al .,“人格、性别和年龄在社会媒体的语言:open-vocabulary方法,”《公共科学图书馆•综合》,8卷,不。9篇文章ID e73791,硕士论文,2013页。视图:出版商的网站|谷歌学术搜索
美国罗,f·马龙,c·纳塔m . Travizano和h·a·Makse”推断个人经济地位从社交网络位置”自然通讯ID 15227条,卷。8日,2017年。视图:出版商的网站|谷歌学术搜索
Twitter API的开放,2018年,https://developer.twitter.com/en/docs.html。
a . Culotta n·k·拉维,j·卡特勒”从网站流量预测Twitter用户的人口统计数据,”人工智能学报AAAI会议,2015年1月。视图:谷歌学术搜索
j .艾森斯坦b·奥康纳:a . Smith, e . p .邢和r·c·贝里克“词汇扩散改变社会媒体,”《公共科学图书馆•综合》,9卷,不。11条ID e113114 1-13, 2014页。视图:出版商的网站|谷歌学术搜索
答:略伦特,m . Garcia-Herranz m . Cebrian e·莫罗和y莫雷诺,“社交媒体指纹的失业,”《公共科学图书馆•综合》,10卷,不。5,1-13,2015页。视图:出版商的网站|谷歌学术搜索
n Aletras和b·p·张伯伦”预测twitter用户与网络社会经济属性和语言信息,“29日的诉讼超文本和社交媒体, 2018年。视图:谷歌学术搜索
m·c·冈萨雷斯,c·a·伊达尔戈,A.-L。巴斯“理解人类个体移动模式。”自然卷,453年,第782 - 779页,2008年。视图:谷歌学术搜索
m·r·Jurdak k .赵j . Liu AbouJaoude m·卡梅隆和d . Newth“理解人类流动从Twitter,”《公共科学图书馆•综合》,10卷,不。7日,2015年。视图:谷歌学术搜索
b·伯恩斯坦“语言和社会阶层”,英国杂志《社会学,11卷,不。3、271 - 276年,1960页。视图:出版商的网站|谷歌学术搜索
r·康普顿d更加与众不同,d·艾伦,”地理标记一亿Twitter账户总变异最小化。”IEEE国际会议上大数据,2014年。视图:谷歌学术搜索
t·胡j .罗h . Kautz, a . Sadilek”从稀疏和嘈杂的数据起始位置推断:模型和应用程序,”前沿的信息技术和电子工程,17卷,不。5,389 - 402年,2016页。视图:出版商的网站|谷歌学术搜索
基尼指数世界银行,2010年,https://data.worldbank.org/indicator/SI.POV.GINI?locations=FR。
法国国家统计局、Revenus pauvrete et水平vie en 2014年,2017年,https://www.insee.fr/fr/statistiques/3288151/。
诉帕累托,“政治经济学手册”,1971。视图:谷歌学术搜索
p·桑德斯,“社会阶级分层,”劳特利奇,2006年。视图:出版商的网站|谷歌学术搜索
y, a . Belyi Bojic, Ratti和c,“人类活动和社会经济地位:分析新加坡和波士顿,”电脑、环境和城市系统卷。72年,51 - 67,2018页。视图:出版商的网站|谷歌学术搜索
LinkedIn, 2018年。
LinkedInHelper, 2016,https://linkedhelper.com/。
p . Manzanares-Lopez j.p. Munoz-Gea, j . Malgosa-Sanahuja”分析linkedin的隐私设置:他们是充分的,不足还是未知?“在学报第十Web信息系统和技术国际会议(WEBIST 14),1卷,第293 - 285页,2014年4月。视图:谷歌学术搜索
法国国家统计局,”莱斯salaires在secteur prive Les企业publiques,”2010年,https://www.insee.fr/fr/statistiques/2122237/。视图:谷歌学术搜索
序列匹配器Python库,2017年。
t . Gebru j . Krause y王et al .,“使用深度学习和谷歌街景估计全美社区的人口构成,“美国国家科学与美利坚合众国,卷114,不。50岁,13108 - 13113年,2017页。视图:出版商的网站|谷歌学术搜索
n .琼·m·伯克·m·谢·w·m·戴维斯·b·罗贝尔和s . Ermon”结合卫星图像和机器学习来预测贫困,”科学,卷353,不。6301年,第794 - 790页,2016年。视图:出版商的网站|谷歌学术搜索
谷歌地图静态API, 2018年,https://developers.google.com/maps/。
m . Castelluccio g . Poggi c桑松,l . Verdoliva土地利用分类的遥感图像卷积神经网络,2015年,https://arxiv.org/abs/1508.00092。
2017年加州大学默塞德土地利用数据集,http://weegee.vision.ucmerced.edu/datasets/landuse.html。
f . Chollet et al . Keras。https://keras.io,2015,访问日期:2018年11月。
j·邓、w .盾和r . Socher“ImageNet:大规模的分层图像数据库,”《IEEE计算机学会学报计算机视觉与模式识别会议(CVPR ' 09),页248 - 255,迈阿密,佛罗里达,美国,2009年6月。视图:出版商的网站|谷歌学术搜索
j . Leskovec a拉,j . Ullman矿业的大规模数据集》,剑桥大学出版社,2014年。
g . t . Mikolov k . Chen拉和j·迪恩,有效评估词表示的向量空间,2013年https://arxiv.org/abs/1301.3781。
t·陈和c . Guestrin“XGBoost:可伸缩的树增加系统,”22 ACM SIGKDD学报》国际会议上知识发现和数据挖掘,2016年。视图:谷歌学术搜索
l . Torlay m . Perrone-Bertolotti e·托马斯和m . Baciu”机learning-XGBoost语言网络对癫痫患者进行分类,分析”大脑的信息,4卷,不。3、159 - 169年,2017页。视图:出版商的网站|谷歌学术搜索
j·福斯特,t .教务长,r . Kohavi”案精度估计的比较归纳算法,”学报》第15届国际会议上机器学习(ICML ' 98),页445 - 453年,旧金山,加州,美国,1998年。视图:谷歌学术搜索

复杂性