文摘

本文旨在评估和比较个人的季节性登记行为在上海,中国,使用基于位置的社交网络(LBSN)数据和各种时空分析技术。这篇文章展示了使用基于位置的社交网络的数据通过分析趋势签到整个任期三年对健康的目的。我们从新浪微博获得了地理位置数据,最大的一个著名的中国微博(微博)。由数据转换为地理信息系统(GIS)类型和评估使用时间统计分析和空间统计分析使用核密度估计(KDE)评估。我们有各种机器学习算法和训练模型,最后应用满意顺序模型结果,因为我们主要是在别人的准确性。事实的位置编目完成通过使用物理特征的地方。研究结果表明,游客的空间操作比居民强烈的空间操作,尤其是在市中心。然而,当地人还参观了边远地区,游客的时间行为显著不同,公民的运动表现出更稳定的稳定的行为。这些研究结果可用于目的地管理、地铁规划和数字城市的创建。

1。介绍

模式挖掘,得到有意义的愿景从时空数据已经成为一个重要的研究主题在随后几年。由于各种可能的用途的基于位置的社交网络(LBSN)目前,合成材料已经明显相关,尤其是从实用观点。城市娱乐场所,例如,与振兴市中心的纹理和社会经济增长,随着增加本土经济和活泼1,2]。然而,它可能会面临很多问题,包括安全的游客和居民之间的社会联系1]。过度的娱乐活动会减损各种城市地方游客和居民的吸引力(3),也许超过居民的承受力,导致大量的困难(4]。全国家庭表达了类似的情感,指责游客污秽等刺激,噪音,拥挤在咖啡馆、酒吧、公共交通(5]。因此,它是至关重要的,定期检查游客行为和行为来处理这些问题和更好的准备。

在现代,大量数据从每个个体的LBSN和微信一样,Twitter, Facebook,和微博由于增加智能设备的可用性,提供地理位置(经度和纬度)以及其他人口统计信息对人类行为等社会媒体活动,短信和电话5]。鼓励研究人员一直在研究各种各样的困难,由于大量的数据产生真正的模型展示事物的时空传播。一般居民包括人们的内容由于其活动和实践LBSNs通过各种智能工具,记录客户的日常工作和地点。

我们可以看到行为变化在人们的睡眠时间在整个全球,以及来自世界不同地区的公民如何花费他们的冬季和夏季假期,等等,通过收集这些数据的细节和检查它每时间,社会和地理空间的元素。在1960年代,太空研究和城市行为开始出现,主要集中在人口地理分布(6)和地理的改善随着时间的推移。他们理解人类的行为,土地使用,和长期的关系。我们的研究鼓励城市的行为活动利用LBSN数据在这次考试城市运动的空间和行为。研究基于日常城市活动在时间和空间上目前正在进行(7]。生存空间,例如,被称为一个家(生活空间的空间组织和多样性)(8),和一个工作站被称为一个专业。运动娱乐休闲空间(关注时间的发展特点,休闲区(9),和一般的娱乐空间选择和课程的活动)10,11]。根据上述研究,LBSN数据集文件用户的日常生活、活动模式,和社交媒体使用行为和提供了地理和时间模式和动态连接到普通的例程和用户的行为。

城市的持续快速城市化也反映在LBSN数据集。在一个方向,简单假设是人们遵循常规的日常工作,如去上班,吃最喜欢的餐厅吃饭,并通过购物回家;近年来,在在线社交网络快速扩张(OSNs),导致大量数据的发展,让我们大数据,数据收集和调查部门数量是至关重要的问题。最初,个人电脑访问社交网络服务的唯一方法(社交网络)12]。用户现在可以探索在有限的空间和他们的社会网络在移动,由于“智能”移动设备技术的提高。提供用户访问社交网站在圣人设备与“朋友”让他们与我们联系时,更轻松地从任何位置,和可访问性(13]。

社交媒体的使用已经在与上升同步使用手机和互联网,扩大了人们的能力转移到其他地方在整个宇宙。社交网络平台通常接受消息,电子邮件,微博,和许多其他类型的沟通,鼓励个人来自宇宙沟通(14]。移动设备技术的发展和智能手机的广泛使用在当前历史,地理定位能力发生了大量的革命,推动消费者使用基于位置的服务(lbs),最终的上升和采用磅(15]。因为LBSNs的集成技术推动了增长,伦敦商学院交换数据的用户对他们的做法和重点,以及“与谁,什么,为什么,”他们分享这些信息。

OSNs演变成LBSNs随着时间的推移,用户需要更改,允许用户沟通他们现在的位置(地理位置)。的第一块LBSN研究使用(16看着个人为什么以及如何利用它们。Noulas [17LBSNs]提供了一个实证分析,而Scellato et al。18]目前调查LBSNs的时空特性。研究人员LBSNs很感兴趣,因为他们的共享用户的位置和活动能力。不同形式的研究可以做这些服务提供的数据,从给时空信息来获得更深层次的知识,使用趋势(研究的范围)。

KDE的方法用于空间模型地理定位数据,提供更广泛和更多样化的模式密度评估(19]。KDE技术是众所周知的评价空间点模式。在许多情况下,KDE和空间可调带宽优先与不变的带宽KDE。然而,建立自适应KDE带宽是高度计算昂贵,特别是对于大样本点模式分析。我们使用密度估计地图展示多元密度的影响(KDE)这项工作。我们挖掘微博数据与KDE说明用户的登记模式。我们检查了几个组件LBSN数据来确定入住频率比变化娱乐场所和调查密度在上海一段时间。

利用LBSN数据,我们检查登记行为在10上海地区:长宁,宝山,Jingan,黄埔,虹口、普陀、杨浦、闵行、徐汇、浦东新区。十区选择这些的主要原因是因为这些都是连接到上海市中心。我们使用一个数据集从微博对我们真正的调查,中国最重要的社交网络之一。在我们的贡献,入住的游客密度试验常见的上海居民为定期面向率和时间行为和性别差异。这项研究可能有助于在各个领域,如城市功能,娱乐研究、城市可持续发展、增长、反应和备份,这取决于人群密度在大都会和即将到来的在这些地区工作。

1.1。研究区和数据集

上海,中国(30°40之间 - - - - - -31°53 N和120°52 - - - - - -122°12 E[37岁46])是地处长江三角洲的东部边境(20.- - - - - -22]。上海的总大小为8359公里2,其国内生产总值(GDP)在2018年是4800亿美元(美元)。研究区域如图1

2016年上海分为16个区:一个国家(崇明)和15个选区(奉贤、闵行、黄埔、Jingan普陀、虹口、金山、长宁、嘉定、松江、青浦、宝山、杨浦、徐汇、浦东新区)(23]。本研究认为上海的十区(宝山、徐汇、长宁、黄埔、闵行、静安、杨浦、普陀、虹口、和浦东新区)。长宁、黄埔、普陀、虹口、徐汇、静安、杨浦都位于浦西(黄埔西)。这七个地区共同认为是上海的市中心。该研究的数据来自中国微博“微博。“这种基于地理位置的网络地方重视协调与地理空间汇集用户的当前位置,这是现实世界的坐标由客户提供。用户加入签名的程序,就像在任何其他LBSNs,网络上的聊天。微博是中国顶级流行LBSNs之一,有一个指数激增活动和识别后立即推出8月14日,2009年,已经有成熟了。我们选择那些不仅是中国最大的微博记录LBSN但也有大量的地理数据的许多技术和提供多种社会功能吸引用户在定期检查。微博报道,超过5亿定期记录用户使用该网站在2018年,2018年12月每天拥有4.62亿用户。 The most current authorized estimate of the figure of everyday active subscribers was 1 trillion in 2018.

因此,我们必须专注于用户使用程序定期调查用户活动模式。收集的数据通过使用LBSN应用存在严重的隐私恐惧和实施重大的严格限制。在中国,这是很难找到开放的和值得信赖的geolocation-based数据。本文的LBSN数据集是来自微博2014年7月至2017年6月。微博提供了一个可以通过微博访问空geodatabase API,用Python写(24]。

因为微博公共geodatabase数据集包括用户id、日期、时间、地理位置(经度和纬度),分类,地区。由于客户的保密,没有机密信息是可用的。登记数据追踪用户的日常运动和行为模式,反映了普通人的日常生活活动25]。上海被认为是为研究地点,因为它有一个高频率的签到和涉及的客户。从2014年7月到2017年6月,138228签到聚集在上海行政边界使用应用程序编程接口(API)。微博数据提取去除噪音,模仿用户,不正确的条目。解决问题的独特性和数据集的相关性,以下参数被用于数据准备和清洁:(我)数据的地理位置位于上海(2)每个记录的要求有一个用户ID和地理位置(经度和纬度)

鉴于异构性问题,是十分关键的限制用户活跃人们的样本实现更大程度的预测价值。表1显示的用户ID,经度和纬度,从我们的研究中使用的数据集。

2。方法

2.1。数据采集和准备

数据收集和存储阶段的至关重要的目标是获得一个巨大的数量的事实。使用基于python应用程序编程接口(API),数据收集活动中收集的数据传输在不同的JavaScript对象表示法(JSON)文件布局。图2描述了数据采集过程流。

JSON是一种小型的数据交换格式,发送数据对象使用人类可读的语言,而Java是一种面向对象的编程环境(26]。数据转换为单个文件在CSV(逗号分隔值)风格进行进一步的处理和分析使用指定的软件。所有的参与者的细节,包括地理位置,可以列出保存在数据库中。在CSV风格我们收集数据,然后使用一个标准的相关性结果。图3图描绘了标准。

3所示。顺序模型

转换后的数据和执行所有的预处理步骤,我们也研究和应用不同的模型,让我们选择一个最优模型的经验获得最大精度和最小损失。首先,我们使用一个著名的决策树模型,我们得到了62%的准确率。限制有我们无法找到损失。决策树的混淆矩阵显示真阳性= 682,真阴性等于8404,254年419年假阳性和假阴性。其次,我们寻找另一个模型,得出结论选择朴素贝叶斯分类器我们有49%并没有预期的准确性。混乱度量我们真阳性= 2990,真阴性等于3940,假阳性= 3081,假阴性等于2380。第三,随机森林模型训练的模型我们都有类似的准确性和决策树。最后,我们将我们的注意力张量流,我们选择顺序模型将数据划分为训练、测试和验证的块。我们成功的最大精度达到90.18%和25的时代。这个精度是重要和令人满意的与其他模型。 It can be seen in Figure4

顺序模型损失函数计算25时代已注意到13.61%的损失。在培训期间,最初的损失高于70%,准确性为48.44%。调优后,损失落在上面给出最低水平和准确性达到90.18%的最佳位置。图5描述了结果。

3.1。社交媒体数据分析框架

6描绘广阔的时空分析范式。第一个组件是分为两个部分:数据采集(从微博下载数据)和数据过滤。LBSN数据将被检查。

之后,这些位置的空间分布特征进行利用ArcGIS 10.6.1软件。该研究使用ArcGIS 10.6.1软件(环境系统研究所,Inc .,雷德兰兹,CA,美国),并在2016年的上海地图生成作为工作基地与大地坐标系WGS1984地图。

3.2。分析方法
3.2.1之上。核密度估计

KDE是一种非参数技术从任意插图的数据计算强度。KDE甚至计算发行量通过消除局部噪声在一定程度上,减少错误给非参数可能与最优分配的频率。KDE是一种密度估计的方法,已被广泛研究探索等元素的基于位置的社交媒体数据建立城市边界,运动和运动设计,用户兴趣点建议,签到的习惯。建模空间密度,KDE的方法也被用于健康等领域,市场营销,和环境19,21,27]。KDE被用于分析游客的模式在绿色公园(25,28- - - - - -32]。

是一组历史数据 的geocoordinate位置, 对一个人 欧几里得距离吗 - - - - - -th最近邻 在训练数据。KDE表达如下;

4所示。结果

有居民22125000人,土地面积4015平方公里,上海是世界上升最快的城市之一9,33]。编制了娱乐签到数据在三年内。签到都分配给最佳匹配的类娱乐和娱乐活动在这个位置,如电影、KTV娱乐大厅,剧院,和迪士尼公园。图7描述了签到的总数。图7(一)显示整个数量的签到,可以观察到一些签到不包括在我们的研究区域。不过,我们打扫了数据根据我们的研究区域,和所有签到上海以外的十区进行删除。

我们使用KDE学习登记数据的空间变化和ArcGIS可视化微博地理位置签到数据集。图8描述了登记总强度从2014年7月到2017年6月在上海。部分有色黑色意味着更大数量的人来说,更高频率的行动,和对社交媒体的使用更清晰的认识。也就不足为奇了,上海的城市中心的七个地区出现密度比其他三个地区,尽管三个地区的面积更大。

9描述时间的访问数量的变化在过去的24小时。尽管游客在任何时候的一天,最多的报道签到12点8点到晚11点之间,以及在娱乐场所进行了研究。

10 ()描述了每天签到的数量,它可以观察到,周末比平时更大数量的签到。图10 (b)描述了基于季节每天的签到,可以看到,有更多的在春天周末签到。

签到是区一级的不信任更精确的照片在上海城市娱乐的地方传播。图11显示器签到的分布是浦东地区最大,其次是黄埔区。解释这种趋势是由于浦东地区比其他地区更大的规模。另一件事要记住的是,签入的分布在市区比郊区高。

12描述了每个月总签到了。可以看到,4个月,5月,6月签入的数量高于另一个月。签到的几个月的11月,12月和1月较低,因为寒冷的天气。

根据类似的研究,发现了大量的季节性变化在用户签到,和许多因素进行了调查,试图解释这些模式(34- - - - - -37]。图(13日)表明,一个先进的签到是在娱乐场所在夏天和春天。重要的是注意到签到有些在秋天冬天比他们少。图13 (b)描绘了季节的性别差异,表明女性比男性更有活力的季节。

5。讨论

微博数据,每发现,是一个很好的资源来评估城市娱乐和研究时空方面的质量。使用社会媒体的优势娱乐签到记录研究,我们可能获得整个城镇的定性和大规模的统计数据。

本研究使用标记了社交媒体签到数据作为一个代理来估计娱乐场所的数量作为一个案例研究在上海旅行。这种方法不如耗时耗费时间和劳动密集型和劳动密集型的评估,它可以提供一个特殊的地理范围。我们没有能够定义签到数据之间是否有一个积极的联系和访问调度和评估在城市因为我们缺乏实际旅游数据的可访问性。

这是一个大问题,因为不像老式的注册数据,社交媒体数据通常并不提供直接事实如种族和婚姻状况;然而,间接方法存在提取它们。微博签到的数量之间的关系和实际访问娱乐场所之间可能会有所不同。

由于隐私和个人安全问题,数据的可用性是一个关键的屏障LBSN研究。的可能性LBSNs披露用户和朋友的当前地理位置构成了主要的隐私问题。人担心隐私,但组织或企业用户通过LBSNs交换内容。私人信息有时是提供免费或无意中。虽然数据收集的定期为客户提供独一无二的特权和利益,以换取他们的细节,它往往从来都不是真的。用户可以通过LBSN发现的位置服务,例如,微信附近。

据我们了解,这是第一个案例研究,探讨了利用娱乐设施访问的签到活动大量的地点在上海使用微博数据。广泛的地理区域的研究提供了重要的信息,可以帮助在其他大城市规划和发展提供更多的娱乐场所,人们希望访问。

6。结论

我们检查了分散用户的签到上海在十个不同的地区,强调地理数据的各种元素。研究区域和娱乐网站登记数据受到核密度估计。根据我们的发现,人们更喜欢参加娱乐场所在上海的市中心,分为七个区域。4月,5月和6月有更多的签到和其他几个月比较。游客大多喜欢在春天和夏天,访问和女性游客更活跃。浦东新区和黄埔密集的地区,和周末有更多比其他天签到。最后,人们已经发现,连续模型相对最佳的训练数据用于这项研究。使用顺序模型,我们取得了90%的准确性。这项研究可能有助于识别更拥挤的地方在上海,以便控制或管理机构可以更有效地观察和帮助这些地区,特别是在事件,社区行动,城市发展,等等。

很多功能可以进行额外的未来时代;这项研究可以进行不同的特征,如性别、网站分类,并多次空间分布与进一步的原因包括年龄,收入,婚姻状况等。它还可以突出重点研究地区的元素来评估消费者的空间分布。

数据可用性

微博签到数据用于支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作得到了安徽省自然科学基金(没有:1908085 mf178),安徽重点研究与发展计划项目(没有:202104 b11020031)和安徽省优秀青年人才支持计划项目(没有:gxyqZD2019069)。