文摘

设计和开发的智能城市,机遇以及挑战出现。为此,需要获得大量的数据。然而,情况不同在不同的城市基础设施和人口,由于变体导致数据稀疏。在本文中,我们提出一个转移学习方法为城市洪涝灾害分析、提供交通管理机构产生积极的交通的基础操作策略,以缓解交通拥堵。现有工作城市洪涝灾害主要依赖于过去和现状,以及传感器和摄像机,虽然可能不是一个足够数量的传感器覆盖一个城市的相关领域。为此,是很有帮助的,如果我们可以转移涝。我们检查是否可以使用大量的信息从社交媒体和改善城市洪涝灾害分析卫星数据。此外,我们分析严重程度之间的相关性,道路网络、地形、降水。此外,我们使用一个多视图判别学习方法转移到知识转移到小城市。涉及城市在中国和印度的实验结果表明,相对于传统方法,我们建议的框架是有效的。

1。介绍

设计和开发的智能城市,机遇和挑战出现。为此,大量的物理传感器和社交媒体数据需要。然而,由于变异情况不同在不同的城市基础设施和人口,导致数据稀疏,Bassoli et al。1]。例如,由于人口众多和完善的基础设施,社会媒体数据在大城市相对容易获得。但是,小城镇的人口和比较小,因此,相对不活跃的社交媒体。因此,很难建立一个智能城市系统基于这些数据。与此同时,许多应用程序已经在大城市的数据建模分析。为此,我们把知识从大城市到小城市洪涝灾害的分析。

随着城市洪涝灾害的严重程度在一些发展中国家,如中国和印度,城市洪涝灾害分析已经成为现代智能城市系统的关键组件,古普塔(2和Zhang et al。3]。准确分析城市洪涝灾害的条件可以显著帮助交通管理机构产生积极的策略来缓解交通拥堵,可以帮助驾驶员更好的计划他们的行程,避免线路拥挤。现有研究在该地区主要集中在过去和当前的条件,以及传感器和摄像机。然而,这些数据相对不足,整个城市的计划。因此,有相当大的兴趣使用社交媒体来检测城市洪涝灾害不使用物理传感器。

社交媒体的快速发展,越来越多的人正在使用Twitter、Facebook、等等,他们的情绪交流,活动,和计划,以及交换新闻和观点,Cranshaw et al。4]。这创造了一个巨大的存储库中包含的信息无法通过传统媒体。这个库包含用户的消息有关城市洪涝灾害条件下在不同的时间在他们的领域,如“深水新七街。汽车无动于衷”和“大路障在十字路口;轮胎在深水中”。在大城市,是可行的在处理大量数据的相关城市洪涝灾害,阴et al。5),全et al。6],Yadav et al。7]。然而,小城市可能不会产生足够的社交媒体数据。此外,大多数洪涝灾害事件是由贫穷引起的公路网络,低的地形,和高降水在很短的时间内,通常很容易获得这些数据。此外,数据在不同的城市有不同的分布。例如,不同的人可能会发布不同的同一事件的微博,因为女王的差异。不一定相同的物理条件也可能导致相同的洪涝灾害的严重性。在这种情况下,不同的城市相当于不同的域。是很有帮助的,如果我们可以从当地城市洪涝灾害知识域转移到一个新的。

出于信息在社交媒体上的唯一性和通过卫星和这些信息之间的密切关系,城市洪涝灾害的严重程度,我们组的任务确定我们是否可以检索相关的Twitter和卫星数据和转移知识转达了这些小城市来分析城市洪涝灾害,吴et al。8]。我们分析twitter数据获取城市地区受洪涝灾害影响的位置并确定其严重性。我们利用开放的api来访问流的观察记录,然后建立一个有关社交媒体内容和卫星功能之间的相关性。此外,我们从外部知识库位置与实体映射到丰富的特性。这之后,我们分析了洪涝灾害数据,并将其转换到小城市,我们没有足够的这类数据,通过一个多视图学习方法判别转移。我们发现大多数小城市可以通过我们的方法监测城市洪涝灾害。

本文的主要贡献可以描述在三个方面:(1)我们提出一个多视图判别城市之间转移学习方法对城市洪涝灾害的分析。(2)我们分析的特性对城市洪涝灾害的影响分析。(3)我们评估方法通过不同的数据源包括全球卫星降水数据,天气预报报告数据和微博/微信数据在中国和印度。

剩下的纸是组织如下。节2,我们简要回顾现有的社交媒体减灾工作和数据在城市计算稀疏。我们提供初步定义和当前的问题陈述部分3。节4,我们建议社会和物理视图分析以及提出了城市洪涝灾害多视图判别转移学习方法。我们显示的设置和结果实验部分5和总结的论文部分6

2.1。社会媒体为减灾

就像前面提到的1现在,研究人员正试图利用信息在社交媒体上的财富用于各种目的。例如,有相当大的兴趣在使用社交媒体来检测新兴新闻或事件:在Petrovićet al。9],作者解决问题检测新事件的推文流使用一个算法基于locality-sensitive散列。在Sankaranarayanan领导等。10],作者提出一种新的处理系统称为“TwitterStand”获取tweet对应突发新闻。作者在淡比et al。11]研究实时接收的事件,如地震,在推特上,并提出目标事件的概率时空模型,可以找到事件的中心和轨迹。

此外,一些研究人员正在调查从微博的信息提取,在其他领域可能是有用的。在博伦等。12),作者试图确定公众情绪与,或甚至预测,经济指标。为此,他们第一次集体情绪状态来自大规模的Twitter feed,然后进行了相关分析与道琼斯工业平均指数)在一段时间。他们表明吗可以显著提高了预测的准确性包括特定的公众情绪维度,如“平静。“在艾森斯坦et al。13),标记了社交媒体的基础上,作者提出了一个多层次生成模型,共同对潜在主题和地理区域的原因。

深度学习的兴趣的复苏,将不断表示一个词的特性已被证明是有效的在各种自然语言处理(NLP)任务,如解析、语言建模和命名实体识别(尼珥)。在情绪分析,Bespalov et al。14]发起word-embedding利用潜在语义分析和每个几个文档表示为线性的重量 克情绪分类向量。我们建议的工作属于这个方向的研究,我们试图建立一个Twitter数据之间的相关性和一个新的领域,即城市洪涝灾害分析。

2.2。在城市计算数据稀疏

data-missing的问题是由许多原因造成的。例如,不同的场合有不同的用户访问。更严重的是,一些场馆可能没有人访问它们。数据稀疏已经研究了多年的研究。在城市计算,有很多技术可以应用于解决这个问题。矩阵分解可以将一个矩阵分解为两个或三个矩阵的生产。当矩阵是很稀疏,我们通常可以用三个低秩矩阵近似。更多维度,张量分解可以用来近似张三个低秩矩阵的乘法和核心张量。然而,这些方法只能处理数据稀疏在一个城市。

有一个主要的假设训练和测试数据必须在同一个特征空间在机器学习任务。然而,这种假设可能不持有在许多实际应用,锅和杨15]。例如,在一个分类任务中,我们没有足够的数据在一个感兴趣的领域,但我们只有足够的训练数据在另一个感兴趣的领域,遵循不同的分布。幸运的是,迁移学习算法帮助解决这个问题,也可以处理数据稀疏问题在城市计算。

迁移学习模型来自相关但不相同的分布式数据源的数据。单极设置的多视图学习已经被广泛的研究,如cotraining戴et al。16]。然而,小已经完成对多视图转移。陈等人。17]提出了域Cotraining适应(终结),一个伪多视图算法只有一个视图为原始数据,可能不是有效的真正的多视图的情况。Zhang et al。18)提出了一个实例级多视图转换算法(MVTL-LM)集成分类损失和视图一致性方面居于领先地位的框架。杨和高19)提出了一种多视图判别转移(联合化疗)学习领域适应气候变化的方法。与MVTL-LM不同,我们的方法是在功能层面,矿山视图之间的相关性与域距离测量提高转移。与联合化疗不同的是,我们的方法另外标签数据通过社会媒体和优化映射算法在城市洪涝灾害分析的情况下。

3所示。方法

3.1。初步

定义1(街区)。街区是除以一个城市一个地区(例如,1公里 在我们的实验1公里),假设城市洪涝灾害严重程度在不同的块 是统一的。

定义2(社会视图)。一个特征向量 获得的一块的智能城市的各种社交媒体帮助数据分析: 在哪里 是功能块的原始社会媒体数据转换成特征向量的社会观点和 推特和微博(twitter等网站在中国)文本发布带有这一块。

定义3(物理视图)。一个特征向量 从传感器获取物理块: 在哪里 是功能块的原始物理传感器数据转换成一个特征向量的物理视图和 , , , 的原始数据是降水、地形、POIs,广告这一块获得的道路。

3.2。框架

如图1,我们的框架包括两个主要部分:特征提取原始城市和转移的学习,涉及城市洪涝灾害的分析在小城市。我们也从Yago2映射块的位置与实体(http://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago/),geoname (http://www.geonames.org/)和WikiData (http://www.wikidata.org)来丰富我们的洪涝灾害相关的知识。例如,我们可能获得POI类别为“住宅小区“天都”。“这样我们可以获得更多的知识“天都”和“居住区”;例如,“是什么地方天都之前(一个湖泊或低地可能导致严重的洪涝),”或“住宅小区最近的河在哪里。“我们分别构建社会视图和物理视图,通过多视图判别学习我们转移城市洪涝灾害知识转移到小城市。

问题陈述。每个城市都包含块 。我们使用城市传感器和新闻报道的事件每一块的洪涝灾害严重程度标签。采用三级评价系统:正常(没有水浸)、中部(水很浅,对驾驶没有影响),和严重(切断道路洪涝灾害和危险驾驶)。例如,如果传感器或新闻报道的位置“长乐路,杭州“城市洪涝灾害严重,我们计算块的id的这个位置,标签数据” ”,第一个“2”的id“杭州”“15”是块的id,它包含“长乐路,”最后一个“2”的标签。源的城市,我们有 ,在那里 块是社会视图和物理视图 ,

我们利用FDA2 Diethe et al。20.),学习“中产”功能表示 的一块 。然后我们遵循autoencoders的研究,壮族et al。21),来构建一个功能映射和使用源域数据联合分类器训练。

4所示。转移学习框架

4.1。模型社会视图

社会媒体显然会有大量的洪涝灾害相关数据为不同的块。所以我们从twitter获取微博和微博获取特性来分析城市洪涝灾害在印度和中国。

我们使用的训练word-embedding手套,彭宁顿等。22]。我们手动构建字典D城市洪涝灾害的严重程度描述短语 和标签的短语。然后我们可以计算的平均向量描述正常阶段,中间,和严重洪涝灾害: 。此外,我们计算前50个单词 出现在 最多。为某一块,现在我们得到每个word-embedding微博发布在这个地区。我们假设每个洪涝灾害相关的微博是正确的;然后我们构建社会观点的特征向量与城市洪涝灾害的严重程度有关。单词之间的距离或阶段描述的严重程度是一个很好的测量真实的城市洪涝灾害的严重性。例如,一些短语经常出现在的地方严重的洪涝灾害,如“在市区看到大海,”这意味着洪涝灾害严重。我们代表word-embedding阶段平均的词向量。附近的阶段word-embedding这些阶段描述了几乎相同的严重性。此外,单词的频率也是一个事件严重性的良好特性。例如,一块100多严重洪涝灾害相关的微博可能真正严重的洪涝灾害。 Specifically, for a tweet “deep water, car unmoved,” we firstly calculated the vector of tweet through ;然后我们计算的距离 ,分别。最后,我们观察天气的单词 出现在推特和记录时间。

最后我们建立社会的块 在哪里 意味着word-embedding推特, 是微博的数量在这一块, 阶段的平均向量描述正常,中间,和严重洪涝灾害,然后呢 是一个50维向量和记录发生的单词数量 (外观 )= 12意味着这个词 出现了12次在微博这一块)。

4.2。模型物理视图

城市洪涝灾害的浓度受气象和地形的影响。因此,我们确定降水。我们分析城市洪涝灾害严重程度和这些特性之间的相关矩阵使用收集的数据从几个城市在中国和印度。更具体地说,对于每个涝的位置 我们测量( 降水, )地形,( )道路网络,( )POIs矿业的物理特性 , 在这 在大城市里是物理视图的集合。

4.2.1。准备降水

显然,沉淀在特定区域和特定时期意味着洪涝灾害的位置和严重程度。我们使用总降水数据的最后一个,两个,3、6、12、24小时时间块的特性。我们已经正式 在哪里 降水在去年吗 个小时, 是当前时间。

4.2.2。地形

显然,高地形分散程度的浓度,高浓度和高降水通常原因。例如,对于一个街区 ,它有8个邻居 。我们必须计算相对地形块的价值 考虑到 。例如,一个地方可能有低地形值(通常有很高的洪涝灾害发生的可能性),但在地形值邻国要低得多,所以城市洪涝灾害发生的可能性较低。我们已经正式 在哪里 在旁边的块 , 意味着块的高度 , 高程测量误差。

4.2.3。道路网

道路网的结构有很强的相关性与地形模式,从而提供一个令人满意的补充严重性建模。我们确定了以下三个特征为每个块基于道路网络数据库:( )高架道路的长度,( )数量的涵洞,( 在该地区)的十字路口。我们已经正式 在哪里 十字路口的数量, 高架道路的长度, 涵洞的数量。

4.2.4。POIs

POIs表明这个地区的模式,因此导致城市洪涝灾害的分析。POI可能直接因果关系。例如,如果一个地区有大量建设用地空间,其严重性往往是坏的。一个公园,然而,通常会导致减少洪涝灾害。简而言之,这些特性明显区别的城市洪涝灾害严重程度分析。因此,我们应用一个熵来衡量一个街区的功能异质性。让 表示POIs的数量分类 位于 是所有类别的POIs总数位于 。熵的定义是

最后,我们有

4.3。多视图判别分析

实际上我们现在可以连接社会视图和物理视图到一个视图中适应学习环境。然而,这连接导致的过度拟合训练样本规模小,不是身体上有意义的,因为每一个视图都有一个特定的统计特性。据郑等人的研究。23),把来自不同数据源的特征提取同样没有达到最佳性能。相比单一视图学习、多视图学习作为一种新的范式引入了一个函数模型一个特定的视图,共同优化所有函数利用冗余的观点相同的输入数据和改善学习性能。

Diethe等人扩展费雪的判别分析(FDA)通过将标签的两个视图数据纳入FDA2典型相关分析(CCA)框架如下,Diethe et al。20.和梅尔策等。24]: 在哪里 在哪里 是两个视图的源数据的方法。分子(9)反映了阶级之间的距离,这需要最大化,而分母反映组内的距离,应该最小化。上述优化问题相当于选择向量最大化瑞利商: 在哪里 。请注意, 编码组内的距离,而 编码的复合信息基于同类距离。此外, 是一个特征向量。这样的优化不同于FDA2并促进其扩展跨域场景,将在以下小节。对于一个无标号实例,分类决策函数是由 在哪里 是阈值。

多视图判别分析后,我们为每个城市获得单一视图特征向量,这是能够使用机器学习算法。然而,标签数据的稀疏仍然是一个问题。模型基于这些单一的城市数据很不可靠。所以我们尝试使用转移学习。

4.4。Autoencoders

在我们的问题中,特征向量的不同的城市有不同的分布。feature-representation-transfer方法的归纳学习问题转移旨在找到好的特性表示域散度和分类或回归模型误差最小化。我们使用autoencoder构造特征表示。一个autoencoder实例的映射 一个隐藏的表示 通过 后,隐藏的表示 是重建

autoencoder是形式化的目标函数

4.5。转移学习

最后,我们提出了优化问题如下: 其中第一项表示重建错误: 在哪里 源和目标特性表征和吗 由autoencoder表示通过编码和解码。

第二项代表了正则化:

第三项代表的总损失将softmax回归分类器。

我们采用梯度下降方法的解决方案。

算法4。多视图转换与autoencoders学习:
输入源数据集 目标数据集 权衡参数 , ,隐藏的特性 输出。目标域分类器。(1)初始化 , (2)运行多视图判别分析结合社会观点 和物理视图psi成一个单一的视图。(3)修复 ;更新 , 另外。(4)修复 , ;更新 (5)如果收敛,分类器输出;否则,转到步骤( )。

4.6。目标分类器构造

鉴于 , 的分类器 可以获得。形式上,我们有 在哪里 softmax回归的分类器功能。

5。实验

5.1。数据集

城市洪涝灾害是最严重的灾害之一,在世界各地的几个大城市,尤其是在中国和印度。2013年,数以百计的城市报道在不同时期被浸满水的几十天。源代码和示例数据的实验可以获得https://github.com/zxlzr/UrbanWaterloggingInference。在我们的实验中,我们使用以下五个真实数据集显示在表1:(1)社交媒体:我们收集的数据来自推特和新浪微博,这是一个类似推特的网站在使用至少在10个城市的2013年和2014年在中国和印度。(2)气象数据:我们收集降水的气象数据来自美国国家海洋和大气管理局(NOAA)的web服务每小时。(3)POIs:我们收集POI数据从百度地图为每个城市。(4)公路网络:道路网络数据从Openmaps聚集。(5)地形:从Openmaps地形数据。

我们使用的特性数据分布在不同的城市有很大的不同。如图2显示,黑暗地区洪涝灾害相关的社交媒体数据是巨大的。北京的社交媒体数据远远超过杭州。此外,稀疏的标签是完全不同的。例如,121块(总200)曾经在北京严重的城市洪涝灾害记录;然而对于一些相对较小的城市,如杭州(总180)只有65的记录。所以我们使用学习转移到更多的数据结合起来。杭州作为目标城市和北京源城,我们在杭州使用30块,121块在北京的标签数据作为训练数据,其他35作为测试数据。

5.2。评价

为了获得最高精度的模型,我们旨在使用开发将找到最佳hyperparameters。我们获得自由文本描述的地方采用geoparsing (https://github.com/ropenscilabs/geoparser)将文本转换成明确的地理标识符(lat-lon坐标)和地图实体与外部知识库。我们设置了平衡参数 , ,隐藏的特性

我们使用不同的基线算法来验证我们方法的有效性如下:(1)GBRT。梯度推进是一个机器学习技术,回归和分类问题。我们只使用单一的城市数据建立一个模型。(2)。我们选择与反向传播人工神经网络(ANN)技术作为另一个基线。安所构造的包含一个隐藏层。ANN方法仅对所有带安全标签的数据时从站和所有城市(不使用多视图)作为训练数据建立一个模型。(3)TrAdaBoost。戴et al。25TrAdaBoost]提出了一种提高算法,这是一个扩展的演算法,来解决归纳学习问题转移。它试图反复调整源域数据减少坏的源数据的影响,同时鼓励良好的源数据作出更多贡献为目标域和它是一个instance-transfer方法。

指标。因为我们使用三级评级系统 ,鉴于 从传感器获得的和新闻报道 ,正式 我们评估的最终结果 得分。

5.3。结果
5.3.1。单一的城市转移

我们选择一个源城和转移相关的洪涝灾害知识与它到目标城市。增强了学习迁移的原始方法显示在(18)。请注意, 代表了F1分的学习方法从城市转移 城市 ,而 F1城市获得的分数 由GBRT本身。

在图3,我们显示转移之间的差异增强学习方法和方法获得直接从城市。不同的盒子代表的加速转移学习法和直接法,从城市中横坐标纵坐标。与坐标轴的增加,城市的社会媒体的大小增加,这意味着社交媒体在北京比天津大大小,例如。我们使用社会媒体的大小来评估其城市的相对大小。事实上,城市有更多的社交媒体活动通常是相对比,用更少的社交媒体活动。我们看到转移学习方法优于直接从城市转移知识时获得的方法从一个大城市到小一点的。实际上,随着社交媒体的规模增加,增加训练数据的大小。

5.3.2。多个城市转移

最后,我们试图从多个城市知识转移到一个城市。例如,如果北京是一个目标城市,我们使用总城市城市数据来源(14个城市)。在表2,我们目前的所有功能的结果。实际上,我们已经观察到与基线相比有所改善。无论任何方法,F1分数使用数据总比只使用社交视图或物理视图。GBRT方法只使用单一的城市数据;它的枯竭是最坏的打算。安只集中所有的数据和不使用多视图的方法。它是不如多视图的方法。TrAdaBoost和我们的方法使用多视图方法,而TrAdaBoost是学习一个实例级转移。然而,在我们的问题中,在不同的城市有不同的分布特征。所以feature-transfer方法更好。

6。结论

在本文中,我们分析了城市洪涝使用四个数据集。我们转移涝知识城市之间和评估我们的方法在10个城市,一段超过18个月。评估表明,城市洪涝灾害转移到小城市是适用的。

学习算法提出了转移这里可能也有同样的效果对于某些类型的数据稀疏,如在小城市机能。因此,我们假设我们的算法可以成功地转移其他城市知识,如空气污染和交通与稀缺数据从大到小城市和城镇。这可以理解通过分析城市和丰富的知识转移的区别来自大城市。

在未来,我们希望我们的方法应用到更多的城市。此外,我们想使用转移学习方法在机器学习解决其他数据稀疏问题。

相互竞争的利益

作者宣称没有利益冲突。