文摘

随着基于位置的社交网络的普及、位置预测已经成为一个重要的任务,近年来受到很大的关注。然而,如何使用大规模的轨迹数据和时空上下文信息有效地挖掘用户的移动模式和预测用户的下一个位置是仍然悬而未决。在本文中,我们提出一种新颖的网络叫STSAN(时空self-attention网络),可以将时空信息的self-attention位置预测。在STSAN,我们设计一个轨迹关注模块学习用户的动态轨迹表示,其中包括三个模块:位置的注意,它捕获的位置顺序与self-attention过渡;空间的注意,捕捉用户的偏爱地理位置;和时间的关注,抓住了用户时间活动的偏好。最后,大量实验四个实际签到数据集是为了验证我们提出的方法的有效性。实验结果表明,时空信息可以有效地提高模型的性能。我们的方法STSAN收益约39.8%(电子邮件保护)和4.4% 4月改进反对在纽约最强的基线数据集。

1。介绍

基于位置的社交网络(LBSNs),如Foursquare和Gowalla,变得越来越受欢迎,用户生成的数字足迹带来前所未有的机会来探索人类的移动模式。人类迁移和迁移模式的高度自由和多样性,因此捕捉人类移动模式是一项具有挑战性的任务在LBSN应用程序中,如个性化推荐和个性化路线规划。

位置预测的传统方法利用马尔可夫链(MCs)来捕获人类运动的过渡规律(1,2]。然而,模型的转移概率是预定义的,只有最后签到活动的影响可以被考虑。因为深度学习技术代表学习能力强,最近一些位置预测的工作(3)使用嵌入方法和递归神经网络(RNNs)学习位置嵌入和用户代表,分别。尽管性能已得到改进,但它不能解决梯度训练过程中消失的问题。为了解决这个问题,学者们做了大量的研究,采用RNN变体(LSTM [4和格勒乌5encoder-decoder])的框架。然而,50岁以上的序列的长度,LSTM进一步签到活动较弱的看法,和长期的依赖仍然是很难捕获(6]。最近,注意机制引入动态调整重要的重量记录,部分解决了问题,LSTM学不长途的依赖。然而,一维的注意力可能中和向量之间的关系,这使得它很难丢弃不相关的部分在加权平均向量只为了保持高度语义相关的内容(7]。

相反,数据记录具有丰富的上下文信息,但稀疏。时空背景是两个关键因素3,8),它可以有效地用于缓解数据稀疏。一些研究[6,9)将时间划分为48小时并将其编码为特征向量但忽略空间上下文的影响。香港和吴8编码时间和地理距离间隔向量并将其集成到LSTM模块作为时间和地理登机口共同考虑时空信息。然而,这种方法可以只考虑相邻轨迹点轨迹的信息序列,并且不能解决全球任何轨迹点之间的时空信息,忽略了用户的地理位置偏好。

为了克服上述问题,我们提出一种新颖的网络叫STSAN(时空self-attention网络),可以将时空信息和self-attention [10)位置预测的机制。我们设计一个轨迹关注网络学习用户的动态轨迹表示,其中包括三个模块:位置的注意,空间的关注,和时间的关注。我们的模型可以捕捉复杂的转换和用户的偏好地理位置和时间的活动。最后,不同于以前的方法学习的用户表示,我们代表用户轨迹,轨迹点,嵌入空间中呈现的位置。我们的模型可以避免用户轨迹压缩成一个向量,减少轨迹信息的损失。

本文的主要贡献可以概括如下:(我)STSAN,我们提出一种新颖的网络来捕获复杂连续的过渡规律和集成位置预测的时空信息。我们的模型可以捕获任何两个点之间的时间间隔信息的轨迹,也可以理解用户的地理偏好。(2)我们建议的轨迹表示潜在的向量空间的位置轨迹点而不是用户表示,避免了压缩和损失的轨迹信息。(3)我们通过实验评估模型从Foursquare和Gowalla使用四个数据集收集。实验结果显示我们的方法在各种基线方法的优越性,并在稀疏数据集更突出。我们的模型达到39.8%(电子邮件保护)和4月4.4% VANext [11),纽约的数据集上执行第二好的。

2.1。位置预测

广泛的研究一直致力于模型人类通过大规模流动轨迹数据记录的GPS,蜂窝塔,和基于位置的服务。传统的方法是基于马尔可夫链(MCs)模型代表个人的运动行为作为一个马尔可夫模型。MCs计算状态(位置)转换矩阵,预测下一个位置基于之前访问过的位置(2,10]。虽然被认为是时间序列信息,只有一个短程时序关系建模,这限制了其预测能力。随着深入学习研究的广泛发展,许多神经网络模型是用来发现用户的移动模式。PRME [12]算法嵌入用户和位置到隐藏的空间探索类似的关系,但它只能序列的短程的关系模型。最近,复发性神经网络及其变体已经广泛用于捕获长期序列的影响。STRNN [3]RNN模型结合使用时间和空间上下文信息来预测下一个位置。基于时空特征的递归神经网络模型(13)可以自动提取时空特征的内部表示和结合RNN结构建模人们的运动行为。很难处理RNN的长时间序列数据模型,所以最近RNN变体(LSTM和格勒乌)提出了避免传统RNN的梯度消失。HST-LSTM模型(8)嵌入时间和空间向量在编码器和解码器的框架LSTM预测下一个位置的用户。深度学习技术的进一步发展,注重机制提出了提高RNN的学习和CNN结构时间序列的长期依赖。DeepMove [6注意机制增强RNN)用来捕获用户的移动和位置偏好。VANext [11]CNN和注意力用于学习期刊的历史轨迹模式做出下一个位置的预测。AMF (14)联合结合个性化的学习模式与一个关注网络位置的预测。

2.2。注意

注意机制是广泛应用于图像分类(15),机器翻译(16),和各种NLP任务17- - - - - -19]。2017年,谷歌团队提出一个self-attention模型(10学习文本表示,self-attention优于RNN模型序列,序列任务的注意机制。从那时起,self-attention推荐系统得到了广泛的应用。2017年,ATRank [7self-attention]用来捕获的影响用户的不同的行为,用户行为模型,并应用到下游推荐任务。2018年,张等。20.)使用self-attention学习项目和项目之间的关系在用户交互和历史的下一个项目的建议。2018年,self-attention作为序列推荐模型,和self-attention用于捕获语义序列和关注使其长期预测基于行为相对较少(21]。夏et al。22,23)应用在卫星图像分割来提取有用信息和忽略无用的信息。全球关注模块用于体重低功能水分割任务。MFANet [24)一个多层次功能关注模块提供信息用于低级功能通过使用高级功能来生成新功能在遥感图像的分割。

标准self-attention只能处理一些简单的序列数据,如句子序列或timeseries,但它不能处理更复杂的轨迹数据的位置预测问题,因为轨迹包含时间戳,地理位置坐标和其他异构环境。我们提出一个轨迹的注意机制于一体的地理和时间特性基于标准self-attention学习用户轨迹表示。轨迹关注包括三个模块:位置的注意力,学习轨迹位置向量之间的相关性;空间的注意,它使用空间特性来了解用户的偏好空间位置;和时间的关注,它捕获用户之间不同的时间偏好。

3所示。预赛

在本节中,我们首先介绍必要的后续讨论的一些概念,然后概述本文中讨论的问题。最后,简要介绍我们的模型框架。

3.1。问题公式化

表示用户和POIs的集 分别代表用户的数量和POIs。定义1 (POI)。兴趣点(POI)是一个位置坐标系统,它包含位置识别 和地理位置信息( 坐标)。定义2(轨迹点)。签到记录包含用户识别 ,芋泥 ,和入住时间戳 用户 参观了POI 被定义为一个元组吗 ,也称用户的轨迹点。定义3(轨迹)。考虑到用户的轨迹点 ,轨迹是一个序列 ,在哪里 的长度是用户的轨迹序列和 - - - - - -用户的轨迹点 位置预测问题。考虑到组 的用户和组 POIs的和当前轨迹序列 为用户 ,问题是预测的位置 在( )- - -th时间戳的用户

3.2。基本框架

1显示了STSAN的架构,它包括三个主要组件:(1)轨迹特征处理,(2)轨迹关注模块,和(3)预测。(我)轨迹功能处理:首先将每个POI嵌入使用嵌入低维向量表示方法。建立时空用户轨迹预测模型、时间戳和POI的坐标作为模型的数值特征。(2)轨迹关注模块:我们使用轨迹学习轨迹表示关注。具体来说,注意位置计算轨迹的位置向量之间的相关性,来捕捉用户的移动模式;然后,颞注意使用的时间特性计算轨迹点之间的时间相关性和捕捉用户的移动模式。学习的空间注意使用空间特性之间的空间关系POIs POIs捕捉用户的地理偏好。我们使用线性函数集成三个模块输出矩阵的关注。最后,这个模块的输出轨迹表示。(3)预测:轨迹表示由轨迹点,嵌入空间中呈现的位置。内部产品是用于计算轨迹之间的关系和位置,然后推断出用户的下一个访问POI。

4所示。方法

4.1。加工轨迹特性

构建一个时空的用户偏好模型,我们想对轨迹编码根据用户的活动的时空特征。Word2vec [25)是一种有效和可伸缩的方法来学习由建模嵌入表示单词的上下文相关词的句子。我们将每个位置识别编码到一个低维向量。对于每个位置,嵌入方法输出嵌入式特征向量 这个公式表示如下: 在哪里 的一个炎热的表示吗 - - - - - -th候选人位置和 是位置嵌入矩阵,由整个网络训练和学习,在哪里 是网站和候选人的数量 嵌入特征向量的维数。

以前的工作(8)表明,时间和空间特性帮助捕获用户签到活动。我们提取的时间戳 和经度和纬度的地方用户访问和使用的位置嵌入向量作为输入模型。用户轨迹 ,我们设置 ,模型的输入 在哪里 包含三个部分: 的嵌入向量 - - - - - -th位置轨迹, 是这个位置的纬度和经度, 的时间戳是访问的位置。

4.2。轨迹关注模块

2显示了轨迹注意模块的体系结构,它包括三个主要组件:(1)位置的注意,(2)时间的关注,和(3)空间的关注。

4.2.1。准备位置的关注

注意函数的self-attention是个特例,可以被描述为一个查询映射和一组键值对输出,查询,键值,输出向量。基于RNN序列模型,它是不容易控制长途隐藏状态。注意机制分配重量到隐藏的状态,让更多的重量尽可能更重要的国家。然而,它仍受限于RNN递归结构,无法处理时间序列。self-attention捕获任意元素之间的关系可以通过使用序列信息无论在序列中的位置。self-attention可以处理的时间序列,因此我们使用self-attention来捕获位置嵌入向量之间的关系。

假设用户的轨迹的长度 输入位置的关注是一个矩阵的形状 通过 : 注意轨迹长度是不同的对于不同的用户,和模型可以接受轨迹序列输入不同的长度。

查询,用户键,值 ,我们的项目 通过非线性变换三个空间,如以下公式所示: 在哪里 , , 权重矩阵为 , , ,分别。 是一个非线性激活函数,使神经网络有足够的能力来捕获复杂的模式。请注意, , , 预计到相同的空间;因此, 可以被数学矩阵乘法的结合。

然后,我们可以计算出位置的关注分数使用以下公式:

输出矩阵的形状位置的注意力 通过 我们计算的点积 ,旨在计算元素之间的相似性或相关性,然后除以吗 为了防止关联被削弱了 功能和应用 函数得到归一化的关注权重。

这个模块,给定用户的签到位置序列嵌入表示 ,模块的输出是一个权重矩阵 每个元素的相似性或相关性。通过学习所有用户的签到位置序列,该模块捕获用户之间常见的移动模式和独特的不同用户兴趣偏好。这个过程是由训练和学习调整模型的参数。

4.2.2。空间的关注

我们使用地点的空间特性来增强学习用户移动模式和用户地理偏好。具体来说,减少重复计算,计算所有POIs提前和存储之间的地理距离矩阵 通过索引,让它在使用。给定的任意两个POIs的经度和纬度 ,两个POIs之间的空间距离 通过使用下列公式计算: 在哪里 ; 是地球的半径,平均6371公里; 表示两个地点的纬度;和 是两个位置的经度区别。我们设定一个索引操作 选择相应的值 形成一个 通过 矩阵:

注意,价值 在一行 和列 的输出 代表之间的实际距离

先前的研究[26)表明用户的签到行为集群属性在空间。而不是去很远的地方,用户更有可能去周边的地方去,这是意气相投的原因和常见的在我们的日常生活中,每个人都有自己的活动范围,很少超过。在太空中捕捉这种模式,我们设计空间的关注。降低模型的复杂度和便于参数的调整,我们手工处理地理特征,而不是将它们嵌入到向量。我们设置了矩阵空间的关注 的形状 通过 如下: 我们工作的目的是增加的空间相关性的位置在用户的访问区域和间接减少的空间相关性位置远离用户偏好区域。注意一个地方本身的距离是零,所以我们对待它的空间相关性作为一种特殊的值为0。如果该值的 小于阈值 ,空间相关性是1;在其他情况下,该值设置为0,对角线上的值是0。

4.2.3。时间的关注

不同用户的签到行为有其特点,如时间间隔。因此,我们把两个签到时间间隔的用户轨迹特征捕捉不同用户之间的时间偏好。类似于空间的注意,我们以轨迹点之间的时间间隔为特性计算的关注。时间输入的关注 ,也就是说,时间序列如下:

我们设置了时间注意矩阵 的形状 通过 如以下公式所示: 在哪里 是一个矩阵的形状吗 通过 之间的时间间隔是用户的签到吗 在位置 和位置 是min-max标准化函数映射的值区间功能 是,我们定义一个操作地图吗

我们使用的参数 连接位置注意矩阵和空间矩阵和时间矩阵线性和得到总关注矩阵制定的

输出 是一个矩阵的形状吗 通过 ,代表的位置向量相关性受到时间和空间特性。Hyperparameters 是时间和空间的影响因素,表明这两个因素的影响程度。

接下来, 介绍了函数将分数 总关注的,相对应的权重系数值,然后执行加权和:

输出 是一个矩阵的形状吗 通过 一方面, 函数可以规范化整理原始分数计算概率分布与元素权重的总和的1;另一方面,它也能突出重要元素的重量通过的内部机制

我们设计 - - - - - -关注不同 - - - - - -空间,类似于卷积核的卷积神经网络。这使得模型学习相关的信息在不同的子空间表示。我们得到的结果如下:

最后,我们连接 - - - - - -关注结果和使用价值通过线性变换的结果多注意: 在哪里 投影参数矩阵,是吗 连接函数连接过去的张量的维度,和输出 是一个矩阵的形状吗 通过 ,代表嵌入用户轨迹 请注意, 平行层和注意的数量吗

4.3。预测

考虑到用户 轨迹序列 ,我们使用轨迹注意力模型的轨迹模型嵌入向量来获得一个更高的水平 具体来说,我们第一个位置的一个炎热的向量映射到向量空间的位置通过嵌入矩阵 轨迹编码过程中,轨迹向量映射到的位置向量空间的时间顺序,然后,最接近的位置位置向量空间中的投影向量的预测结果。我们制定它

这里的输出 是一个概率分布,代表下一个位置的概率分布已知的情况下 是当前层网络的偏差参数。

不同于之前的研究,我们不仅意识到体重的共享 还用轨迹点动态代表用户轨迹。这种方法不仅可以减少过度拟合的风险,而且可以避免压缩轨迹表示为一个向量,使更多的轨迹信息。

4.4。训练算法

为了模型用户空间活动偏好以连续的方式,我们建议轨迹注意力模型,考虑空间和时间特性。在本文中,我们考虑下一个位置预测问题multiclassification问题,所以我们用叉损失函数结合正则化项模型训练的目标函数。该模型的目标函数是显示为 在哪里 轨迹表示在吗 - - - - - -th时刻; 的参数是 正规化和 分别为正则化;和 代表了正则化模型中的参数。梯度下降法和反向传播算法用于修改网络连接参数,然后,目标函数是最小化。我们的模型的源代码可用在线(https://github.com/li-neu/SASAN)。

5。实验

5.1。数据集

我们用最先进的方法评估该模型四个签到数据集从以下两个公开的数据集:(我)Foursquare数据集(27]。这个数据集包含签到在纽约和东京收集了大约10个月(从2012年4月12日到2013年2月16日)。它包含227428签到573703年纽约和东京签到。每个签到时间戳和GPS坐标。(2)Gowalla数据集(28]。这个数据集收集约18个月(从2009年2月1日到2010年10月31日)。它包含6442890签到时间戳和GPS坐标。我们选择在洛杉矶的签到和休斯顿作为实验数据集。

对于每一个城市的数据集,我们用不到10签到记录删除用户。用户轨迹分为几个subtrajectories根据两个相邻记录之间的间隔,间隔设置为72小时,是在之前的相关工作(6]。然后,我们删除subtrajectories的长度小于2和删除subtrajectories小于5的用户的数量。表1显示了数据预处理的基本信息。我们计算的平均数量记录每个用户每天在每个数据集的稀疏数据集,如表所示1。时间维度的大小的一个输入样本是5.17,4.76,23.33,和18.94天。模型输入的最大长度被设置为50在所有四个数据集。实际的输入是不固定的,是由输入轨迹的长度。

显示用户的签到情况的数据集更直观,我们画入住量的累积分布在四个数据集,如图所示3。我们可以看到四个数据集的入住频率的累积分布类似于幂律分布(26,29日]。也可以看到,两个城市的分布在同一平台收集近,例如,纽约和东京来自洛杉矶Foursquare和Gowalla和波士顿收集。纽约和东京数据集从Foursquare和Gowalla的洛杉矶,休斯顿数据集有更多用户不到100签到。大约有90%的用户在四个城市数据集有不到600签到的频率。

5.2。基线

证明我们的模型的有效性,我们比较以下位置预测方法:(我)STRNN [3]。这是一个延长RNN当地时间和空间上下文模型的方法。(2)DeepMove [6]。这是一个最近的位置预测方法学习用户定期与注意力机制和复发性神经网络模式。(3)VANext [11]。它是变分的位置预测方法的注意机制和利用CNN最近学习历史流动RNN学习签到偏好。(iv)闪回(30.]。它是一个通用RNN架构设计建模稀疏的用户移动性痕迹通过倒叙RNNs隐状态。(v)STSAN是我们提出一个模型,可以将时空信息的self-attention位置预测。

5.3。评价指标

给用户的轨迹在当前时间之前,位置预测旨在预测下一个位置的用户。直观地说,一个好的模型是能够恢复的实际地面记录更实际。因此,我们使用预测精度(6,31日)来测量性能。

正式,给定用户组 和候选人的位置 ,为每个用户,考虑到初始位置 ,我们预计下一个连续的 的位置。预测精度计算如下: 在哪里 是一组最高 地点为用户 在时间步 , 是真正的为用户访问位置 在时间步 , 用户历史轨迹的长度吗 在一组 ,表达式值为1;否则,它是0。

此外,类似于以前的工作,我们应用平均百分比排名(4月)27,32)作为另一个指标来衡量模型的总体排名性能。计算的平均百分比排名(APR)如下: 在哪里 代表候选人的排名位置 为用户 在时间戳 排序后 减少订单。

5.4。实现细节

我们每个数据集分割成一个训练集和测试集,为每个用户,我们使用第一个80% subtrajectory作为训练数据,剩余的20%作为测试数据。我们用PyTorch实现我们的模型。所有的实验都进行一个NVIDIA Tesla P4 GPU和CPU 64克在Ubuntu系统。我们使用 自适应学习速率优化算法(33)和 学习速率适应方法。我们剪辑 标准向量组成的几个参数的梯度,以缓解梯度爆炸的问题。为了防止过度拟合,我们使用 正规化、体重衰变,辍学34)提高神经网络的性能,防止探测器之间的相互作用特性。对于目标函数,我们设置权重因素 = 1e−4, = 1e0.5−5,辍学率,最初的学习速率为2e−5,嵌入维数的位置 = 512,隐藏的大小 = 512,距离阈值 = 20、空间因素 = 1.0,时间因素 = 1.0、0.1学习速率的衰减梯度夹1.0,最大值时代50。

5.5。性能比较

我们评估模型与基线方法在四个城市签到数据集呈现我们的模型的性能。不同的参数设置有一个模型的最终性能的影响。表2显示的基本参数设置STSAN模型四个数据集与基线相比,性能比较如图4

我们建议的模型STSAN四个数据集上达到最佳的性能评估指标,这说明我们的模型的优越性。纽约的数据集;例如,STSAN达到39.8%(电子邮件保护),51.6%(电子邮件保护),53.3%(电子邮件保护)在4月,4.4% VANext [11),执行第二个最好的。STRNN是一个RNN模型包含了时空上下文。然而,这些方法没有明确模型用户的历史访问模式。STRNN雇用的复发性网络获取长期POI的依赖,并且不能处理非常悠久历史的轨迹因为复发性网络的固有梯度消失的问题。因此,DeepMove的主要优势是,它利用网络关注历史轨迹。以前的技术尝试提高RNNs通过考虑时空上下文。盖茨context-parameterized过渡矩阵或用于熔断器时空上下文来简化时间和空间的周期性。闪回(30.)模型的稀疏的用户的运动轨迹是倒叙RNN的隐藏状态。VANext不仅有效地捕捉短期人类移动模式,还利用变量关注和CNN网络生成更好的历史轨迹表示。它明显优于这些以前的方法。因此,它比之前的所有方法达到最佳性能。结果,两个稀疏数据集的性能(洛杉矶,休斯顿)显著恶化。原因是该模型可能无法获得足够的数据来训练,导致过度拟合问题。为我们的模型STSAN,稀疏数据集上的性能取得了更好的效果(电子邮件保护)。从后者的分析,我们知道的空间注意模块模型中起着重要作用。

5.6。空间和时间的影响的关注

学习时间和空间特征的影响的框架,我们将模型分为三个变体:(1)空间self-attention网络(SSAN),即网络结构而不考虑时间关注模块;(2)颞self-attention网络(TSAN),即网络结构不考虑空间关注模块;(3)self-attention网络(SAN)的网络结构不考虑空间的关注和时间关注模块。

从foursquare执行同样的,东京和纽约和休斯顿和洛杉矶Gowalla执行类似。因此,本文限于文章的长度,只给两个城市为代表。图5显示的性能STSAN和三个变种在纽约和洛杉矶的数据集。纽约的数据集,我们可以看到,与时代的增加,四种模式的性能不断改善,大约10时代之后,他们往往是稳定的。TSAN导致SSAN和圣的性能,所以可以看出时间比空间更重要信息数据集在纽约。更重要的是,我们都惊讶,STSAN SSAN添加空间关注基于原始模型,但STSAN带来更多的性能改进。当时间信息和空间信息被添加到模型的同时,一加一大于二的结果。最后,我们可以得到准确的结论,性能是STSAN > TSAN > SSAN >圣在纽约的数据集。洛杉矶数据集,SSAN领导TSAN和圣性能,但是TSAN收敛更快。最后,性能是STSAN > SSAN > TSAN >圣在洛杉矶数据集。为不同城市的数据集,时空信息不一样的性能模型。空间信息的原因可能是太过复杂,而不是捕获数据集对纽约有更多的候选人的位置。

STSAN已达到最佳的性能在所有的数据集,这证明了使用时空信息建模的重要性。一方面,在稀疏数据集、空间因素对模型的性能提升更重要。另一方面,时间因素可以帮助模型收敛很快。

5.7。Hyperparameter设置的影响
5.7.1。的影响

距离阈值 控制地理距离对我们的模型的影响。一般来说,图6(一)显示四个数据集上的性能模型的改进了距离的增加和性能改进稀疏数据集(洛杉矶、休斯顿)是更重要的。我们可以看到用户在不同的城市有不同的偏好。默认的参数设置下,它更适合 在洛杉矶,休斯顿30和60数据集,分别。空间因素 控制影响程度的地理信息模型。我们可以看到,准确性增加不同程度的增长 在四个数据集。空间地理位置信息非常有利于提高模型的准确性。我们还成功地捕捉与空间的关注。

5.7.2。的影响

6 (b)显示4月和(电子邮件保护)对各种 控制的影响程度的时间信息,同时保持其他最优hyperparameters不变。的因素 的增长,我们的模型表现生长在Foursquare数据集。不过,可以看出,Gowalla的数据集,模型性能的上限增加的因素 , 1.0在休斯顿数据集,表明有明显下降 有一个最优值0.9。这一现象的原因可能是Gowalla数据集更稀疏,Foursquare的时间跨度比,使开采时间信息更加困难。

5.7.3。的影响

6 (c)显示4月绩效四个数据集,当我们改变参数 ,分别。多个子空间的投影可以提高性能,但不明显,和最优 是不同的在不同的数据集。Foursquare上的数据集,隐层维度,增加模型的精度显示了上升趋势。然而,Gowalla数据集,大尺寸的模型并不带来更好的精度。我们分析原因可能是多个参数添加到维度,这使得模型过度拟合问题早些时候出现在更多的稀疏数据集。

6。结论

在本文中,我们提出了一个新颖的网络叫STSAN(时空self-attention网络),可以将空间和时间信息的self-attention位置预测。我们的模型可以学习用户的轨迹的动态表示通过捕获用户的轨迹的连续转换模式和集成用户的地理和时间相关的偏好。它使我更好地利用空间和时间信息用户的轨迹,这有助于提高位置预测的准确性对稀疏数据和缓解了数据稀疏的问题。我们实验评估使用四个数据集来自Foursquare和Gowalla STSAN模型。实验结果显示我们的方法在各种基线方法的优越性,并在稀疏数据集更突出。此外,我们验证了各种参数的影响在STSAN实验性能通过大量的实验结果。STSAN介绍了self-attention机制和整合时空信息,但它引入了许多相关参数在参数调整增加困难。在未来,我们打算探索联合机器学习的应用位置预测和扩展我们的STSAN模型privacy-aware版本。此外,更多的上下文信息,例如知识图也值得被纳入我们的模型,以提高模型的可解释性。

数据可用性

Foursquare数据集包含签到在纽约和东京收集了大约10个月(从2012年4月12日到2013年2月16日)。它包含227428签到573703年纽约和东京签到。每个签到与时间戳、GPS坐标,和(https://www.kaggle.com/chetanism/foursquare-nyc-and-tokyo-checkin-datasetGowalla的数据集。这个数据集收集约18个月(从2009年2月1日到2010年10月31日)。它包含6442890签到时间戳和GPS坐标。我们选择在洛杉矶的签到和休斯顿作为实验的数据集(http://snap.stanford.edu/data/loc-gowalla.html)。

的利益冲突

作者宣称没有利益冲突。

确认

这项研究部分由辽宁省自然科学基金资助(批准号364 2019 - ms - 111)和中国国家自然科学基金(批准号61872069)。