文摘
同时促进业务或活动geo-social网络,地理位置和用户之间的距离是至关重要的。因此,Distance-Aware影响力最大化问题(达因)最近的调查。达因的效率严重依赖于样本的位置选择。具体来说,在线播种性能敏感的推广位置和之间的距离其最近的样品位置,和离线预先计算性能敏感的样本数量的位置。然而,没有工作要充分研究样本位置选择的问题达因geo-social网络。要做到这一点,我们首先形式化问题在合理的假设下,提升位置一贯坚持用户的分布(查询区)。然后,我们提出两种高效的位置取样的方法基于设施选址分析,这是运筹学的最佳区域之一,和这两种方法是用工具基于位置采样(FLS)和条件设施基于位置采样(节能灯),分别。FLS的进行一次性样本位置选择和节能灯扩展了一次性样本位置选择一个持续的过程,一个可以立即在线广告服务没有取样位置。我们在两个真实数据集的实验结果证明该方法的有效性和效率。具体来说,读者和节能灯都可以取得更好的性能比现有的采样方法达因问题,和节能灯可以初始化网络广告服务在几秒钟内,实现目标距离比FLS的抽样后大量样本的位置。
1。介绍
1.1。动机
广泛使用的geo-position-enabled设备(手机、平板电脑、笔记本电脑等)和服务(地理位置、地理编码、地理标记等)使社交网络连接用户与当地的地方和事件匹配他们的利益。例如,目前有很多流行geo-social网络应用程序,如Yelp, Gowalla, Facebook的地方,Foursquare。由于明显的暗示,许多研究把重点考虑位置信息的影响力最大化问题geo-social网络。有别于传统的影响最大化,影响geo-social最大化网络的一个典型的场景是促进特定的位置就像一个新开的餐馆或即将到来的销售活动,叫做查询位置。在这种情况下,用户在查询位置影响更有价值,因为他们更容易访问的位置。
有两种典型的问题定义上面的场景。第一个被称为位置感知的影响力最大化(LAIM) [1]。LAIM问题是最大化的影响只在一个给定的用户查询区域,这是一个矩形包含查询位置。LAIM问题的缺点,如何选择一个适当的查询区域对于一个给定的查询位置也不清楚(2]。如果查询区域太大,大多数用户的影响选择种子可能分布的边界附近区域,从而远离给定查询的位置。如果查询区域太小,很多潜在用户查询附近的位置但以外的地区将会被忽视。LAIM克服缺点,第二个定义称为distance-aware影响力最大化(达因)[3提出了。达因的问题,每个用户都有一个重量是由用户和查询位置之间的距离不管用户在查询区域,调整和影响扩散到用户根据他们的重量。
通常,解决达因的问题,现有的方法2,3)选择一组示例地点在二维空间中用户分布,和预计算样品的影响传播的位置。为任意查询位置,其影响力传播可以近似的影响根据在线播种过程中其最近的样品位置。注意,给定查询位置之间的距离越短,其最近的样品位置,在线播种算法的性能越好。此外,预先计算非常耗时的样品位置。因此,给定一个预算位置取样,我们希望尽量减少任何可能的目标距离查询位置和其最近的选择样本的位置。
然而,现有的达因方法集中在播种算法简化下采样方法像随机抽样2)或等于细胞取样(3]。他们需要大量的样本地点距离达到一个合理的目标。因此,它不太可能获得一个好的在线播种性能没带来沉重预先计算开销而使用这种简单的抽样。让我们考虑下面的例子。
例1。图1(一)显示用户的空间分布在Brightkite,实际geo-social网络。我们可以看到,大多数用户住在几个城市。等于细胞取样忽略了这个事实,并试图达到空间内一个任意点的最小距离,如图1 (b)。然而,它是不合理的促进一个远离用户,因为用户不会访问达因的设置下的地方。相反,可能在现实中应该坚持用户查询位置,也就是说,在“查询区”的用户。图1 (c)显示了一个示例查询区组成的圈子集中在每一个用户提供一个完全相同的半径
。因此,任何查询位置查询区没有比从至少一个用户。然后,我们可以使用一个更微妙的采样方法来减少所需的样品位置实现同一个目标的距离。如图1 (d),查询区可以被红圈为中心覆盖在只有少数样本,和圆的半径等于半身像在图的对角线相等的细胞1 (b),即抽样方法有相同的目标距离。
因此,我们关注样品的选择位置。我们的工作是基于现实世界的一个重要观察用户geo-social网络通常是在二维空间分布稀疏。换句话说,真正的查询位置不得任意点的空间,并且应该足够接近一些用户。否则,给定一个查询位置没有用户附近,试图最大限度地影响用户提供非常低的体重是毫无意义的。因此,我们合理地假设潜在的查询位置并不比一个特定用户的距离。在这种假设下,我们试图找到一组示例位置之间的最大距离,这样任何资格查询位置和其最近的样品位置是最小的。因此,达因的方法通常可以提高在线播种性能离线预先计算开销较少使用我们的方法选择样本的位置。
我们开发两种样品位置选择的方法用设施基于位置取样(FLS) [4)和条件设施基于位置取样(节能灯),分别。与现有的抽样方法相比(2,3),FLS的进行一次性样本位置选择基于用户的空间分布。具体来说,FLS的利用现有的技术
- - - - - -中心问题,经典的设施选址问题的一个亚型,点的空间可以达到任何用户的最小距离。通过FLS的目标距离是远小于现有的采样方法,从而提高网络的效率播种。此外,为了实现同一个目标距离与现有的采样方法,读者只需要选择一个小得多的数量的样品位置,可显著降低预先计算开销。
虽然很大程度上减少了预先计算开销,读者仍然采用计划,预先计算开始前必须完全做在线广告。为了进一步加速的过程,我们建议节能灯,达到快速启动。具体地说,它只选择一个小数量的样品位置,因此最初的目标距离可能非常大。然后,它可以减少我们的目标距离和提高网络广告服务的质量通过添加样品后续步骤。此外,鉴于相同数量的样品位置,我们发现,节能灯能达到更好的目标距离比FLS的取样位置足够大的数量。
(一)
(b)
(c)
(d)
1.2。我们的贡献
我们的贡献归纳如下:(我)我们形式化小说和重要样本位置选择问题distance-aware geo-social网络影响力最大化。在这个问题上,查询位置必须在一个特定的查询区坚持社交网络用户的地理分布。(2)我们设计两种高效的采样位置的方法。读者可以实现更小的目标距离和提高网络的效率播种。此外,节能灯扩展了样品位置选择一个持续的过程,因此在线广告服务可以立即开始。(3)我们执行全面的两个真实数据集的实验。实验结果证实了该技术的有效性和效率。
本文的其余部分组织如下:我们在部分评审相关工作2。问题的形式化定义节中给出3。FLS的样品位置选择方法是部分所示4,我们现在节能灯样本在部分位置选择方法5。实验结果证明在部分6节中,我们总结我们的工作7。
2。相关工作
2.1。影响社交网络的最大化
影响力最大化问题首先是由Kemple et al。5]。作者还定义独立级联模型和线性阈值模型,并证明问题的硬度。自那时以来,有大量的文献影响力最大化,像[6- - - - - -11),等等。在[6),作者提出了CELF算法,它利用了子模块属性来提升传统的贪婪的方法。陈等人。7]提出PMIA方法,被认为只有通过传播影响最大的用户之间的影响路径。科恩et al。8)提出一个底部sketch-based减少影响的成本估算方法。物化草图可以用作一个oracle评估任何子集用户的影响。最近,由于网络嵌入的流行12,13],许多研究开始探索深度学习技术在影响最大化。
2.2。影响Geo-Social最大化网络
geo-position-enabled设备和服务的出现,研究者开始关注地理位置影响最大化的影响,喜欢1,3,14- - - - - -16),等朱et al。(15]试图测量影响用户之间通过考虑社会关系和位置信息,而李et al。16)提出一种新的网络模型和一个影响力传播模型,他们认为影响传播应该在在线社交网络和物理世界进行的。李等人。1]试图最大化传播在查询区域的影响。然而,它是重要的来确定一个适当的查询区域进行位置感知促销时。最相关的工作我们是(2,3),提出了MIA-DA和RIS-DA方法。MIA-DA的方法给出了一个基于优先级的算法,这种妥协三修剪规则和新颖的索引结构,而RIS-DA distance-aware方法提出了无偏估计量的影响最大化。这两种方法都需要必要的评估网络样本的大小对于任何潜在的查询位置,这样的过程非常耗时。最近,Cai et al。17)设计一种新颖的整体影响扩散模型,考虑网络和物理用户交互和Haldar et al。18)提出一个方法来推断顶部活动位置的社会用户使用网络中隐含的信息。
2.3。设施选址问题
在区位论研究正式开始于1909年由阿尔弗雷德·韦伯(19),被称为现代区位论之父。他研究的问题定位一个仓库最小化总旅行距离仓库和一组客户。自那时以来,许多研究人员已经观察到这个问题在不同的地区,也有一些调查的现有技术设施选址问题,喜欢20.,21]。Elzinga和赫恩给几何算法解决1-center问题以欧几里得距离,和证明算法的正确性22]。Drezner [23]讨论了定位之间的新设施的问题通过给定的需求点 - - - - - -范数距离考虑,并提出了两种启发式算法和最优的算法来解决这个问题24]。后来卡拉汉et al。25]试图加快优化方法提出了(24)通过引入社区减少计划和嵌入最大化策略政策。
2.4。有条件的设施选址问题
条件定位问题最初是由Minieka [26),研究条件图中心和中位数。给定的位置现有的设施,额外的设施需要位于最小化和任何需求点之间的最大距离其最近的设施条件(无论是现有或新的) - - - - - -中心问题。Drezner [27)解释说,有条件的 - - - - - -中心可以解决的问题解决 - - - - - -中心问题,表示数量的需求点。一个方法求解这两个条件 - - - - - -值和 - - - - - -中心问题是调查伯曼和Drezner28]。无条件的方法需要一次性的解决方案 - - - - - -值和 - - - - - -中心问题结合最短的距离矩阵。陈和陈29日)提出一个理论算法求解条件离散和连续的 - - - - - -中心问题。最近,曾庆红et al。30.]提出一种新颖的新兴online-to-offline企业业务位置规划方法。的方法,在线社交网络营销的定义是基于一个特定的扩散的影响最大化过程模型,知道离线等因素的竞争位置,目标用户,和地理距离。
与现有的作品相比,我们的方法FLS的选择样本位置基于设施配置技术,而节能灯是基于条件设施配置技术。我们两的方法可以获得较短的目标距离比现有的抽样方法。此外,节能灯FLS的扩展到一个持续的过程,因此在线广告服务可以立即开始。
3所示。初步和问题定义
在本节中,我们首先介绍达因的定义问题,分析现有的样品位置达因方法选择,然后我们给出一个正式的定义问题的探讨。
3.1。Distance-Aware影响力最大化
我们认为geo-social网络是一个有向图 ,在哪里代表一组用户和 代表了用户之间的关系。每个用户 有一个地理位置 ,在哪里和分别代表了纬度和经度。我们表示 一个节点集的概率 可以激活 在一个特定的传播模型。传统的影响力最大化问题是找到与 最大化 。然而,影响力最大化geo-social网络通常认为促进查询位置(如餐厅)。直观地说,附近的用户位置更容易访问的位置。我们表示 一个用户的重量对一个位置 ,和重量取决于之间的距离和 。因此,distance-aware影响力最大化(达因)给出的定义如下。
定义1 (distance-aware影响力最大化)。给定一个geo-social网络
,一个查询位置和一个正整数
,distance-aware影响力最大化问题是找到一组的节点最大distance-aware影响传播,也就是说,
在哪里
是一个节点集distance-aware影响传播
。
为了解决达因的问题,王et al。2,3)提出了两种方法,即MIA-DA和RIS-DA独立级联模型。MIA-DA延伸的最大影响树状模型,可以实现一个近似的比率
。RIS-DA扩展了反向影响抽样模型,可以实现一个近似的比率
至少有概率。根据的比较2),比MIA-DA RIS-DA更精确,但效率较低。
等达因方法需要预先执行影响传播关于一些样品位置。之后,根据预先计算的影响蔓延,他们影响传播的范围可以推出任何查询位置通过调查之间的关系查询位置和样品的位置。自查询位置可以任意点在二维空间中,他们选择样本空间位置分布均匀。例如,MIA-DA分区空间变成一个相同的细胞数量,并选择每个细胞样品的中心,而RIS-DA随机选择样本位置,然后分区空间到泰森多边形法细胞基于样本的集合。因此,肯定有一个附近的样品位置任意位置,无论哪个单元。
3.2。问题定义
以上样品位置选择方法导致沉重的预先计算开销和大索引空间为了保证良好的估计的影响。让用户点的数量 ,种子的数量 ,和样本数量的位置 。预先计算的时间复杂度MIA-DA和RIS-DA是 。此外,获得严格的界限,查询位置和其最近的样本之间的距离位置需要足够短。由于样本空间位置分布均匀,样品位置数量的增加显著的减少样本之间的距离位置和潜在的查询的位置。
在本文中,我们认为查询位置达因问题应考虑用户的空间分布和不应任意点在二维空间。可能查询位置始终遵循用户的分布的现实。例如,当公司需要为他们的产品做广告通过社交网络,他们更有可能选择一个查询位置在人口密集的位置,而不是远离人群。否则,没有潜在消费者对他们查询位置之间的距离,从而解决达因的问题是没有意义的。所以我们有以下查询位置分布的合理的假设。
假设1。给定查询的位置应该遵循用户的空间分布。正式,因为一个积极的实数
,存在至少一个用户
为一个查询位置这样
。
直观地说,对于一个用户,活动是一个圆的面积与半径集中在它的位置
,被称为用户圈。因此,只有在这个圆可以吸引用户查询位置。查询所有用户圈组合区
,如图1。我们表示
这一个点位于查询区
。在这种假设下,本文要解决的问题可以形式化如下。
问题1。(样品位置选择)。给定一个geo-social网络
,查询区域定义的位置和半径用户活动,总数
样品的位置,现有的样品位置和额外的取样位置的预算
,找到一组样品位置的2 d空间和表示的集合样品的位置,
,这样的目标的距离
是最小化。目标距离是任何查询位置之间的最大距离和它最近的样品位置(是否现有或新的),也就是说,
。为了方便起见,我们表示最优目标的距离。
总数样品的位置是固定的,当
,也就是说,
,样品位置的选择是一个一次性的过程。一次
,样品位置选择的过程是连续的。
例如,如图2,有两个用户和
,和黄色圆圈组成相应的查询区。如果
,如图2(一个)样品位置线段的中点是吗
。因此,最远的查询地点是和
,我们有
或
。其他样品的位置
,假设更接近于
,我们有
很明显,最低目标距离
,最优组样本的位置
。如果我们选择一个样本的位置
,我们需要样品一个位置,因为任何查询点之间的最大距离和它最近的样品位置(现有或新的)是否需要最小化,两个样本位置将分布如图2 (b)和目标的距离
。
(一)
(b)
3.2.1之上。问题硬度
一样的问题1位置选择过程描述,样品可以完成几个步骤。自从位置采样每一步可以简化讨论的问题(4,已经证明在4],每一步的位置抽样是np困难,从而问题1是np困难的。
4所示。设备定位取样(FLS的)
在本节中,我们首先提出一个启发式方法选择样本的位置对于一个给定的查询区域在二维空间,和开发高效的算法基于设施配置技术的研究(23,24]。
4.1。方法
由于样品的硬度位置选择上面定义的问题,我们提出一个启发式的方法来解决这个问题。主要的思想是,我们选择一组离散的锚点查询区,并找到给定数量的抽样地点在二维空间中,这样每个锚点可以达到在最小距离其最近的样品位置 。注意,FLS的选择所有样品的位置,也就是说, 和 。让任何点之间的最大距离在查询区域和其最近的选择样本的位置。虽然可能会有一些地区查询区域内选定的样本无法到达的位置距离 ,也就是说, ,我们能保证不超过与一个特定的策略,通过选择锚点的功能 是由策略。确定任意点在查询区域内可以达到最近的选择样本位置的距离 。因此,我们安全地使用上限 的(当然, )作为最终目标的距离。
注意,两个锚点选择策略提出了在4),我们利用基线锚点选择策略。
以下4.4.1。样品位置选择启发式
给定一组锚点,我们的目标是找到一组的样本的位置在空间最小化任何锚点之间的最大距离其最近的样品位置,即 ,被称为 - - - - - -中心问题。简而言之,我们的解决方案的启发式 - - - - - -中心问题如下。让 是一个 - - - - - -分区的 ,也就是说, ,在哪里 。给出一个最优 - - - - - -分区 ,我们发现一个中心点 通过处理1-center问题 ,并选择中心点作为最终样品的位置。
得到最优 - - - - - -分区,我们需要定义一个目标函数。让是1-center问题的最优目标的距离 。我们有 在哪里空间所有点的集合。为了方便起见,我们1-center问题的最佳点 。然后,让的目标函数 - - - - - -分区。因此,我们有
显然,最优 - - - - - -分区对导致了样品位置的最低目标距离。特别是,对 ,如果 , 被称为作为一个极值子集。
4.2。算法
样品位置选择算法的伪代码中给出的算法1。最初,我们选择锚点为中心(1号线),分配每个锚点的子集的中心利用泰森多边形法的原理图(2行)。然后,我们细化分区锚点的迭代,直到的价值不能减少(3 - 9行)。在每个迭代中,我们试着从一个子集点移动到另一个更好的价值 。直截了当地,我们可以重新分配每个锚点到另一个子集,并选择最好的计划。然而,有可能的计划,并不是所有的人可以减少的价值 。因此,我们给出一个高效的再分配方法如下。根据最小覆盖圆的研究问题(22),的价值可以由不超过三分 ,这是用的集合 ,也就是说, 。给定一组极值的 ,我们有 ,这样的价值将改变如果我们删除一个点 从 。因此,我们只考虑锚点的重新分配为了达到一个更好的价值 。最后,通过调用算法2最优分区的中心点返回的样品位置。
|
||||||||||||||||||||||||
|
||||||||||||||||||
算法21-center问题给出了解决方案和复杂性 。最初,一个子集锚点,我们选择一个点 在空间的中心(1)行。 ,我们选择的三个最远的点 组成一组作为可能的(2)行,然后我们开始更新迭代,除非是没有意义的外圆的决定 ,也就是说, (3 - 6行)。在每个迭代中,我们选择最远的点从 ,并设置新的作为 。最后,我们返回最优的中心自 。
的中心的确切的三分,三分问题研究[23]。我们的想法是,首先检查是否有两点和定义解决方案。如果是这样的话,让 , ,和其他点之间的距离和 不超过 ,然后 是这三个点的中心。否则,我们找到一个点在三角形的这三个点为中心 ,具有相等的三角形的三个顶点的距离。
4.3。分析
我们有一个观察,FLS的可能陷入局部优化的样本总数位置足够大。如图3,目标距离保持不变,当样本数量的位置是500,1000和1500年,分别。我们分析所有样本的分布位置和显示样本的数量的比例位置在一定半径表1。给定一个样品位置和分配给这个示例的锚点位置,代表锚点之间的最大距离和半径样本的位置。随着样本数量的位置的增加,样本的数量较低的位置半径增加,而较高的样品位置半径减小。我们可以得出结论,整个半径减小,但优化只是当地而不是全球因为客观的距离是相同的采样地点的数量增加。局部优化的原因FLS的介绍如下。
首先,FLS的执行一次性选择所有样本的位置,和目标距离是通过精炼分区迭代。细化分区时,我们从绑定设置删除点的极值子集其它子集只有目标的距离将会减少。然而,很明显,没有细化如果极值子集是远离其他子集因为没有点极值子集可以删除其他的子集。此外,在人口密集的中心位置将不会被精炼到人烟稀少的地方,因为这两个位置总是远离彼此的价值不会减少。细化时,每个子集的中心可能会改变,但中心的总数是一样的,也就是说,接近彼此的中心将不会被组合成一个即使它们之间的距离非常短,相应的半径很小。
因为样品位置的总数是固定的,样本的分布位置将遵循锚点的空间分布。换句话说,样本在人口稠密地区的数量远远大于在人烟稀少的地区。
引理1。样品在人口稠密地区的数量远远大于在人烟稀少的地区。让代表总锚点,或代表人口稠密区(或人烟稀少的地区),或代表的锚点或锚点的数量 ,和或代表的样品位置(或样品位置的数量 ),我们有 。
证据1。由于初始中心锚点的随机选择,每个锚点的可能性是选为中心
。一般来说,锚点在人口稠密地区的数量大于在人烟稀少的地区,从而
。假设固定数量的样品位置
,最初,我们有
和
。自
,我们有
。一旦最初的中心,选择其他锚点将分配给他们最近的中心和形式
- - - - - -分区。然后,分区将精炼到的价值不再减少。如上所述,中心将不会在改进相结合,在一个人口密集的位置和中心不会精制人烟稀少的位置,因为他们总是远离彼此的价值不会减少。因此,总是大于
。
人口密集地区的中心的半径非常小,因为有更多的样品位置等领域。锚点之间的距离在人烟稀少的地区总是大,即。等领域的,中心的半径大;因此,目标距离等领域的由半径决定根据方程(3)。如表所示1采样地点的数量增加,目标距离不变自中心最稀少地区不能细化到其他领域。因此,我们可以得出结论,优化主要是在人口密集地区进行的但不是最人烟稀少的地区。换句话说,读者可能会达到一个局部最优值,当大量的样本选择位置。
5。条件设施定位取样(节能灯)
在本节中,我们设计节能灯抽样方法,扩展了FLS的方法一个持续的过程,从而可使网络广告服务立即开始。
而预先计算开销很大程度上减少相比,现有的采样方法(2,3),读者仍然采用计划预先计算必须完全开始前完成在线广告。为了进一步加速的过程,我们建议进行样本的位置选择在几个步骤,只有选择少量的样本每一步。只要样品位置选择在一个步骤完成后,在线就可以开始播种。因为节能灯只选择一个小数量的样品位置,选择可以很快完成,但目标距离可能非常大。然而,它可以减少目标距离和改进质量的在线广告服务通过添加样品后续步骤。就像前面提到的4.3,目标距离是由中心的半径在人烟稀少的地区,所以节能灯试图投资样本位置在后续步骤的人烟稀少的地区,从而客观的距离可以有效地降低了。
此外,我们有一个观察,给定相同数量的样品位置,节能灯能达到更好的目标距离比FLS的样本的位置足够大的数量。因为FLS的选择所有样本位置,许多样品位置根据引理分布在人口密集的地区2,从而FLS的更大的目标的距离,因为目标的距离是由中心的半径在人烟稀少的地区。相比之下,节能灯投资样本位置在人烟稀少的地区在后续步骤中,有大量的样品位置在人烟稀少的地区,导致一个更好的目标距离。
例如,如图4、样本数量的位置是相同的数据4(一)和4 (b)。红点代表样本位置,黑色的点代表锚点,红圈代表了目标距离的半径。在图4(一),我们可以发现有更多的样品位置在人口稠密的地区。然而,这些领域可以被更少样本位置如图4 (b)位置,和额外的样品可以投资在人烟稀少的地区。因此,目标距离可以减少,因为有更多的样品位置在人烟稀少的地区,随着目标距离图4(一)在图11.84,目标距离4 (b)是11.27。
(一)
(b)
5.1。方法
我们把样本位置选择成连续的步骤,选择少量的样本在每个步骤。正式,我们表示 样品的位置选择在连续的步骤。具体来说,考虑到固定数量的样品位置 ,我们首先选择样品位置,然后我们选择另一个样品位置基于先前的结果样品位置,并选择另一个基于之前的样品位置 样品位置,等等。注意,每个锚点分配给其最近的样品位置(无论是现有或新的)。我们的想法是,我们每次添加样本位置,我们计算每个锚点及其之间的距离最近的样品位置,和等级降序的距离,然后找到问题的最优解的值所以,第一个锚点分配给新的或 样品的位置,其余的锚点分配给现有的或 样品的位置。关键问题是确定的价值 。在这里,我们执行一个二叉搜索找到 。注意,我们表示增加样本的数量每一步以后。
让 表示锚点,表示距离向量,代表之间的距离和其最近的样品位置,减少订单 。我们需要找到的价值以确保 被分配到新的吗取样位置和 分配给现有的吗样品的位置。让我们表示FLS的的最优解 通过 ,并表示节能灯的最优解 。
引理2。节能灯的最优解 。
证据2。我们给一个简单的证据称为(29日]。相反的假设存在一个解决节能灯与价值 ,,让满足 ,然后 被分配到新样品的位置, 分配给现有的样品位置。自 ,在哪里是节能灯的最优解, ,然后 。然而,每个锚点的距离 在其最近的样品位置小于或等于 。也就是说FLS的的解决方案 必须满足 ,一个矛盾 。
5.2。算法
连续样本位置选择算法的伪代码给出了算法3。由于样品位置选择过程分为连续的步骤,我们在每一步添加一定数量的抽样地点。算法停止,直到没有更多的样品位置可以添加。每次我们添加样本位置,我们利用条件 - - - - - -中心(27)算法来确定最优的解决方案。至于样品位置添加过程中,我们首先计算距离向量基于每个锚点之间的距离和其最近的样品位置(是否现有或新的),然后排序以减少顺序(2 - 3行)。注意指数的锚点的顺序并不重要,因此我们完善它们 。正如上面提到的,我们需要找到一个合适的值以确保 被分配到新的吗取样位置和 分配给现有的吗样品的位置。因此,我们执行一个简单的二分查找学报》第4 - 14(行),我们称之为FLS的计算的价值 。注意,因为我们只选择一个小数量的抽样地点在每个步骤中,FLS的可以忽略的局部优化样品位置的数量很小。根据引理2通过比较,我们细化迭代条件与(11),8号线和最优解的值 当迭代停止。注意,复杂性是由FLS的,代表锚点的数量。
|
||||||||||||||||||||||||||||||||||||||
5.3。分析
所示的算法3我们基于降序锚点距离最近的样品位置,并添加样本位置在锚点之间的距离的地方和他们最近的样品位置非常远。换句话说,样本位置是在人烟稀少的地区投资。我们已经提到,目标距离总是由中心的半径在人烟稀少的地区,从而获得目标距离的节能灯可以有效地减少在每个迭代中。如表所示2,所有中心的半径可以减少到一个小值相比FLS的表的结果1,最稀疏的地区中心的半径进行了优化。因此,节能灯的客观距离将超越FLS的时候足够大的样本总数地点。然后我们可以得出结论,进行样本位置选择在一个持续的过程,在线广告服务不仅可以立即还可以获得目标的距离比FLS的。
6。实验
我们的实验是在电脑上进行与英特尔酷睿3.2 GHz CPU和16 g内存。实现的算法C+ +与TDM-GCC 4.9.2。
6.1。设置
算法。有四种算法比较实验。(1)节能灯是基于连续设施选址的抽样方法,和样品位置选择是在一个持续的过程完成。(2)FLS的设施位置抽样法为基础,采用基线锚点选择策略提出了(4),所有样品的位置选择。(3)k - means简单的集群用户给定数量的组对距离,并选择每个集群的中心构成最终的样品位置。(4)RSQ扩展RS过滤示例查询区以外的地方,和RS的随机抽样方法2.Datasets。在我们的实验中,我们使用两个真实geo-social网络,用户可以分享他们的签到,如表所示3。签到代表用户的位置和获得的数据集http://snap.stanford.edu/data/。注意,只有88.6%和54.4%的用户签到Brightkite和Gowalla,分别,我们预先处理的数据集如下。因为有一些用户没有位置信息在Brightkite,我们随机生成一个位置对他们基于其他用户的空间分布。至于Gowalla,因为几乎一半的用户没有签到,我们删除这些用户没有位置信息,用于Gowalla和实际点是100 k。
但是。参数
读者和节能灯使用基线锚点选择策略提出了(4),和选定的样本总数的位置设置为相同的FLS的节能灯。
6.2。有效性分析
样品位置选择算法的有效性可以通过四个指标评价(4];为这个城市的其他三个指标直接影响目标距离的度量,我们只有现在的评价目标距离的度量。我们选择100年和1000年样本位置,分别,我们展示了四种不同的方法来选择一定数量的样品位置采用节能灯。第一个值轴代表现有数量的抽样地点,而其他人则表示当前数量的抽样地点后除了在之前的步骤。
如图5,样品位置的总数是100,和数字5(一个),5 (b),5 (c),5 (d)代表四种不同的方法选择Brightkite 100个样本的位置。例如,图5(一个)表明,节能灯完成100样品位置的选择 。具体地说,我们首先选择20个样品的位置,然后添加另一个20样品位置在每一步直到100年样本的选择地点完成,而FLS的k - means, RSQ选择100样品位置。我们可以发现目标距离的简单抽样方法如RSQ比k - means更糟,FLS的节能灯。注意,目标距离RSQ人数将远远超过100年和120年在Brightkite和Gowalla,分别当样品位置的数量是100;所以,我们设定一个限制为100和RSQ总是在图5和实现最大的价值6,设置相同的样品位置的数量是1000。尽管k - means可以显著降低目标的距离,还不如FLS的有效和节能灯。此外,目标距离的节能灯优于FLS的时候添加样品位置的数量大于现有的样品位置的数量。节能灯以来增加了样品位置在人烟稀少的地区,距离我们的目标肯定是减少后添加在每个后续步骤。一旦添加样品位置的数量较大,所示的改进是更重要的人物5(一个)和5 (b)。然而,图5 (c)显示,目标距离的节能灯可以比FLS的因为增加样本的数量位置太小。注意,目标距离FLS的保持不变,当样本数量的位置是80年和100年,因为局部优化的问题。数据5 (e),5 (f),5 (g),5 (h)显示选择的四种不同方法的结果100年Gowalla样本位置,结果几乎是相同的,Brightkite。
(一)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
(一)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
我们选择1000样品位置如图6,我们可以发现,k - means和RSQ执行比该方法FLS的节能灯,节能灯和执行比FLS的Brightkite和Gowalla。如数据所示6(一),6 (b),6 (c),6 (d)节能灯,目标距离几乎一半的读者。因为FLS的选择所有样本位置,样本数量的位置在人烟稀少的地区当样品的总人数要少得多的位置是根据引理大2。然而,目标的距离总是由中心在人烟稀少的地区。换句话说,节能灯优于FLS的因为节能灯关注投资更多的样品位置在人烟稀少的地区。此外,我们可以发现FLS的陷入局部优化如图6 (d)和6 (h)自700年目标的距离选择样本位置和1000年样本位置是相同的。注意FLS的陷入局部优化因为节能灯的目标距离选择700样本的位置是一样的目标距离FLS的选择1000样本位置,和节能灯利用FLS的选择样本的技术每一步。
我们可以得出结论,抽样方法提出了能够实现更好的结果比k - means和简单的抽样方法,如随机抽样。对于我们自己的方法,我们可以得出结论,当样本总数的位置足够大,节能灯总是优于FLS的和独立的方法选择样本的位置。注意,目标距离的提高节能灯仅限于锚点的分布。我们在一些合成数据集进行了节能灯,锚点均匀分布,我们发现目标距离FLS的比节能灯。然而,由于用户在社交网络的分布总是稀疏,节能灯可以实现更好的性能在实际的应用程序。
6.3。效率分析
我们评估的效率样本位置选择算法通过专注于特定数量的样本选择的响应时间的位置。因为节能灯完成选择在一个持续的过程,我们每一步的时间成本和累计时间成本。图7显示每一步的响应时间节能灯的样品位置的总数是100。我们可以发现RSQ当中跑的最快的算法,和k - means总是优于FLS的节能灯。自RSQ只是随机选择样本地点在二维空间和过滤器示例查询区以外的地方,几乎没有时间消费过程中。至于FLS的节能灯,我们可以发现,节能灯的响应时间增加样本的位置在每一步可能超过FLS的总响应时间。由于样品位置的数量是100,读者可以完成这种小数量的抽样地点的选择几秒钟。而节能灯需要执行二进制搜索找到适当的值在每个步骤中,响应时间将增加调用FLS的数量的增加。然而,节能灯的目的是提供一个连续样本位置选择和在线广告服务立即开始。节能灯可以选择少量的样品位置,从而用户可以立即得到播种的结果,因为他们不需要等待,直到完成所有样本的选择位置。如图7(一),读者的选择几乎8秒,而节能灯完成20个样品位置的选择2秒,然后可以开始在线播种算法。
(一)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
因为它消耗了多少时间FLS的选择100年样本位置,节能灯的优势并不明显。如图81000样品的位置选择,我们可以发现FLS的是49.46和129.34秒的响应时间在Brightkite和Gowalla,分别。用户需要等待将近一两分钟FLS的播种,因为在网上的在线过程不能开始,直到完成所有样本的选择位置。然而,至于节能灯而言,选择样本的第一部分位置完成在不到10秒,然后可以进行在线播种算法。注意每一步的响应时间节能灯的总响应时间远小于FLS的。当在线播种过程基于所选择的样本位置在前面的步骤已经完成,添加样本位置选择当前步骤也是离线完成;因此,用户可以即时和连续在线广告服务。
(一)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
图9介绍了四种抽样方法的累积时间成本。如数据所示9(一个)和9 (b)Brightkite, RSQ的时间成本是最小的,和k - means运行速度比FLS的节能灯,FLS的几乎一半的节能灯的时间成本。至于Gowalla,结果几乎是相同的,当样本数量的位置是1000,如图9 (d)显示,他们是更糟糕的是当样品位置的数量是100,如图9 (c)所示。原因是节能灯需要执行二分查找和调用FLS的确定的价值 ,和响应时间取决于发现的效率 。注意,节能灯的总响应时间只是略高于FLS的当现有的样品位置的数量大于增加样本的数量的位置。
(一)
(b)
(c)
(d)
7所示。结论
样品位置选择geo-social达因的问题网络是至关重要的。之前的工作主要由等简单的方法选择样本位置随机抽样或等于细胞取样,可以达到一个好的在线播种性能在一个温和的预先计算开销。我们提出的概念查询区和合理制定样品位置选择的小说的问题对于一个给定的查询,我们设计两种方法选择样本位置,用设施基于位置采样(FLS)和条件设施基于位置采样(节能灯),分别。至于FLS的,问题已经解决了通过选择一些锚点从查询区和发展启发式分区细化算法来找到一个锚点作为样本的中心位置,和所有样本的位置选择。FLS的可以实现一个特定目标距离通过选择更少的样品位置比现有的采样方法,从而有效地平衡网络性能和预先计算开销。而节能灯选择样本位置不断,样本的选择位置分为几个步骤,可以有效地减少和目标距离在每个步骤中,从而节能灯可以立即启动在线广告服务和网络广告服务的质量也可以得到保证。此外,目标距离的节能灯时甚至可以超越FLS的取样位置足够大的数量。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
附加分
设施选址的主要区别在于,基于抽样(FLS)方法提出了我们之前的会议论文,和条件设施基于位置取样(节能灯)方法提出了扩展。FLS的进行一次性样本位置选择基于用户在在线广告的空间分布。相比之下,节能灯可以逐步选择样本位置,以便我们开始在线广告迅速与少量的样品位置,然后提高网络广告的有效性通过选择更多样本的位置。此外,鉴于大量样本的位置相同,节能灯比FLS的距离可以达到更好的目标。
信息披露
早期版本的手稿被呈现为一个会议论文在“数据库系统高级应用程序”(4]。
的利益冲突
作者宣称没有利益冲突。
作者的贡献
研究提出的概念和设计科健唐、黔曾庆红,明钟,朱渊源,李所,Tieyun钱;数据收集是由陶詹,回族朱、黔曾庆红,和明钟;分析和解释结果被詹Shaohui监督,钱曾庆红,和明钟;手稿准备草案是由科健唐、黔曾庆红,明钟,小朱。所有作者回顾了结果,批准了最终版本的手稿。所有作者的手稿满足国际标准。