文摘
建模用户行为序列学习提供关键优势在预测未来的用户操作,如预测下一个产品购买或下一个歌听,为目的的个性化搜索和推荐。传统方法的建模顺序用户行为通常取决于马尔可夫过程的前提下,虽然最近复发性神经网络(RNNs)已经通过利用他们的权力在建模序列。在本文中,我们提出将注意力机制集成到RNNs更好的用户行为建模顺序。具体来说,我们设计一个网络特色一个引发的l大量我nterval-basedG社会需求RecurrentU傻瓜(ALI-GRU)用户操作的时间序列模型。与之前的作品相比,我们的网络可以利用时间维度的信息提取时间基于间隔格勒乌除了正常格勒乌编码用户操作和有一个特别设计的矩阵形式关注函数来描述长期偏好和短期目的的用户,而最后解码attention-weighted特性来预测下一个用户操作。我们在两个著名的身上进行实验公共数据集以及一个巨大的数据集由现实世界数据的一个最大的网上购物网站。实验结果表明,该ALI-GRU先进的RNN-based相比达到显著改善方法。ALI-GRU也采用了在真实的应用程序和网络的a / B测试的结果进一步证明它的实用价值。
1。介绍
由于越来越丰富的信息网络,帮助用户过滤信息根据他们的偏好越来越要求,强调个性化搜索和推荐的重要性42- - - - - -45]。传统方法提供个性化内容,如项目协同过滤(33),没有考虑用户的动态行为,最近被认为是重要的因素。例如,预测用户的下一个动作,如未来产品购买,长期偏好和短期意图的分析需要的用户,在建模用户的行为序列提供了关键优势。尽管如此,用户行为建模顺序与时间维度提出了更多的挑战比建模时间维度。如何识别行为之间的关联和依赖是一个困难的问题。这个问题已经被广泛的研究,许多方法基于马尔可夫过程的假设,如分解个性化的马尔可夫链(32)和分层表示模型(41),设计和采用不同的任务11,15]。这些方法通常关注的因素模型,将稀疏user-item交互矩阵分解成低维矩阵与潜在因素。然而,对于建模顺序信息,通常不清楚如何将用户意图的动力学因素的框架模型。
最近,神经元网络算法得到了研究人员的关注(6,9,18,30.,48]。例如,许多不同类型的神经网络图(卫星系统)进行,而不是基于矩阵分解(MF)的算法(36),提出了学习图嵌入由于他们从非欧几里得的空间学习能力30.]。许多不同种类的递归神经网络(RNNs)提出了用户行为模型由于其强大的描述顺序数据的能力(14,29日,39,47,52]。例如,Hidasi et al。14]提出的方法基于大量的平行RNNs与丰富的功能模型连续的用户行为。吴et al。47)赋予用户和电影有着悠久短期记忆(LSTM)自回归模型来预测用户未来的行为。此外,更好地利用时间信息,朱et al。52),尼尔et al。29日],Vassøy et al。39)之间的时间间隔连续操作引入RNN细胞更新和忘记信息而不是只考虑操作的顺序。
尽管上述RNN-based方法的成功,有很多的限制,这些方法很难应用到现实世界中各种各样的应用程序。这些方法的一个固有的假设是,历史行为随时间的重要性(例如,在[方程(15)52]),这也是RNN细胞的固有特性,如封闭的复发性单位(格勒乌)和长期和短期记忆(LSTM)。然而,这种假设并不总是应用在实践中,序列可能复杂cross-dependence [46]。例如,用户的在线行为不是简单但却包含很多噪音和随机性。参见图1说明,展示了一个真实的顺序点击物品的用户在一个最大的网上购物网站。我们可以猜测用户打算购买一件t恤的勒布朗·詹姆斯和他/她终于买了 。但是用户也认为物品的不同(鞋和 )。很明显,和比更重要和预测最后的协议,尽管前两项比后者早两个项目在时间维度。这个例子中显示的难度顺序分析用户行为,在时间的简单假设基于间隔之间的关联行为不足以应付。
在本文中,我们受到的关注机制提出了自然语言处理(1,49]在过去几年取得显著进步。注意机制引入深度网络提供了输入数据的功能集中在部分或功能来完成给定的任务。同样,我们期待一个训练有素的注意机制有助于识别重要的相关操作顺序的用户行为进行预测。然而,现有的注意机制低效在用户行为建模顺序。因此,我们设计一个新的关注机制专门为我们的目的。
具体来说,我们提出一个网络特色一个引发的l大量我nterval-basedG社会需求RecurrentU傻瓜(ALI-GRU)的建模顺序用户行为来预测用户的下一个动作。网络图中描述2。我们采取一系列的双向格勒乌来处理用户访问序列项。格勒乌细胞在我们的网络不仅包括正常格勒乌也基于间隔格勒乌,后者反映了短期信息的时间间隔。此外,双向格勒乌提取的特征作为输入的关注模型,计算和注意分配在每一个时间戳,而不是单一向量在Seq2Seq模型(1,46]。因此,这种关注机制可以考虑长期相关性以及短期的间隔。我们的注意力机制是详细设计部分4。
我们已经完成了一系列的实验使用众所周知的公共数据集(LastFM和CiteULike [52])和收集的数据集,用真实的数据。广泛的结果表明,我们建议的ALI-GRU优于最先进的方法对这些数据集以明显的优势。此外,ALI-GRU采用在线和我们在网上表现A / B测试;测试结果进一步证明ALI-GRU的实用价值与优化的基线相比在实际的电子商务搜索引擎。
本文以下贡献:(我)首先,我们提出一个基于间隔格勒乌双向时间模型的长期和短期信息用户行为更好的捕获时间之间的动力学行为。基于间隔时间格勒乌能够有效地提取用户意图的短期动态驱动信号的关注功能和完善的上下文信息的长期记忆。(2)第二,我们设计一个新的关注机制长期和短期信息编码和识别复杂的行为之间的相关性,参加的驱动信号在每个时间步和上下文信息的嵌入。这种机制不受噪声影响的历史行为和健壮的提取序列之间的重要关联信息用户行为做出更好的预测。(3)第三,我们进行一系列的实验两个著名的公共数据集和一个大型数据集由一个真实的电子商务平台。大量的实验结果表明,我们建议的ALI-GRU先进的RNN方法相比得到显著改善。此外,采用ALI-GRU和我们在网上进行A / B测试,结果进一步证明了实用价值在实际的电子商务搜索引擎。
本文的其余部分组织如下。部分2讨论了相关的工作。用户行为建模顺序的问题是部分制定3,其次是详细描述我们的提议ALI-GRU节4。实验结果发表在部分5和结束语部分6。
2。相关工作
我们给在两个方面简要概述相关的工作,连续的用户行为建模和注意力机制。
2.1。用户行为建模顺序
由于意义的以用户为中心任务,比如个性化搜索和推荐,用户行为建模顺序已经在工业和学术界引起了极大关注。大部分的开创性工作依赖于基于模型的协同过滤(CF)分析user-item交互矩阵。有多种这样的算法包括贝叶斯方法(28)和矩阵分解(MF)方法(31日,50]。由于连续的特征信息,几个CF考虑时序动态工作,通常基于马尔可夫过程的假设(11,21,32]。的任务顺序建议,Rendle et al。32建议都可以个性化的马尔可夫链(FPMC)结合user-item矩阵的矩阵分解和马尔可夫链。他和McAuley [11)进一步整合相似性方法(20.动力学FPMC解决问题的顺序)。
上述工作的主要问题是,这些方法独立地将几个组件,依靠低级用户或项目的手工制作的特性,以及难以处理的长期行为。相反,随着深层神经网络的发展,Lei et al。22和郑et al。51)采用深度学习自动学习用户/项目的有效表示。此外,与复发性神经网络的成功(RNNs)在过去的几年里,缺乏工作已经试图利用RNNs [14,25,47]。例如,刘等人。25)考虑联合上下文信息如天气到RNN架构提高建模性能。RNN-based解决方案取得成功的洞察力在用户行为建模顺序是RNN顺序数据的捕获模式充分展现出能力。最近的研究(10,29日,39,52)还表明,时间间隔内连续信号是一个非常重要的线索来更新和忘记RNN的信息架构。朱et al。52)设计几次盖茨LSTM单位提高建模性能。他等。10)项目嵌入一个过渡空间,“用户建模为翻译向量操作项序列。刘等人。26)采用自适应上下文特定的输入矩阵和自适应上下文特定的过渡矩阵来捕获外部情况和如何在历史长度之间的时间间隔相邻的行为序列影响全球顺序的过渡特性,分别。但在实践中,有复杂的依赖和用户行为序列之间的相关性,这就需要深入的分析之间的关系的行为而不是简单的建模存在,顺序,时间间隔。总结一下,如何设计一个有效的RNN架构模型顺序用户行为实际上仍然是一个挑战性的开放问题。
2.2。注意机制
注意机制是现在普遍采用的原料在不同深度学习任务,如机器翻译(1,27)、图像字幕(24],问答[38),和语音识别5],它已被证明是有效的对捕获的贡献和网络中不同组件之间的相关性。注意机制的成功主要是由于人类不合理的假设往往会立刻处理整个信号;相反,他们只专注于选定的部分整个感知空间时和在需要的地方17]。为了避免正常网络的限制,整个源必须编码一个隐藏层,引起网络包含一组隐藏的表征与源的大小规模。网络学习关注权重分配给执行这些表象背后的软选择。
随着注意力机制的发展,最近的研究开始利用不同的关注架构来提高性能相关的任务(1,3,34,40,46,49]。例如,Bahdanau et al。1推测,使用一个固定长度的向量是改善这个基本的性能瓶颈encoder-decoder架构;因此,他们设计一个模型的自动搜索部分源代码句子相关预测目标词。杨et al。49]提出一种层次关注网络在单词和句子层面,分别获取文档的不同部分的贡献。Vaswani et al。40)利用多线程注意力机制来提高性能。王等人。46)提出一个范围战略打击造成的注意力分配不当memorylessness传统的注意机制。然而,大多数以前的工作计算注意分配根据每一个源向量的交互与一个嵌入向量的上下文或历史信息(如翻译单词在句子中的),这可能会导致信息丢失引起的早期前注意总结和噪声引起的错误。特别是,沈et al。35]提出一种引起语言理解方法没有任何其他网络结构(例如,RNN)。在[35),输入序列是由定向处理(向前或向后)self-attentions模型上下文依赖性和生产环境敏感表示令牌。然后,多维关注整个序列的计算一个向量表示。
事实上,注意机制是非常重要的用户行为建模顺序的任务。然而,我们所知,有一些作品集中在这个范例。陈等人。2)考虑注意机制与多层感知器多媒体推荐任务。歌等。37)提出一个推荐系统基于dynamic-graph-attention神经网络的在线社区。他们用递归神经网络模型动态用户行为和上下文相关的社会影响23与graph-attention神经网络),动态地推断影响者根据用户的当前利益。在本文中,一个有效的解决方案与注意力的机制更好的建模顺序用户行为调查。
3所示。问题公式化
我们开始我们的讨论的定义一些符号。让是一组用户和让是一组物品在一个特定的服务,如产品的在线购物网站。为每个用户 ,他/她的历史行为是由 ,在哪里表示用户的行动 表示用户之间的交互和项目在时间 ;相互作用有不同的形式在不同的服务,如点击、浏览,增加收藏。建模顺序的目标用户行为的条件概率来预测用户的下一个项目 对于某一给定的用户 。
我们以RNN为基本模型,按顺序生成多个步骤的条件概率。在步骤 ,的 - - - - - -th项矢量为然后送入RNN单位通过非线性变换,例如,多层感知器。然后,它更新RNN单位的隐藏状态,也就是说, ,以及RNN的输出单元。隐藏状态的表征和输出预测下一项训练矢量化鉴于 。训练RNN,我们的目标是最大化的一组用户的历史行为的可能性 : 在哪里给定用户的目标项目吗 。换句话说,我们的目标是尽量减少负对数似然,也就是说,目标函数: 在哪里RNN模型中参数的设置。
履行这个学习,它要求我们设计一个有效的RNN架构包括RNN细胞的内在功能和整体网络结构,近似一个高度非线性函数获取下一项的概率分布。在这个过程中,RNN通常患有复杂的依赖性问题,尤其是当我们处理用户操作有很大的噪音和随机性。注意机制是一个可能的解决方案,构造一个池层RNN的顶部细胞每一步描述当前的意图之间的依赖和所有的历史行动。我们将描述设计网络架构与注意力机制下一节。
4所示。ALI-GRU
见图左边的部分2,我们设计网络特征与长期关注机制基于间隔的复发性单位用户行为建模顺序。这种网络架构以物品的顺序为原始信号。我们的网络有四个阶段。嵌入层项映射到一个向量空间中提取他们的基本特征。双向格勒乌层的目的是捕捉长期偏好和短期的信息用户的意图;它由正常的天鹤座和时间基于间隔天鹤座(见图3)。注意功能层反映了我们精心设计的注意机制,这是说明正确的图的一部分2。最后,还有一个输出层将注意分配和提取的连续特性,利用正常天鹤座来预测下一个项目的条件概率。
4.1。嵌入层
嵌入层的目的是将项目的原始数据映射到一个修正向量空间,向量化表示的项目仍然保持物品的语义;例如,语义上相关项目在向量空间小的距离。通常物品可以首先表示为一个炎热的向量,然后处理几个完全连接层(52]。如果物品的数量太大,pretrained编码网络是有用的处理项目,它不仅编码等基本性质类别的物品也众包的属性如销售的物品(4]。在本文中,我们采用这两种方法对不同的数据集,分别。
4.2。双向格勒乌与Time-GRU层
这一层是用来提取驱动信号从输入序列和提炼上下文信息的长期记忆。现在我们详细方法这两个目标。
在前面的工作对于自然语言处理任务,注意函数是由一个单独的向量的输入(1,27,40]。该模型是有效的,因为相对稳定的输入字的语法和语义。然而,用户行为序列包含噪声和随机性,使简单的模型问题。我们提出一种新的网络结构与time-GRU提取用户意图的短期动态关注函数的驱动信号。
time-GRU的结构与正常相比格勒乌图所示3,黑色线条表示的网络链接正常格勒乌和time-GRU的红线表示新的链接。正常的格勒乌如下: 在哪里表示 - - - - - -th序列项向量。表示(N−1)th隐藏的状态向量。是候选人的激活。表示更新门,它决定多少单位更新其激活。重置门控制多少最后导致当前激活状态。代表了s形非线性函数和双曲正切代表了双曲正切非线性函数,和以聪明元素的乘法。重量参数 和 连接不同的输入和盖茨;参数 是偏见。
上述方程意味着正常格勒乌是善于捕捉一般顺序的信息。由于格勒乌是NLP任务的最初设计,没有考虑时间间隔内输入,这对于用户行为建模顺序非常重要。包括短期信息,我们增加正常时间门格勒乌 : 在哪里之间的时间间隔是相邻的行动。约束 是利用一个简单的假定,较小的时间间隔显示较大的相关性。此外,我们生成一个含时隐藏状态除了正常的隐藏状态 ;也就是说, 我们利用时间门作为一个过滤器来修改更新门以便更有效地获取短期信息。
此外,我们要利用上下文信息来提取长期信息尽可能少的信息丢失。最近的方法通常建立一个双向RNN和添加或连接两个输出向量(向前或向后)的双向RNN。双向RNN优于单向嵌入一但仍面临损失,由于颞动力学是考虑不够。相反,我们建议把向前的输出正常格勒乌(在方程(6))的输出反向格勒乌在不同步骤(向后格勒乌步骤的输出用在图2)。具体来说,我们生产连接向量 , ,…, ,如右边所示图的一部分2[,]代表连接向量。这种设计有效地捕捉尽可能多的上下文信息。
4.3。关注功能层
关注功能层负责链接和分析依赖和贡献在驱动信号和上下文提供的长期信息前面的层。不同于以往的注意机制,我们不能简单地总结上下文长期信息成单个特征向量,例如,使用 计算注意物品的重量隐藏状态 - - - - - -th步骤(46]。相反,我们设计参加驱动信号在每个时间步和上下文信息的嵌入。
具体来说,如右所示图的一部分2已经最后一个小节中讨论,我们使用 ,在哪里维格勒乌国家,代表长期上下文信息。 表示短期目的反映在项目 。然后,我们构造一个矩阵的关注 ,计算了是谁的元素 注意体重, 采用编码两个输入向量。重量参数。有一池层,例如,平均或最大池,以及长期的方向信息,然后有一个Softmax层规范化注意重量的驱动信号。让归一化权重 ;然后参加短期的意图向量 。最后,我们使用 作为输出到下一层是嵌入式向量的项目吗 - - - - - -一步。
我们想要强调我们的精心设计的注意机制的见解上面所描述的那样,这是不同于现有的方法,以减少上下文信息的损失由早期的总结。此外,由于驱动信号是参加长期信息在不同的步骤中,趋势变化的关注可以获得用户的喜好,更强大和更少的受噪声影响的历史行动。
4.4。输出层
鉴于 产生的注意功能层,我们使用一层正常天鹤座产生嵌入向量(在图2),它将包含上下文长期所有用户的历史行为信息对单个项目和短期的意图。嵌入向量然后解码产生最终结果。例如,我们使用Softmax函数完全连接层后获得的概率分布不同的项目在未来的行动:
如果候选项的数量太大,我们将使用稍微不同的解码功能,将详细的节5.3。
5。实验
在本节中,我们首先描述了使用数据集和一些先进的方法,比较基线。然后,我们报告并讨论实验结果在不同的数据集。
5.1。数据集
来验证我们的提议ALI-GRU,进行一系列的实验两个著名的公共数据集(LastFM (http://www.dtic.upf.edu/∼ocelma / MusicRecommendationDataset / lastfm-1K.html)和CiteULike (http://www.citeulike.org/faq/data.adp))。此外,我们还对实际执行离线和在线实验数据从一个最大的网上购物网站。表1显示了LastFM和CiteULike统计:(我)LastFM包含< , , , >元组收集到最后。调频API (https://www.last.fm/api/)。它代表整个听力习惯(直到2009年5月5日)为1000用户。我们提取元组< , , >从原始数据集进行实验,其中每个代表一个项目和每个元组表示用户的行动或行为听这首歌在时间 。(2)CiteULike由元组< , ,时间戳,>,每个元组表示用户论文注释与在时间 。一个用户注释研究论文(即。,item) at a certain time may have several records, in order to distinguish different tags. We merge them as one record and extract tuples < , , >构建数据集在[52]。
5.2。比较的方法
我们比较ALI-GRU以下先进的绩效评估方法:(我)映像序列预测与项目相似性模型(化石)(11]。这是一个最先进的映像序列预测方法基于马尔可夫过程。化石也认为探索的相似项目已经消耗/喜欢的用户达到一定的成功处理长尾的问题。我们使用的实现提供的作者(https://drive.google.com/file/d/0B9Ck8jw-TZUEeEhSWXU2WWloc0k/view)。(2)基本格勒乌/基本LSTM(7]。这种方法直接使用正常格勒乌/ LSTM作为主要的网络。对于公平的比较,我们将网络设置为使用相同的嵌入层和解码函数作为我们的方法。(3)会话RNN(13]。Hidasi等人提出一个RNN-based方法来捕捉用户的上下文信息根据会话行为。在我们的实验中,我们使用一个通常采用描述的方法(16)确定会议采纳这个基线。(iv)Time-LSTM(52]。该方法利用LSTM模型的连续的用户行为模式。正常LSTM单位相比,Time-LSTM认为时间间隔内连续信号,设计几次盖茨LSTM单位同样time-GRU。(v)简化版本1 (SV1)。这种方法的目的是验证我们的设计注意机制的有效性。ALI-GRU SV1方法是一样的,唯一不同的是,SV1使用中提供一种注意力机制[1,46]简单地总结了相关的长期信息成个人特征向量。具体来说,用户上下文行为建模为一个向量 ,和所有驱动信号出席这个向量。(vi)简化版本2 (SV2)。这种方法的目的是验证我们提出的有效性time-GRU根据短期信息生成驱动信号。ALI-GRU相比,唯一的区别是,SV2使用单项每一步(嵌入式向量)参加上下文信息。
所有RNN-based模型与开放源代码实现深度学习平台TensorFlow (https://www.tensorflow.org/)。培训是一个单一的GeForce特斯拉和8 GB P40 GPU图形内存。
5.3。实验LastFM CiteULike
我们第一次评估我们的方法在两个著名的公共数据集的任务顺序的建议。
5.3.1。数据集
在这个实验中,我们使用相同的数据集采用(52),即。,lastFM and CiteULike. Table1介绍了这两个数据集的统计数据。这两个数据集可以制定一系列的元组<user_id item_id,时间戳>。我们的目标是为用户推荐歌曲在CiteULike LastFM和论文根据他们的历史行为。
公平的比较,我们遵循训练集和测试集的分割中描述(52]。具体地说,用户随机选择进行训练。剩余的用户进行测试。为每个测试用户与历史的行为,测试用例的 - - - - - -测试用例是执行建议在时间考虑到用户之前的行动和真实 。建议也可以被视为一个多类分类问题。有关详细信息,请参考[52]。
5.3.2。实现
在[方法后52),我们使用一个炎热的项目作为输入到网络和一个完全连接层8节点嵌入。的长度GRU-related层的隐状态包括正常格勒乌和time-GRU是16。Softmax函数用于生成的概率预测下一个项目。培训中,我们使用AdaGrad [8优化器,这是一个变异的随机梯度下降法(SGD)。参数训练minibatch 16和初始学习速率的大小为0.001所有层。培训过程大约需要8个小时。
5.3.3。评估
在测试阶段,评价方法后,在52),我们选择10项最高概率作为最终建议。我们使用Recall@10测量真实项目是否在推荐列表中。Recall@10被定义为
在哪里是测试用例的数量在哪里在推荐列表和吗是所有测试用例的数量。我们进一步用MRR@10(意思是倒数排名)考虑地面实况的秩在推荐列表中。这是平均排名倒数的在推荐列表中。互惠的等级设置为0如果排名高于10。
5.3.4。整体性能
LastFM和CiteULike顺序推荐任务的结果如表所示2。它可以观察到,我们的方法执行的最佳LastFM和CiteULike所有指标,这表明我们提出ALI-GRU的有效性。具体来说,ALI-GRU Time-LSTM获得显著改善,这是最好的基线,平均和分别为Recall@10 MRR@10。它欠的优越性将注意力机制引入RNN-based方法,特别是在捕捉每个历史行动的贡献。
5.3.5。本身的性能
本身指的是缺乏足够的历史数据为一个特定的用户,通常降低了效率的建议。我们分析LastFM数据集本身的影响,给出了图的结果4。在这个图中,测试用例是分别计算不同数量的历史行为,和小数量是指本身。我们可以观察到,对于冷用户只有5行动,ALI-GRU执行略比最先进的方法。这是因为ALI-GRU认为短期信息驱动信号,而平均源信号在一定程度上为冷用户并导致更少的精确建模。随着历史行为的增加,明显ALI-GRU达到更好的性能比基线,这表明双向格勒乌和注意力机制可以更好的模型长期偏好提出建议。
5.4。离线实验
我们收集了大规模数据集从一个真实的电子商务网站进行进一步的性能评估。ALI-GRU也采用网上在线A / B测试和结果将在下一节中报道。
5.4.1之前。数据集
用户行为数据集的随机抽样在七天内点击和购买的日志(2017年7月开始的一周)一个真实的电子商务的网站。数据集是再次制定一系列的元组<user_id item_id,时间戳>。
我们专注于电子商务网站的个性化搜索的任务。所以我们阳性病例定义为那些购买行为由电子商务搜索引擎上面所提到的,当负面的情况下点击那些没有购买(如果没有在点击购买在5操作)。最后,我们有积极的情况下,消极的情况下,用户,物品。我们随机选择80%的用户培训,和其他用户进行测试。对于每一个正面或负面的情况序列中,我们的目标是预测用户是否购买根据他/她的历史行为,这是一个典型的二元分类问题。
5.4.2。实现
因为物品的数量在这个数据集太大,不便招用RNN-based模型的一个炎热的表示形式作为输入。相反,我们使用pretrained嵌入向量作为输入的物品和另外两个完全连接层使用,都有128个节点,reembed项向量。同时,我们跟随[广泛和深度学习的方法4)将最终完全连接的输出层,其大小是48岁的表示相应的物品。公平的比较,所有RNN-based方法采用pretrained作为输入项表示。隐藏状态GRU-related层的大小是128。我们最后使用乙状结肠函数来预测用户是否购买 。培训,损失函数叉和AdaGrad优化器采用minibatch大小为256和最初的学习速率为0.001层。整个培训过程大约需要50个小时。
5.4.3。评估
在测试阶段,我们使用Precision-Recall阳性病例的测量性能。此外,AUC (ROC曲线下面积)也采用,广泛用于不平衡分类任务(12]。AUC的价值越大,性能越好。
5.4.4。整体性能
表3显示了AUC的结果测量的整体性能。我们可以观察到所有RNN-based方法除了Basic-GRU超越化石基于矩阵分解与马尔可夫过程,这表明RNN的建模顺序数据的优势。此外,对于不同的看法不同的RNN-based方法的功能,我们也报告Precision-Recall曲线如图5和做一些比较和总结我们的研究结果如下。
5.4.5。基本的格勒乌与会话RNN与Time-LSTM
会话RNN和Time-LSTM相比达到显著改善基本格勒乌,这是在公共数据集与以前的结果一致。这是由于限制Basic-GRU / Basic-LSTM建模复杂的长期连续的数据。与会话RNN相比,Time-LSTM为高精度范围达到更好的性能(精度比约为0.73),欠的优势短期意图预测高度自信的物品。相反,会话RNN优于Time-LSTM低精度范围(精度低于0.73),因为会话RNN介绍会话视图上下文信息更好的模型,然后从召回项目基于长期利益偏好的用户。
5.4.6。会话RNN与Time-LSTM与ALI-GRU
采用时间门,强在短期动力学建模,和双向RNN,导致优势长期信息建模,ALI-GRU更好地分析复杂的依赖项和用户意图,结合一种新的矩阵形式的关注机制来提高性能。ALI-GRU优于会话RNN和Time-LSTM AUC高达10.96%和8.53%(表3),分别。观察Precision-Recall曲线,我们发现ALI-GRU节拍会话RNN和Time-LSTM整个范围,和高精度的改进是更重要的。ALI-GRU的优越性能在不同的数据集和视图展示了其功效来处理长期连续的用户行为与动态短期的意图。
5.4.7。SV1 SV2和其他人
我们也显示结果SV1和SV2消融(图进行分析5)。观察SV1的曲线,我们可以发现前面的注意机制与双向格勒乌只达到轻微改善Time-LSTM相比,这表明之前的限制注意捕获动力学机制研究项目的重要性顺序用户行为。相反,SV2优于会话RNN和Time-LSTM保持一致,特别是对于低精度范围。它表明,我们提出的矩阵形式的注意机制与双向格勒乌优越能力区分项目长期偏好的用户建模的重要性。然而,SV2下降很多的曲线精度大于0.82时,它在哪里比得上SV1 Time-LSTM。这是因为用户行为和意图是动态有一定的随机性,并计算单项不够健壮的注意分配和获取短期的意图。最后但并非最不重要,我们可以发现ALI-GRU导致性能提升与SV1 SV2一致。它展示了我们精心设计的优势矩阵形式的关注与长期基于间隔格勒乌框架建模顺序用户行为。
5.4.8。案例研究和见解
我们报告三例图6为全面研究给我们建议的方法的一些见解。每种情况下由一个用户的历史项目下令点击时间和显示了每个项目的注意力热图和最后一项(点击或购买)预测和地面真理。
一个案例。用户点击物品等几类的手表,手袋,服装,最后点击之前购买的手表。我们做一些观察结果如下:(1)ALI-GRU大多数手表比其他物品赋予更高的权重,这是符合用户的上下文的意图(采购手表)。它表明,我们建议的方法有能力捕捉用户的真实意图从历史的行为。(2)1日、3日和5日手表,这是一样的或类似的最终购买手表,有更高的权重比其他手表,尤其是第一看,尽管它最早被点击了很长一段时间。更有趣的是,我们可以观察到第六表对于女性来说,和用户可能是一个女人(根据礼服他/她点击),但是第六看手表重量相对最低。这些观察表明,ALI-GRU成功区分用户的当前的意图购买手表的男人。
案例B。如果物品本身重要的或重复或低频,模型没有注意机制可能工作得很好因为这样的模型可以自动分配低重量无关紧要的东西,反之亦然。然而,项目和用户意图的重要性是高度依赖于上下文和在某种程度上是一致的。在案例B,用户最终购买一个衣架,属于他/她从来没有点击的类。然而,ALI-GRU看着他/她的背景下最近的行为,推测一些关于衣服的意图是可能的,并正确地计算出这是一个积极的情况。
案例C。这不是一个正确的预测情况下根据地面真理。观察用户的历史行为和注意分配,我们可以发现ALI-GRU选择忽略各种项目之前第一个套装;这些行动有一个长时间间隔(大约两天)从后者的行动。此外,ALI-GRU推测用户想买些东西给正式的穿着。因此,ALI-GRU预测这是一个消极的理由购买USB电缆,最后由用户购买。在这种情况下,存在着波涛汹涌的和决定性的意图的用户,这是一个巨大的挑战留给未来的探索。
5.5。在线测试
与现实世界的电子商务用户在线测试进行了研究该方法的有效性。特别是,我们ALI-GRU融入电子商务搜索引擎上面所提到的,每天数以十亿计的点击。一个标准的A / B测试是在网上进行的。搜索引擎的用户随机分为多个桶,我们随机选择两个水桶实验。为用户在桶中,我们使用现有的高度优化的排名搜索引擎解决方案,执行学习等级(LTR)和强化学习(RL)与宽&深等几种有效的算法学习和CF的预测。为用户在桶B,我们进一步整合ALI-GRU产生的结果。具体地说,对于一个给定的用户,他/她的连续行为(点击物品和时间戳)从整个服务,收集和用户的意图向量由ALI-GRU实时预测。当用户提供了一个查询,我们将计算用户的意图向量与检索项计算购买概率,这是类似于离线实验的方法。最后,我们将购买概率集成到现有的排序策略。
在线A / B测试的措施包括总商品价值量(GMV),用户点击率(uCTR),点击转化率(表格),每个客户事务(PCT)和独特的访客价值(UV_Value),这些都是常用的指标在电子商务19]:
一周内执行的测试是在2017年7月。比较结果表4,绝对的值是省略了商业机密。结果表明,ALI-GRU达到更好的性能指标。正如我们所料,uCTR和表格都有所改善,这意味着用户更有可能点击reranked项目,有更高的概率来购买这些物品。更有趣的是PCT和UV_Value的提高,这是由于每用户事务数的增加与采购行为。这个结果表明,我们的模型提供了各种推荐功能到搜索引擎,如案例B图6。总之,我们提议ALI-GRU持续改善高质量基线最大的在线电子商务平台,已经优化了好几年。这样的改进是非常重要的电子商务搜索引擎系统和有重要的商业价值。ALI-GRU采用本文准备之前到搜索引擎。
6。结论
模拟用户行为序列学习为预测未来用户的行为起着重要的作用,如个性化搜索和推荐。然而,大多数RNN-based方法假设历史行为随时间的重要性,没有考虑cross-dependence的序列,这使得它很难适用于现实世界的场景。为了解决这些问题,我们提出一种新颖有效的方法称为注意力与长期基于间隔的复发性单位(ALI-GRU)更好的建模顺序用户行为。我们首先提出一个双向时间基于间隔格勒乌来识别复杂的行为之间的相关性和捕捉用户长期偏好和短期意图作为驱动信号。然后,我们设计一个新的关注机制参加驱动信号在每个时间步预测下一个用户操作。实证评估在两个公共数据集顺序推荐任务显示ALI-GRU达到更好的性能比最先进的解决方案。具体来说,ALI-GRU优于会话RNN和Time-LSTM高达10.96%和8.53%的AUC。此外,在线A / B测试在实际的电子商务搜索引擎进一步展示自己的实用价值。格勒乌不能并行计算,这需要大量的时间训练模型。在未来,我们将采用并行方法来解决这个问题。
数据可用性
使用的数据来支持本研究的结果包括在本文中。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作是由中国国家自然科学基金(没有。61873288),Alibaba-PKU联合项目,浙江实验室(2019 ke0ab01和2019 kb0ab06号)。