文摘

如今,人们越来越感兴趣的新鲜产品,如新鞋子和化妆品。为此,淘宝电子商务平台推出了fresh-item中心页面推荐系统,客户可以自由地和专门探索和购买新鲜物品,即新趋势页面。在这项工作中,我们做第一次尝试解决fresh-item推荐任务两大挑战。首先,fresh-item推荐场景通常面临的挑战训练数据是高度缺乏由于较低的页面浏览量。在本文中,我们提出一个深interest-shifting网络(DisNet),转让知识从大量的辅助数据,然后转移用户利益与上下文信息。此外,三个可判断的interest-shifting运营商了。第二,因为物品是新鲜的,他们中的许多人从未接触用户,导致严重的本身的问题。虽然知识转移可以缓解这个问题,我们进一步照顾这些充分预热将物品由一个关系meta-Id-embedding发生器(RM-IdEG)。具体地说,它学会学习的方式训练项id嵌入和集成关系信息嵌入性能更好。我们进行了全面的实验合成数据集和真实数据集。DisNet和RM-IdEG明显比最先进的方法,分别。 Empirical results clearly verify the effectiveness of the proposed techniques, which are arguably promising and scalable in real-world applications.

1。介绍

电子商务已经流行在我们的日常生活中。在传统的网上购物的场景中,所有东西都混在一起,推荐系统预测用户的喜好项目基于他们过去的交互,例如,点击,购买和评级(1- - - - - -3]。然而,这种策略忽略了项目的生命周期的影响,引起两个问题。首先,正如许多人越来越感兴趣的小说,新发布的商品,他们的需求将不会完全满意。第二,受欢迎的项目有更多的机会接触,而这些新产品是不知所措,即使与高质量4- - - - - -6]。

解决这些问题,淘宝电子商务平台推出了一个新的应用程序,也就是说,新趋势目标页面,推荐新产品的用户喜欢的新产品。如图1一张卡片,包含一个新的条目的文本描述被推到用户。一旦用户点击这张牌,新趋势页面出现,更多的条目从一个预定义的新鲜题库建议该用户。因此,用户更喜欢新发布的产品可以自由探索这个页面。然而,实现高质量的排名这个页面上,两个关键问题需要解决。

1.1。Q1:如何解决数据缺乏的问题吗?

推荐新产品直接在应用程序的主入口页面可能会导致不可预知的影响。因此,这个页面必须设计成fresh-item推荐场景。应用程序的主入口页面相比,新趋势据报道,页面包含少于5%的页面浏览量。大部分的新鲜物品只有几个交互,使场景特定的训练数据高度不足。因此,我们必须收集额外信息来提高性能。

1.2。可能的解决方案,第一季度

我们首先注意到点击卡含有丰富的上下文信息,如展示品和它的文本描述,清楚地反映了用户的利益。因此,我们可以利用现成的上下文感知推荐系统(卡斯)[7),如该方法(8,9)和基于深度学习模型(10- - - - - -15]。然而,模型复杂性增加时,由于语境的参与功能,防止模型被充分地训练。为了处理这个问题,跨域推荐系统(cdr) [16- - - - - -18]看起来吸引人是因为他们在处理数据缺乏优势。特别是,非对称cdr [19- - - - - -21),收集大量的上下文无关的数据(例如,数据从应用程序的主要入口,即辅助数据),可以用来提高预测的性能。然而,现有的非对称cdr模型很少考虑目标域的场景特定的上下文信息。

1.3。Q2:如何处理完全预热将物品吗?

据淘宝,超过60%的新鲜物品新生儿和从来不被用户互动,导致严重的本身的问题。注意,这些新生的物品没有数据缺乏的原因,因为他们不是一个训练数据的一部分。

1.4。可能的解决方案,第二季

本身的问题通常是通过整合解决外部信息,如项目属性(22,23),用户属性(24,25),关系数据(26),从其他领域和知识16]。我们注意到,可以缓解这个问题通过应用跨域技术因为项目属性的嵌入可以重用。然而,由于本身项的id从未出现,其嵌入不能获得良好的初始化。锅等。27]提出meta-Id-embedding生成器(Meta-IdEG)认为id嵌入初始化问题,通过学会学习培训的方式解决它。然而,meta-IdEG只利用项目特性生成id嵌入。因此,它无法探索社区结构信息初始化id嵌入时,导致次优的解决方案。

1.5。我们的解决方案

在这项研究中,我们提出两个新的技术来构建一个深上优于推荐系统,并同时解决上述问题。该模型充分利用了各种类型的外部信息来提高预测的性能。为了回答Q1,我们提出一个深interest-shifting网络(DisNet)。具体地说,它首先学习用户兴趣向量使用大量的辅助数据,然后转移到使用上下文场景特定表示。接下来,可训练的参数的大小减少到几层神经网络,大大减轻数据缺乏的问题。回答Q2,嵌入层转移项目属性可以被重用,唯一重要的是项id嵌入初始化的问题。因此,本文提出了一个关系meta-Id-embedding发生器(RM-IdEG),是学会学习的方式训练,旨在使模型few-shot培训后达到很好的泛化能力。此外,RM-IdEG吸收相关项目的信息。因此,社区本身结构信息可以嵌入和利用,已被证明是有利于解决本身的问题(26]。

这项工作的主要贡献总结如下:一种新颖的应用程序,新项目的建议,研究,使新项目更多的机会接触和完全人性化的建议那些喜欢这部小说,创新的产品。我们也第一次尝试解决fresh-item推荐任务由两个新颖的技术。我们提出深interest-shifting网络(DisNet)处理严重fresh-item推荐场景数据缺乏的问题。解决本身的问题,我们提出一个关系meta-Id-embedding发生器(RM-IdEG),涉及到关系数据到meta-id嵌入初始化,使社区本身包含结构信息。大量的实验结果表明,我们的模型可以有效地处理fresh-item推荐任务本身和热启动阶段。

接下来的工作是组织如下。在下一节中,介绍了符号和初步知识。在第三节,我们提供的详细描述我们的网络体系结构。在那之后,实证研究的结果报道。然后,我们给我们的方法的相关工作。进一步讨论和结论提供了最后一节。

2。符号和预赛

在本节中,我们首先讨论一个受欢迎的上下文感知推荐系统的体系结构。然后,我们介绍meta-IdEG的训练过程和总结表中的符号1

2.1。上下文感知推荐

一个受欢迎的策略在现有上下文感知推荐系统是为用户和项目学习潜在的表征,然后决定使用这些潜在的向量。

正式,给出一个示例,其中包含一个项目 ,一个用户 ,和潜在的某些情况下,我们首先喂成一个嵌入层。然后,他们的功能是由一个炎热的编码转换成向量表示或multihot编码。转换后的项目包含一个条目id嵌入特性 和其他内容的功能 对于用户,我们结合其id嵌入和其他特性作为一个矢量表示 最后,我们表示转换上下文特征 最后的预测是由

例如,在矩阵(该模型28), 正是他们的id嵌入的, 是context-biased预测函数。最先进的模型(29日,30.)也使用神经网络来学习用户/项目表示以及做出决定。本文还采用神经网络 , , ,导致双塔楼模型架构。

值得注意的是这样的一个学习范式深深夫妇模型中的上下文信息架构。在我们的跨域设置,有异构环境中,即场景特定上下文。因此,可教育的深层神经网络模型的参数不能被重用,这使得它们很难共享(不同领域的知识31日- - - - - -33]。

2.2。Meta-Id嵌入发电机

照顾新生儿用品,唯一重要的是学习如何嵌入的新项目的id。常见的学习范式首先使用一个Id嵌入发生器(IdEG)来初始化一个向量为新Id嵌入表中,然后使用传入的用户交互更新它们。最直观的方法是输出一个随机嵌入初始化。然而,其泛化能力可能限制由于本身的问题。为此,锅等。27)提出了初始化id嵌入的利用元学习技术,又名meta-Id嵌入发生器(meta-IdEG)。关于推荐的每一项任务,meta-IdEG确保良好的嵌入模型初始化这样few-shot培训后达到更好的泛化能力。

接下来,我们说明meta-IdEG的工作流。对于每个任务,它涉及到一个特定的项目,我们将其数据的例子(交互)分成两组:一组支持 和一组查询 我们首先满足项目功能神经网络生成一个id嵌入, 然后,我们优化 学会学习的方式。我们表示预测的标签设置为支持 使用 首先,我们可以获得本身的损失

然后,我们更新一步的嵌入梯度下降法: 在哪里 是学习速率。获得一个新的嵌入以来,我们可以预测标签 设置的查询使用 接下来,我们定义一个热损失

请注意, 不需要显式计算,我们只对他们的梯度感兴趣吗 最后,我们和两个损失meta-loss功能:

在这里, 是权衡参数。换句话说,最小化 同时达到两个目标:(1)新项目的预测误差要小;(2)少量的带安全标签的数据收集后,几个梯度下降法更新应该导致良好的泛化能力。

3所示。提出的模型

3.1。深Interest-Shifting网络

在本节中,我们目前的DisNet,学习框架建议项fresh-item推荐页面,通常含有丰富的场景特定上下文。整个网络体系结构如图2

我们注意到用户的潜在向量实际上反映了他或她的兴趣,一个潜在的空间,而场景特定的上下文中反映用户兴趣变化的一般利益(34,35]。例如,有一个男孩喜欢运动,游戏,和电子产品。一旦他单击iPhone-11新鲜项,他可能更加关注电子产品与先进的技术,我们可以推荐他新发布的智能手机,笔记本电脑,等等。我们假设这种兴趣将不会改变其潜在语义。换句话说,移位的表示可以直接送入决策网络 通过这个假设,我们可以解耦用户场景特定的上下文的整体利益。表示场景特定的上下文 ,我们提出一个interest-shifting运营商(ISO)获得了用户表示: 在哪里 有相同的尺寸 将上下文映射到一个潜在的空间中提取关键信息。

值得注意的是有大量的辅助数据,从中我们可以用户模型的总体利益。因此,我们可以pretrain项目/用户表示网络以及决策网络使用这些数据。我们表示pretrained网络 , , 然后,上下文信息可以合并将潜在用户向量一个场景特定但在相同的利益空间。在形式上,DisNet作出决定

这样一个模型不仅转移知识的一般利益领域具有丰富的数据样本,还减少了训练参数的大小 功能。显然,上下文感知和数据缺乏的问题可以同时得到解决。

请注意, 某些情况下共享的两个领域。然而,辅助数据可能有自己的上下文。我们忽略上下文信息和保存等公共部分只因为我们是建模的一般利益的用户。在实践中,我们也使决策网络 和嵌入层调整。

3.1.1。Interest-Shifting运营商

上面的讨论提供了整体网络架构。现在,我们可以执行任何合理的转移操作学习用户的上下文特定的表示。在这项工作中,我们引入三interest-shifting运营商,所有这些都与非常有趣的解释。添加操作符。学习动机的巨大成功表示和知识图,我们采用类似的策略作为TransR (36]。具体地说,它嵌入每个实体和关系,优化翻译原则 如果一个三联体 存在于图。回忆兴趣转移的例子。,when a boy clicks an item iPhone-11, the interest representation of this boy goes to the interest of a boy who has a preference for electronic products with advanced technology. If we regard the contextual information as a relation, we obtain our first operator, which adds up the latent user vector and contextual vector: 这意味着 有相同的尺寸。也就是说,投影函数 直接学习之间的差异原来的兴趣和移位的兴趣,这是类似于知识嵌入的关系图。床操作符。引入第二个操作符之前,我们回顾上下文感知推荐一种十分流行的技术,即上下文操作张量(COT) [37]。通过评估一个上下文操作矩阵,床将原始用户/项目潜在的向量映射到他们的上下文相关的。我们注意到床有三个主要的局限性:(1)假定上下文空间是固定的和上下文操作矩阵与不同的上下文值;(2)共同学习原潜伏向量矩阵以及相关操作;(3)使用线性映射,即。,a 3D tensor, to obtain the contextual operation matrix, which leads to degenerated performance. Obviously, COT cannot be applied to our problem directly because the data-deficiency problem prevents the joint learning procedure, and cross-domain data have different contexts.在DisNet,幸运的是,我们已经解耦用户的通用场景特定的兴趣的兴趣。因此,我们可以估计场景特定的上下文操作矩阵使用 功能: 在这里, 输出一个 矩阵而不是单个向量。换句话说,虽然床侧重于不同的背景值,我们的模型考虑外部环境如何影响用户的利益。神经网络运营商。然而,我们只考虑线性变化,而在现实中,转换可能是非线性的。这个桥梁,我们提出一种神经网络运营商: 在哪里 , 参考向量权重矩阵和偏见。 是激活函数。 表示两个向量的连接。值得指出的是,可以使用任何网络架构,和本文考虑一个简单的多层感知器。

而添加操作员将环境视为偏见和床之间的cross-influences考虑用户兴趣和上下文,NN-based运营商同时达到这两个目标。

3.2。关系Meta-Id-Embedding发电机

本节重点照顾新鲜物品本身的阶段,他们患有严重的本身的问题。值得注意的是,DisNet pretraining后可以重用嵌入层。然后,所有的属性除了项id获得伟大的嵌入。因此,唯一重要的是项id嵌入初始化。后(27),这项工作的IdEG学会学习的方式学习。尽管如此,我们注意到香草meta-IdEG提要项特性生成嵌入到一个简单的神经网络。显然,meta-IdEG忽视这一事实id嵌入反映了社区项目之间的结构信息,利用已被证明是有利于缓解本身的问题(26]。

为了纠正这个问题,小说关系meta-Id嵌入发生器(RM-IdEG)提出,而这列车项id嵌入学会学习的方式更好的嵌入和集成关系信息初始化,进一步提高DisNet新项目的性能。具体来说,我们收集一组热启动项显著预热将相关项目 许多有影响力的关系可以考虑,如相同的买卖相同的品牌商品的原因。例如,新发布的耐克t恤可能有类似的销售行为和其他物品在耐克商店。然后,我们构造一组id嵌入 在这里, 表示id嵌入的 相关的物品。然后,我们输出通过一个注意力嵌入新的嵌入聚合器:

在这里, 用于规范化。关注分数 是由一个全球关注的网络: 在哪里 , , 注意共享参数。然后,我们喂了注意力的id将和项目功能嵌入到神经网络获得最后一个嵌入: 在哪里 权重矩阵和 是偏差向量。获得数值稳定的输出,我们遵循一些技巧(27]:(1)删除最后一层的偏见;(2) 激活应用于最后一层。

备注1。该模型充分地址本身问题从两个方面:(1)通过一个学会学习的培训过程中,我们的模型与一些训练数据达到更好的泛化能力;(2)通过考虑有力地相关物品,RM-IdEG自动编码社区结构信息嵌入的初始化,并进一步提高预测精度。

3.3。培训

现在,我们描述我们的模型的训练过程。注意,培训新项目集 不包含那些新生的项。因此,我们选择一个子集 模拟本身设置。每一项的 ,这对应于一个任务,我们保留吗 例子支持设置和查询(共有 例子)。其余的例子,这些产品是下降了,因为他们不应该出现在我们训练RM-IdEG之前。为了避免减少基本模型的性能,我们限制在每一项 小于或等于 例子 显然,大于或等于 的例子。我们表示构造本身的数据集 剩下的项目的例子的数据 构成了热启动数据集 备注项 都是热启动项目,因为他们至少有一个数据的例子。我们称之为 本身,因为他们是用来训练RM-IdEG,这是专为完全预热将物品。同时, 被称为热启动,因为它用于火车DisNet,不考虑本身的问题。

总之,我们有三个数据集:(1)一个辅助数据集 ,没有场景特定上下文,收集从其他域;(2)一个数据集热启动 有丰富的上下文信息;(3)预热将数据集 包含few-shot例子。因此,整个模型训练三个阶段,我们把细节算法1。

输入: :辅助数据集
输入: :热启动数据集
输入: :预热将数据集
输入: :一个测试的例子
输出: :预测的标签的
1 重复
2 第一阶段,pretrain模型使用辅助数据
3 随机样本的一批数据
4 计算预测的标签 由方程(1)
5 更新 , , 通过梯度下降
6 直到收敛
7 修复 , , , ,
8 重复
9 第二阶段,火车DisNet使用热启动数据
10 随机样本的一批数据
11 计算 , 使用 ,
12 计算转移兴趣向量 由方程(6)
13 计算预测的标签 使用 由方程(7)
14 更新 , 通过梯度下降
15 直到收敛
16 所有可训练的参数除了项id嵌入的修复
17 重复
18 第三阶段,火车RM-IdEG使用预热将数据
19 随机样本的一个项目 并获得其支持/查询集
20. 聚合的嵌入关系的物品 由方程(11)
21 生成一个id嵌入 使用RM-IdEG
22 计算本身损失 由方程(2)
23 更新的id嵌入 由方程(3)
24 计算热损失 由方程(4)
25 更新RM-IdEG梯度下降法
26 直到收敛
27 如果 是一个预热将项然后
28 生成一个id嵌入 使用RM-IdEG
29日 其他的
30: 获取id嵌入 从嵌入层
31日: 如果
32: 返回一个标签 由方程(7)使用DisNet

4所示。实验

证明DisNet和RM-IdEG的有效性,我们进行全面的试验,回答下列问题:RQ1: DisNet比最先进的方法吗?RQ2: RM-IdEG比最先进的IdEGs吗?RQ3:我们的模型对参数敏感吗?

4.1。数据集
以下4.4.1。数据集描述

我们评估我们的方法在两个合成数据集和真实数据集:MovieLens (https://grouplens.org/datasets/movielens/)[38]:它由100万个movie-ranking实例在大约6000个用户和4000部电影。电影的特点包括电影id、标题、发布、流派。标题和类型的令牌的列表。用户的功能包括用户id、年龄、性别、职业、和zipcode。模拟我们新鲜的项目设置,我们选择性别、职业和zipcode场景特定上下文特征。我们也将评级得分转换为二进制值。评级小于4变成0,和其他人都变成0。图书漂流(http://www2.informatik.uni-freiburg.de/cziegler/BX/)[39):收集的Cai-Nicolas齐格勒从图书漂流(一个月爬http://www.bookcrossing.com/)社区。它包含了027万个用户,提供115万评级约028万本书。书书的特点包括ISBN号(id),书名,出版,出版社。用户的特点包括年龄和位置。类似于MovieLens,我们选择作为上下文场景特定位置特性。评级转换为1如果他们至少4和0,否则。Taobao-Fresh:收集2.031亿user-item点击互动产生的主要入口页的淘宝的应用作为辅助数据和440万年user-item点击产生的相互作用新趋势页面fresh-item推荐数据。共有480万个用户和160万件被认为,与71用户特性,17项功能,和17上下文特征(辅助数据没有上下文)。

4.1.2。数据分割

MovieLens图书漂流,我们第一组项的id。我们把这些物品的数量少于例子 和比 然后,我们构造一个数据集本身 通过保留 为每个项目的例子。从剩下的项目的例子 ,我们随机选择80%作为辅助数据 数据集和20%的热启动 我们设置 MovieLens。图书漂流,我们发现总共有48434本书被正好2用户。因此,我们将 它使我们学习一个极端的实验设置,即。,每项本身是只有一次的。

Taobao-Fresh辅助数据 已经收集了。然后我们fresh-item推荐数据分割成两部分。第一个是数据集本身 物品有大于或等于10交互和小于或等于20交互。同样,在每一项 有一个支持组和一组查询,每一种都有5个例子。剩下的项目收集的例子作为热启动数据集 这些数据集的统计数据,可以在表中找到2

4.1.3。数据生成

回答RQ1,为每个数据集,我们运行DisNet三种类型的数据:Auxiliary-only数据:它们包含辅助数据和上下文无关的热启动数据,即。热启动的,上下文特征数据删除。Context-only:正是热启动数据。换句话说,没有pretraining DisNet运行。完整的数据:他们包括辅助数据和热启动数据和本文的主要设置。

注意,这三种类型的数据是用来测试DisNet的有效性,而本身数据被用来评估RM-IdEG的优越性。

对于绩效评估,我们随机将热启动和预热将数据划分为80%的训练,20%的测试。我们连续五次实验,AUC性能的测试集是报道。

4.2。基线

我们在两个阶段评估模型。在第一阶段,我们比较DisNet三个上下文感知推荐模型:DeepFM [11]:它提要嵌入的分解机模型以及多层感知器,然后聚合输出,得到最终的预测。并通过(13]:密集的嵌入被送入一个致密层和产品层。然后,它连接他们的输出在一起,用一个两层神经网络的预测。CFM (15]:CFM是最近最先进的汽车交互方法,明确学习二阶特性。计算密集的嵌入和堆栈的成对外产品获得一个多维数据集进行交互。然后,它适用于卷积池技术来得到最终的预测。

嵌入向量的维度的每个输入字段是固定的128年,和激活函数选为ReLU所有的模型。书中建议的那样(11密度),我们使用三个隐藏层作为DeepFM深组件,并通过。DisNet,用户/项目潜在的大小表示设置为64。我们使用两个完全连接层和一个隐藏的维度的64用户/项目表示网络以及决策网络。我们不激活用户/项目表示网络的输出。神经网络的背景下网络/添加ISO和NN ISO网络的变化也包含两个完全连接层与隐藏的大小64和最后一层没有激活。床的ISO,我们线性学习上下文操作矩阵的大小 从上下文。最后,学习速率 - - - - - -正则化参数调整了5倍交叉验证。

然后,我们评估RM-IdEG与两个基线:Rand-IdEG: id嵌入的随机初始化是推荐系统中最常用的策略之一。Meta-IdEG [27:最先进的解决方案本身的问题。它首先提要项功能到一个简单的神经网络生成嵌入然后火车他们学会学习的方式。

Rand-IdEG,我们初始化id嵌入与从标准的高斯分布随机值标准偏差0.01。meta-IdEG,我们使用神经网络架构的建议(27]。对于RM-IdEG,我们使用一个两层神经网络与一个隐藏的大小为128 IdEG网络。根据锅等。27),权衡参数 是健壮的。因此,我们遵循他们的实验设置和设置 作为meta-IdEG和RM-IdEG 0.1。我们也跟着他们两个建议使用双曲正切作为输出层的激活和消除偏见。目标项目的合成数据集,我们选择 - - - - - -最近的邻居从之前的训练数据集,也就是说, ,利用汉明距离相关的项目, 选择了5倍交叉验证。为Taobao-Fresh,我们随机选择10项拥有相同的卖家和物品拥有相同的品牌相关的物品。我们选择DisNet-NN作为基本模型,pretrained了

4.3。实证结果
4.3.1。性能比较的上下文感知模型(RQ1)

34报告测试AUC的比较三种上下文感知模型合成数据集和两个Taobao-Fresh数据集。我们有以下结果:获得最佳性能的所有方法的完整的数据。例如,在Taobao-Fresh,DisNet-NN提高AUC auxiliary-only得分和context-only数据1.00%和1.69%,分别。这一发现验证利用辅助数据和上下文的重要性来缓解数据缺乏的问题。Taobao-Fresh数据集,所有方法达到显著改善context-only数据大于auxiliary-only数据。它表明,fresh-item推荐任务,上下文信息高度反映了用户的兴趣。auxiliary-only数据,所有的模型都是互相竞争。然而,在完整的数据,基线的性能没有显著改善后参与的环境特性。原因是这些基线深深夫妇的上下文模型,因此,辅助域的知识不能被充分的利用。以DeepFM为例;自 有不同的输入格式,深组件不能被重用。虽然我们可以重用嵌入层,其预测性能是有限的。DisNet模型与完整的数据明显优于所有基线以及auxiliary-only和context-only同行。interest-shifting算子使我们能够完全利用语境和跨域信息。不同interest-shifting运营商相互竞争的性能。此外,NN-based运营商获得最好的性能,因为它允许用户兴趣转移非线性。有趣的是,DisNet-COT总是表现不佳DisNet-Add context-only数据集,但比DisNet-Add上完整的数据集。我们假设的原因是床运营商往往overfit context-only数据因为它包含多个参数。辅助数据的帮助下,这个问题得到缓解。

4.3.2。性能比较不同IdEGs (RQ2)

56列出DisNet的本身和加热了的性能与不同的id嵌入发电机。一旦IdEG生成id嵌入,本身性能直接评估自身测试查询,所有物品本身的。然后,我们执行一步梯度下降来更新id嵌入使用自身测试支持组包含相同的物品查询集。最后,加热了的性能评估再次查询集。

从结果,我们得出这样的结论:Meta-IdEG和RM-IdEG胜过Rand-IdEG本身和加热了的阶段,因为学会学习训练过程保证他们迅速对看不见的数据实现良好的泛化能力。RM-IdEG达到最佳的性能在所有的数据集。尤其是,即使只有一次的训练,RM-IdEG仍然优于图书漂流数据集。通过整合信息的显著相关物品,RM-IdEG固有模型社区当初始化id嵌入的结构信息。

4.3.3。参数敏感性(RQ3)

的主要参数是权衡参数meta-loss 和相关物品的数量 的鲁棒性 研究了在27]。因此,我们调查的敏感性 和结果图书漂流MovieLens数据集在图所示3。我们可以看到,当 小,性能接近Meta-IdEG因为几个关系信息是后天习得的。当获得最好的结果 ,然后是性能下降。原因是, 变大,关系变得更弱,但是模型的复杂性增加。

5.1。上下文感知推荐

上下文感知推荐系统(卡斯)过去几年[引起了相当大的关注7]。早期的工作在汽车可以分为两类:(1)前置过滤方法(40),上下文指导训练数据的选择;(2)预滤器方法(41),上下文驱动的推荐结果的选择。这些方法的主要限制是,他们需要所有步骤的监督和调整建议(42]。为了解决这个问题,上下文建模方法中直接获取上下文信息模型建设。一些工作是基于矩阵分解(8),如CAMF [28]和CSLIM [9]。另一组研究利用张量分解技术建模user-item-context关系43,44]。最近,分解机(42,45,46和深度学习47,48基于汽车越来越流行,直接模型非线性特性之间的相互作用。一些研究也使用表示学习技术,例如, (49和床37),不仅提供一个潜在的向量也环境敏感表示。总之,所有上述方法假设数据是足够的训练,而严重的数据缺乏的问题发生在许多fresh-item推荐页面。

5.2。跨域的建议

如我们已经讨论过的,数据缺乏对推荐系统来说,最具挑战性的问题之一,它在许多fresh-item推荐场景更重要。一个承诺解决这个问题是跨域推荐系统(cdr) [50]。现有的cdr可以分为对称和非对称的。对称的模型(16,18,51,52)收集从多个域稀疏数据和预测,这些领域可以互补。在我们的任务中,对称的策略是不相容的,因为两个域异构数据格式和不平衡数据的大小。因此,我们考虑不对称模型(19,20.,21),旨在利用辅助数据域减轻数据缺乏的目标域。通过这种方式,知识从辅助域直接转移到目标域,作为先验或正规化。然而,许多非对称cdr采用浅方法和有困难在学习复杂user-item互动的关系18,26]。此外,场景特定上下文信息的目标领域已经很少考虑。

5.3。预热将推荐

当推荐的预热将新鲜物品,发生严重的本身问题。要处理这个问题,是很常见的为寒冷的项目或用户收集信息,例如,项目属性(22,23和用户属性24,25]。她最近的研究(26也利用关系数据来提高性能,如社会信息的用户。在[16),作者探索了一个对称的跨领域推荐系统,共享知识可以帮助缓解本身的问题。

最近,一系列的作品(27,53,54)也采用元学习技术(55)使推荐系统few-shot培训后达到良好的泛化能力。从用户本身的角度来看,MeLU [53学习本身的meta-id嵌入用户,然后预测用户对物品的偏好梯度的规范。从项目本身的角度来看,锅等。27)提出了meta-Id嵌入发生器(meta-IdEG),也考虑了id嵌入初始化。然而,由于meta-IdEG只使用项目生成id嵌入特性,它忽略了社区结构信息隐藏在id嵌入,从而导致次优的解决方案。

6。讨论和结论

6.1。进一步讨论

在本节中,我们将讨论这项工作的重要性。

但是。应用程序的重要性

fresh-item推荐个性化推荐任务揭示了一个新的视角,即。项目的生命周期的影响。有些人可能喜欢的产品经得起时间的考验,有些人可能对新发布的产品感兴趣。的新趋势页面支持后者的完全个性化的推荐。从另一个角度来看,这些新项目也获得更多的机会去接触。因此,优质新颖的产品可以迅速成为流行。我们也解决主要困难的学习任务,即。,数据缺乏和本身。

6.1.2。技术的重要性

令人惊讶的是,尽管这两个技术DisNet RM-IdEG提出处理fresh-item推荐任务,我们发现这两种方法都有广泛的应用。

正如上面提到的,DisNet是专为fresh-item推荐页面。事实上,这样的页面是很常见的在现有的电子商务平台。例如,比尔支付后,电子商务平台将向客户推荐其他相关物品。这是一个古典fresh-item推荐方案。显然,fresh-item推荐页面通常包含丰富的上下文信息。环境反映用户兴趣的变化从一个通用场景特定。然而,用更少的页面浏览量,这样的页面通常面临严重的数据缺乏的问题。这工作可以解决这个问题通过给小说学习框架,同时转移知识从一个辅助域以及充分利用上下文信息。

RM-IdEG也可以应用于许多实际的应用程序。在[27),作者提出了预热将学习meta-id-embeddings广告。我们还可以收集相关广告公司,主题,等等。因此,模型可以生成更好的id嵌入。此外,其他关系数据也可以考虑。例如,如果我们考虑用户本身的问题53),我们可以探索一个新用户的社交网络,以便RM-IdEG能够初始化一个及时和relation-aware id嵌入。

6.2。结论

在这项工作中,我们解决两个难题fresh-item推荐任务。首先,我们提出一个深interest-shifting网络处理新项目的数据缺乏的问题的建议。具体来说,用户的一般利益从大量的辅助数据集。然后,我们的模型场景特定用户兴趣变化一个使用上下文特征。其次,我们提出一个关系meta-Id-embedding发生器(RM-IdEG)缓解本身的问题。RM-IdEG是学会学习的方式训练与关系信息整合。因此,社区本身结构信息可以嵌入在新生儿的id嵌入的物品。广泛的两个合成数据集和真实数据集实验清楚地识别我们的方法的有效性,它已经部署在一个大规模的在线fresh-item推荐应用程序。

数据可用性

先前报道的数据被用来支持这项研究中,这些之前的研究(和数据)在相关地方引用文本中引用(38,39]。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作得到了国家自然科学基金(批准号61972336)。