1。介绍gydF4y2Ba
在现实世界中,有一些场景多任务学习。在电子商务领域,我们需要增加点击率(CTR)和订单转化率(表格)在同一时间。在音乐领域,我们需要改善这首歌打开率和有效的回放速度。在中国医疗情况下建议,我们需要提高病历的点击率和用户满意度。提高推荐精度,Chen等人。gydF4y2Ba
1gydF4y2Ba )提出了一种改进的协同过滤算法,介绍了Bhattacharyya相似性计算到传统的计算公式。然而,单一任务的学习不能同时考虑多个指标。在这种背景下,研究多任务学习。在共享的基础下,multi-gate混合物的专家(MMOE) [gydF4y2Ba
2gydF4y2Ba )设计不同的门网络不同的任务。通过更新专家的权重,最好对所有任务描述特征。它有一个改进的影响不是很相关的一些任务。在视频的建议,为了提高用户的行为和用户满意度,赵et al。gydF4y2Ba
3gydF4y2Ba ]提出肤浅的子网。它也解决了在线和离线取样偏差的问题。众所周知,秩序行为发生后点击动作。模型训练过程中执行单击样本子空间,和在线应用于整个空间,这将导致样本偏差。温家宝et al。(gydF4y2Ba
4gydF4y2Ba )向模型中添加这些中间行为通过改善损失函数。以前的多任务学习手动hyperparameters,不平衡网络的灵活性和性能成本。子网路由(信噪比)gydF4y2Ba
5gydF4y2Ba )不敏感的力量之间的关系的任务。它可以结合学习一个好的结构,可以实现灵活的参数共享。秦et al。gydF4y2Ba
6gydF4y2Ba )提出一个模型,它可以结合MMOE和长期短期记忆(LSTM)在一起。该模型应用在多任务学习场景中用户行为序列特性。实际应用场景总是面临的挑战数据稀疏、数据异构性,和复杂的多目标,MMOE和LSTM尝试解决。进步的分层提取(中国)gydF4y2Ba
7gydF4y2Ba )提出了网络,其目的是利用多任务学习的跷跷板现象。为了解决负变压器问题,一方面,比如模型将专家分为共享专家和私人专家;另一方面,请耐心把样本空间的损失函数模型。王等人。gydF4y2Ba
8gydF4y2Ba ]提出一个Multitask-Aware公平(MTAF)方法来改善公平的多任务学习。习等。gydF4y2Ba
9gydF4y2Ba ]提出一种自适应信息传递多任务(AITM)框架,该结构由自适应多步转换之间的顺序依赖信息传递(AIT)模块。低秩分解self-attention网络(Light-SAN) (gydF4y2Ba
10gydF4y2Ba )提出,学习环境敏感表示通过用户历史项目和矿山连续有效地项目之间的关系。Gating-Enhanced多任务神经网络(Gem-NN) [gydF4y2Ba
11gydF4y2Ba )设计嵌入层之间的闸门机制和中长期规划,学习功能交互和管理信息流。多层次的共享模型(MSSM) (gydF4y2Ba
12gydF4y2Ba )提出,包括字段级稀疏连接模块(FSCM)和一个具有稀疏的共享模块(CSSM)。FSCM可以学习特点有选择地CSSM可以跨所有任务有效地分享知识。解决选择偏见和数据稀疏问题,分层次建模微观和宏观行为(gydF4y2Ba
嗯gydF4y2Ba
3gydF4y2Ba
)[gydF4y2Ba
13gydF4y2Ba ]提出了表格的预测,采用微观和宏观post-click行为在一个多任务学习模式。赵et al。gydF4y2Ba
14gydF4y2Ba ]提出多个关系关注网络,采用注意力机制来提高预测精度。模型结构来自于三方面:首先是任务和功能,其次是功能和特性,第三个是任务和任务。在推荐系统中,帕累托算法应用于多目标学习,使至少一个目标更好的而又不伤害其他目标。损失函数指的是马和放松约束条件,然后在每一批模型更新权重。随着知识蒸馏的想法,唐et al。gydF4y2Ba
15gydF4y2Ba ]提出一种新颖的模型,它采用指导多任务学习的主要特点。特征匹配算法结合了原始特征和主要特点,并将其映射到一个新的隐藏空间,提高多任务信息共享的效率。王等人。gydF4y2Ba
16gydF4y2Ba )提取算法提出一种新的模式来改善关系。嵌入层代表分享信息,它使用双向编码器表示从变压器(BERT) pretrained模型初步计算部分。该模型引入了知识蒸馏更好地使用辅助任务的信息。根据多任务学习框架,邵et al。gydF4y2Ba
17gydF4y2Ba ]介绍注意力地图卷积层开采两国高阶特征图从用户和商品。模型可以动态地捕捉用户的隐式对大宗商品。姚明et al。(gydF4y2Ba
18gydF4y2Ba )提出一个强有力的聚合多任务学习方法,它可以通过学习表示向量组任务。该方法假定一个任务是一个线性组合的其他任务。任务之间的相关性是通过统计计算的系数。基于知识图,Yu et al。gydF4y2Ba
19gydF4y2Ba )提出一个多任务功能学习方法使用知识图计算嵌入向量终于协助推荐任务。对话的建议是成为电子商务的一个重要组成部分。为了提高预测的效果通过开采顺序特性,陈et al。gydF4y2Ba
20.gydF4y2Ba 采用级联图结构和节点序列扩散。模型提出了一种共享表示层,这有助于理解的任务级联关系。序列知识从分享表示层,可以对级联编码结构和序列节点。大多数多任务构建网络通过多层功能共享。gydF4y2Ba
然而,以上研究在多任务学习工程和知识表示是基于功能,不引入多角度关注。我们整合粗粒度的注意力,细粒度的注意力,提高专家模式,self-attention和专家提供;因此,不同的任务专家可以更好的互动。gydF4y2Ba
本文的其余部分组织如下。部分gydF4y2Ba
2gydF4y2Ba 介绍了推荐系统在学术和工业中的应用。部分gydF4y2Ba
3gydF4y2Ba 论述了回忆阶段,排名阶段,多元化阶段推荐系统,描述了具体的改进方法。部分gydF4y2Ba
4gydF4y2Ba 在公共数据集的实验,比较了基线。部分gydF4y2Ba
5gydF4y2Ba 得出结论并提出了前景。gydF4y2Ba
我们提出的模型进行了总结的主要贡献如下:gydF4y2Ba
(1)gydF4y2Ba
我们引入了粗粒度和细粒度的注意力在城门口网络关注。每个任务层学习为每个专家查询向量,是在查询向量内积和专家,然后对结果的关注。门口的关注比基础MMOE方法取得更好的性能。gydF4y2Ba
(2)gydF4y2Ba
受梯度增加的树比随机森林,我们设计梯度增加专家网络,增强了不同专家之间的相互作用。gydF4y2Ba
(3)gydF4y2Ba
我们所知,我们是第一个介绍的专家级多头self-attention到多任务学习和获得更好的效果。gydF4y2Ba
(4)gydF4y2Ba
我们设计的时空序列特性到多任务学习和改善损失函数,可以支持多个源数据集。gydF4y2Ba
(5)gydF4y2Ba
我们进行广泛Ali-CCP实验数据并确认我们的模型代表最先进的方法的优越性。gydF4y2Ba
2。相关工作gydF4y2Ba
2.1。多任务学习建筑gydF4y2Ba
深层神经网络,点击任务与任务在不同比例加权,然后处理作为正样本。单一任务模型的想法是很难找到点击订单任务之间的权衡。模型更关注某个部分,学习可能偏离原始样本分布的信息。此外,单一任务处理忽略了一些信息,其中包含丰富的相关任务。使用多任务学习的同时优化多个目标。分享学习相关参数。子任务学习样本分布的差异。通过这种方式,我们改善代模型的能力。gydF4y2Ba
众所周知,大多数多任务学习网络特征参数共享模块,分为硬分享和共享特别软。努力分享功能层和底部构造完全共享。上层介绍不同的网络,以预测各自的任务。当任务更相关,分享更有效。负迁移会发生当任务不太相关。如果一个任务增加的影响,另一个任务的影响减少。为了解决这个问题,谷歌提出MMOE模型。为每个任务模型结构闸门控制机制,带来更好的效果。腾讯提出请耐心模型。试图引入多层共享专家和私人专家解决了异构任务之间的关系。 The structure of MMOE model is shown in Figure
1gydF4y2Ba 。gydF4y2Ba
(1)gydF4y2Ba
ygydF4y2Ba
kgydF4y2Ba
=gydF4y2Ba
hgydF4y2Ba
kgydF4y2Ba
fgydF4y2Ba
kgydF4y2Ba
xgydF4y2Ba
,gydF4y2Ba
fgydF4y2Ba
kgydF4y2Ba
xgydF4y2Ba
=gydF4y2Ba
∑gydF4y2Ba
我gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
ngydF4y2Ba
ggydF4y2Ba
kgydF4y2Ba
xgydF4y2Ba
我gydF4y2Ba
fgydF4y2Ba
我gydF4y2Ba
xgydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
∑gydF4y2Ba
我gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
ngydF4y2Ba
ggydF4y2Ba
kgydF4y2Ba
xgydF4y2Ba
我gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
ggydF4y2Ba
kgydF4y2Ba
xgydF4y2Ba
我gydF4y2Ba
代表输出的控制分对数gydF4y2Ba
我gydF4y2Ba
thgydF4y2Ba
专家,这是用来计算的重量gydF4y2Ba
我gydF4y2Ba
thgydF4y2Ba
专家。gydF4y2Ba
fgydF4y2Ba
我gydF4y2Ba
xgydF4y2Ba
表示gydF4y2Ba
我gydF4y2Ba
thgydF4y2Ba
专家网络;gydF4y2Ba
hgydF4y2Ba
kgydF4y2Ba
。gydF4y2Ba
意味着隐藏层。深入地,门网络方程如下:gydF4y2Ba
(2)gydF4y2Ba
ggydF4y2Ba
kgydF4y2Ba
xgydF4y2Ba
=gydF4y2Ba
softmaxgydF4y2Ba
WgydF4y2Ba
ggydF4y2Ba
kgydF4y2Ba
xgydF4y2Ba
。gydF4y2Ba
图1gydF4y2Ba
的multi-gate multi-expert网络。gydF4y2Ba
2.1.1。专家网络部分gydF4y2Ba
步骤1gydF4y2Ba 。建立一个神经网络为每个专家,得到的输出gydF4y2Ba
ygydF4y2Ba
。gydF4y2Ba
(3)gydF4y2Ba
ygydF4y2Ba
=gydF4y2Ba
XgydF4y2Ba
∗gydF4y2Ba
隐藏的gydF4y2Ba
1gydF4y2Ba
∗gydF4y2Ba
隐藏的gydF4y2Ba
2gydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
XgydF4y2Ba
意味着输入功能,其形状是批量大小,特征尺寸。gydF4y2Ba
隐藏的gydF4y2Ba
1gydF4y2Ba
显示第一个专家的单位隐藏层,形状的[特征尺寸,单位的第一个隐层)。gydF4y2Ba
隐藏的gydF4y2Ba
2gydF4y2Ba
第二个专家的单位显示隐藏层,形状的[第一隐层单元,第二个隐层单元)。因此,的形状gydF4y2Ba
ygydF4y2Ba
(批量大小,单位的第二个隐藏层)。gydF4y2Ba
步骤2gydF4y2Ba 。建立一个专家列表输出,用于恢复每个专家的输出。gydF4y2Ba
步骤3gydF4y2Ba 。在专家的最后尺寸输出,我们使用平操作堆栈gydF4y2Ba
ygydF4y2Ba
;然后我们将它存储为张量的。张形状(批量大小,单位的第二个隐藏层,专家的数量)。gydF4y2Ba
2.1.2。门网络部分gydF4y2Ba
步骤1gydF4y2Ba 。建立一个神经网络为每一个门,门的输出gydF4y2Ba
ygydF4y2Ba
。gydF4y2Ba
(4)gydF4y2Ba
ygydF4y2Ba
=gydF4y2Ba
XgydF4y2Ba
∗gydF4y2Ba
隐藏的gydF4y2Ba
1gydF4y2Ba
∗gydF4y2Ba
隐藏的gydF4y2Ba
2gydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
XgydF4y2Ba
意味着输入功能,其形状是批量大小,特征尺寸。gydF4y2Ba
隐藏的gydF4y2Ba
1gydF4y2Ba
表示单位的第一门隐藏层,形状的[特征尺寸,单位的第一个隐层)。gydF4y2Ba
隐藏的gydF4y2Ba
2gydF4y2Ba
显示了第二个门隐层单元,与的形状(单位的第一门隐层单元的第二个门隐层)。因此,的形状gydF4y2Ba
ygydF4y2Ba
(批量大小,单位的第二个门隐层)。gydF4y2Ba
步骤2gydF4y2Ba 。构造一个门字典叫盖茨输出,其关键是任务名称,其值是输出gydF4y2Ba
ygydF4y2Ba
最后的门网络层。gydF4y2Ba
(5)gydF4y2Ba
盖茨gydF4y2Ba
_gydF4y2Ba
输出gydF4y2Ba
任务gydF4y2Ba
=gydF4y2Ba
ygydF4y2Ba
。gydF4y2Ba
步骤3gydF4y2Ba 。门电路输出转化为权重,gydF4y2Ba
ygydF4y2Ba
扩大在轴索引1。之后,专家的最后一层的神经元数量是复制权值矩阵。权重矩阵的形状(批量大小,单位的第二个专家隐层单元的第二个门隐层)。gydF4y2Ba
步骤4gydF4y2Ba 。使用输出和控制专家权重,我们计算连接到塔的张量。专家后输出叠加和权重后扩展维度具有相同的形状。给定一个标量内积,我们得到一个向量和形状(批量大小,单位的第二个专家隐藏层,第二个门隐层单元)。我们做reduce-sum操作在过去的尺寸,计算出最终的专家门输出。(批量大小,形状是第二个专家隐层单元)。gydF4y2Ba
2.2。多任务学习的建议gydF4y2Ba
在推荐的情况下,可以调试的参数多任务学习主要包括以下:gydF4y2Ba
(1)gydF4y2Ba
标签重量:它类似于类体重在深层神经网络配置,控制每个标签的样本比率。gydF4y2Ba
(2)gydF4y2Ba
减肥:设置的重量损失函数为每个任务。由多个轮参数需要调整,然后选择最佳组合。gydF4y2Ba
(3)gydF4y2Ba
出口重量:每个任务的体重预测分数,可以设置更高的体重根据试验结果更好的任务。gydF4y2Ba
(4)gydF4y2Ba
任务数量:设置任务的数量。gydF4y2Ba
(5)gydF4y2Ba
专家数量:专家的数量。每个专家都是一个两层的完全连接网络。预测分数加权控制网络的输出作为输入的每个任务的塔网络。gydF4y2Ba
(6)gydF4y2Ba
专家的层的数量。gydF4y2Ba
(7)gydF4y2Ba
隐藏的单位的数量。gydF4y2Ba
(8)gydF4y2Ba
门网络的层数。gydF4y2Ba
(9)gydF4y2Ba
塔网络的层数。gydF4y2Ba
把核心神经网络的参数,如图gydF4y2Ba
2gydF4y2Ba 。gydF4y2Ba
图2gydF4y2Ba
参数将架构的核心多任务学习。gydF4y2Ba
模型训练机制如图gydF4y2Ba
3gydF4y2Ba 。gydF4y2Ba
图3gydF4y2Ba
流程模型的培训机制。gydF4y2Ba
3所示。该方案gydF4y2Ba
我们认为有两个部分MMOE可以改善的地方。第一点是专家彼此共享参数,以及如何添加关注有效机制。第二点是损失函数的设计,以及如何平衡不同的学习任务。gydF4y2Ba
3.1。粗粒度的注意门网络gydF4y2Ba
在MMOE模型中,门网络是一个线性变换,从最初的学习参数特性。门的表达技巧是不够的。我们使用注意力机制计算模型权重,更新模型的训练。我们提高原来的门的计算网络,这是从线性转换到一个内积运算符。gydF4y2Ba
通过专家的指导,构造权重模型。门的设计网络引入了专家的先验知识。从专家的角度神经元维度,每个神经元的输出是不同的。注意添加的神经元维度。我们在门中添加重量控制的角度来看,和改变门的注意机制。我们的基础上改进MMOE,如图所示gydF4y2Ba
4gydF4y2Ba 。gydF4y2Ba
图4gydF4y2Ba
粗粒度的框架关注网络。gydF4y2Ba
门改善部分是如图gydF4y2Ba
4gydF4y2Ba 所示。MMOE计算不同专家的权重融合的原始特性和门净输出。受到的关注机制,每个任务层学习为每个专家网络查询向量。以查询向量之间的内积和专家网络。然后作为内积的结果的关注重量相应任务的专家。gydF4y2Ba
改进方案是用以下公式表示:gydF4y2Ba
(6)gydF4y2Ba
ygydF4y2Ba
egydF4y2Ba
=gydF4y2Ba
fgydF4y2Ba
egydF4y2Ba
wgydF4y2Ba
egydF4y2Ba
1gydF4y2Ba
∗gydF4y2Ba
XgydF4y2Ba
∗gydF4y2Ba
wgydF4y2Ba
egydF4y2Ba
2gydF4y2Ba
+gydF4y2Ba
bgydF4y2Ba
egydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
XgydF4y2Ba
代表原始输入,gydF4y2Ba
wgydF4y2Ba
egydF4y2Ba
1gydF4y2Ba
和gydF4y2Ba
wgydF4y2Ba
egydF4y2Ba
2gydF4y2Ba
表示矩阵参数的专家网络,gydF4y2Ba
bgydF4y2Ba
egydF4y2Ba
是偏见的专家网络,gydF4y2Ba
fgydF4y2Ba
egydF4y2Ba
。gydF4y2Ba
代表了转换函数从原始输入专家向量。gydF4y2Ba
(7)gydF4y2Ba
ygydF4y2Ba
ggydF4y2Ba
=gydF4y2Ba
σgydF4y2Ba
wgydF4y2Ba
ggydF4y2Ba
∗gydF4y2Ba
egydF4y2Ba
ggydF4y2Ba
+gydF4y2Ba
bgydF4y2Ba
ggydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
wgydF4y2Ba
ggydF4y2Ba
门网络的参数,gydF4y2Ba
egydF4y2Ba
ggydF4y2Ba
是查询向量的初始化门网络,gydF4y2Ba
bgydF4y2Ba
ggydF4y2Ba
门网络的偏见,gydF4y2Ba
σgydF4y2Ba
代表了映射算子。gydF4y2Ba
(8)gydF4y2Ba
ygydF4y2Ba
一个gydF4y2Ba
tgydF4y2Ba
tgydF4y2Ba
=gydF4y2Ba
hgydF4y2Ba
ygydF4y2Ba
egydF4y2Ba
⊙gydF4y2Ba
tgydF4y2Ba
ygydF4y2Ba
ggydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
hgydF4y2Ba
,gydF4y2Ba
tgydF4y2Ba
表示变换函数和gydF4y2Ba
⊙gydF4y2Ba
内积操作手段。gydF4y2Ba
Gate-improved注意力更与专家相关匹配和更具体的任务表示。gydF4y2Ba
3.1.1。的专家gydF4y2Ba
步骤1gydF4y2Ba 。建立一个神经网络为每个专家,得到的输出gydF4y2Ba
ygydF4y2Ba
。gydF4y2Ba
(9)gydF4y2Ba
YgydF4y2Ba
=gydF4y2Ba
NgydF4y2Ba
,gydF4y2Ba
FgydF4y2Ba
∗gydF4y2Ba
FgydF4y2Ba
,gydF4y2Ba
256年gydF4y2Ba
∗gydF4y2Ba
256128年gydF4y2Ba
=gydF4y2Ba
NgydF4y2Ba
,gydF4y2Ba
128年gydF4y2Ba
。gydF4y2Ba
步骤2gydF4y2Ba 。建立一个专家列表输出,存储专家的结果。gydF4y2Ba
步骤3gydF4y2Ba 。堆栈专家输出在过去的维度,和张量的形状gydF4y2Ba
NgydF4y2Ba
,gydF4y2Ba
128年,8gydF4y2Ba
。gydF4y2Ba
3.1.2。门的网络的改进gydF4y2Ba
步骤1gydF4y2Ba 。建立一个神经网络为每个门。门口有一个层的形状gydF4y2Ba
1128年gydF4y2Ba
,128是MMOE专家的最后一层的神经元数量单位。gydF4y2Ba
步骤2gydF4y2Ba 。每个任务的盖茨输出存储在字典命名为盖茨的输出。gydF4y2Ba
步骤3gydF4y2Ba 。堆栈专家第二维度和输出计算专家与张量形式的结果gydF4y2Ba
NgydF4y2Ba
,gydF4y2Ba
8128年gydF4y2Ba
。我们为每个任务构造专家权重查询向量。查询向量相乘得到的产品操作门的输出gydF4y2Ba
1128年gydF4y2Ba
和专家gydF4y2Ba
NgydF4y2Ba
,gydF4y2Ba
8128年gydF4y2Ba
。gydF4y2Ba
步骤4gydF4y2Ba 。让elementwise操作在盖茨和专家输出扩展维度,使用广播机制。我们获得初始查询向量的形状gydF4y2Ba
NgydF4y2Ba
,gydF4y2Ba
8128年gydF4y2Ba
总使用reduce-sum函数,然后在过去的维度。我们会注意点的形状张量gydF4y2Ba
NgydF4y2Ba
,gydF4y2Ba
8gydF4y2Ba
。gydF4y2Ba
步骤5gydF4y2Ba 。通过扩大和复制的注意点张量,我们计算专家权重的形状gydF4y2Ba
NgydF4y2Ba
,gydF4y2Ba
128年,8gydF4y2Ba
。的形状重量和专家的形状都是相同的。gydF4y2Ba
步骤6gydF4y2Ba 。我们为专家和添加权重计算出最终的输出gydF4y2Ba
NgydF4y2Ba
,gydF4y2Ba
128年gydF4y2Ba
。gydF4y2Ba
我们的主要改进是使用专家信息设计每个门的查询向量,由关注机制。细粒度的关注基于粗粒度的关注使得嵌入维数不同的权重值。描述对细粒度注意以下部分所示。gydF4y2Ba
3.2。细粒度的注意门网络gydF4y2Ba
维度的专家神经元和嵌入的维数,我们一起使用的注意。这样,门控制网络不仅是一个简单的两层完全连接网络,但也将最初的门与专家的注意机制。细粒度模型学习为每个任务查询向量。gydF4y2Ba
3.2.1之上。专家网络部分gydF4y2Ba
它是一样的专家网络的一部分MMOE粗粒度的注意。gydF4y2Ba
3.2.2。注意门网络部分gydF4y2Ba
粗粒度的关注构造神经网络为每个门的形状gydF4y2Ba
1128年gydF4y2Ba
。然后,门网络和专家的形状gydF4y2Ba
NgydF4y2Ba
,gydF4y2Ba
8128年gydF4y2Ba
使繁殖操作产品。我们为每个任务设计查询网络的形状gydF4y2Ba
NgydF4y2Ba
,gydF4y2Ba
8128年gydF4y2Ba
8,128尺寸是不同的,尺寸都是一样的。细粒度的关注在128年维度和8个维度不同,它可以更好的适应不同的相关任务。gydF4y2Ba
3.3。梯度增加专家网络gydF4y2Ba
在MMOE模型中,专家可以被看作是随机森林。为了使不同的专家更好的交互,我们提高专家的模式从随机森林梯度增强决策树。我们构建一个名为hub-list专家列表,用于存储每个专家的输出。hub-list穿越时,信息将被添加在列表的最后。如果没有元素专家枢纽中心,我们喂养前到神经网络提取特征。如果有专家中心中心元素,我们喂养专家中心的最后一层贴合与以前的提取特性神经网络。随机森林是改进梯度增强树主要发生在专家的部分。gydF4y2Ba
3.3.1。专家网络的改进部分gydF4y2Ba
我们建立了一个专家输出,用于存储每个专家的预测评分。如果这是第一专家,接收输入的原始功能。如果是后者专家,接收输入的原始特性和预测价值前专家。通过这种方式,它相当于增加特征列的数量。随着神经网络的建设,对专家的最后输出没有影响。形状是gydF4y2Ba
NgydF4y2Ba
,gydF4y2Ba
128年gydF4y2Ba
,叠加后,它是gydF4y2Ba
NgydF4y2Ba
,gydF4y2Ba
128年,8gydF4y2Ba
。gydF4y2Ba
3.3.2。门网络部分gydF4y2Ba
像本机MMOE模型,我们建立一个神经网络,其形状是输出gydF4y2Ba
NgydF4y2Ba
,gydF4y2Ba
8gydF4y2Ba
。然后我们扩展维度和把它变成gydF4y2Ba
NgydF4y2Ba
,gydF4y2Ba
128年,8gydF4y2Ba
。这种形状的张量,我们添加对专家的权重。我们聚合和计算输出的形状gydF4y2Ba
NgydF4y2Ba
,gydF4y2Ba
128年gydF4y2Ba
最后。gydF4y2Ba
3.4。明确Self-Attention专家互动gydF4y2Ba
在文献[gydF4y2Ba
21gydF4y2Ba ),self-attention方法用于不同功能之间的交互。借鉴这个想法,我们认为不同专家的输出是抽象的高级特性,和设计交互式网络层。gydF4y2Ba
作为显示在图gydF4y2Ba
5gydF4y2Ba MMOE的基础上,我们添加一个专家交互层,使用一个多头的注意机制。相互作用后的输出作为高阶特性。我们雇佣专家之间的内积运算输出和高阶功能,和饲料结果为每个任务的塔网络。通过自动交互,知识可以从专家更好地挖掘用户兴趣。gydF4y2Ba
图5gydF4y2Ba
明确的框架self-attention专家互动。gydF4y2Ba
具体来说,我们采用键值的注意捕获不同专家之间的组合机制。采取专家gydF4y2Ba
米gydF4y2Ba
作为一个例子,我们定义之间的关系专家gydF4y2Ba
米gydF4y2Ba
和专家gydF4y2Ba
kgydF4y2Ba
在一个特定的关注gydF4y2Ba
hgydF4y2Ba
如下:gydF4y2Ba
(10)gydF4y2Ba
αgydF4y2Ba
米gydF4y2Ba
,gydF4y2Ba
kgydF4y2Ba
hgydF4y2Ba
=gydF4y2Ba
经验值gydF4y2Ba
fgydF4y2Ba
hgydF4y2Ba
egydF4y2Ba
米gydF4y2Ba
,gydF4y2Ba
egydF4y2Ba
kgydF4y2Ba
∑gydF4y2Ba
lgydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
米gydF4y2Ba
经验值gydF4y2Ba
fgydF4y2Ba
hgydF4y2Ba
egydF4y2Ba
米gydF4y2Ba
,gydF4y2Ba
egydF4y2Ba
lgydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
fgydF4y2Ba
hgydF4y2Ba
⋅gydF4y2Ba
是一个关注函数,gydF4y2Ba
egydF4y2Ba
米gydF4y2Ba
表示专家gydF4y2Ba
米gydF4y2Ba
,gydF4y2Ba
egydF4y2Ba
kgydF4y2Ba
表示专家gydF4y2Ba
kgydF4y2Ba
;在这项工作中,我们采用内积为关注功能。gydF4y2Ba
(11)gydF4y2Ba
fgydF4y2Ba
hgydF4y2Ba
egydF4y2Ba
米gydF4y2Ba
,gydF4y2Ba
egydF4y2Ba
kgydF4y2Ba
=gydF4y2Ba
WgydF4y2Ba
查询gydF4y2Ba
hgydF4y2Ba
egydF4y2Ba
米gydF4y2Ba
,gydF4y2Ba
WgydF4y2Ba
关键gydF4y2Ba
hgydF4y2Ba
egydF4y2Ba
kgydF4y2Ba
,gydF4y2Ba
egydF4y2Ba
˜gydF4y2Ba
米gydF4y2Ba
hgydF4y2Ba
=gydF4y2Ba
∑gydF4y2Ba
kgydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
米gydF4y2Ba
αgydF4y2Ba
米gydF4y2Ba
,gydF4y2Ba
kgydF4y2Ba
hgydF4y2Ba
WgydF4y2Ba
价值gydF4y2Ba
hgydF4y2Ba
egydF4y2Ba
kgydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
WgydF4y2Ba
查询gydF4y2Ba
hgydF4y2Ba
和gydF4y2Ba
WgydF4y2Ba
关键gydF4y2Ba
hgydF4y2Ba
变换矩阵,将原来的专家空间映射到一个新的空间。gydF4y2Ba
WgydF4y2Ba
价值gydF4y2Ba
hgydF4y2Ba
值空间大学入学考试,gydF4y2Ba
egydF4y2Ba
˜gydF4y2Ba
米gydF4y2Ba
hgydF4y2Ba
是向量的专家gydF4y2Ba
米gydF4y2Ba
(在头gydF4y2Ba
hgydF4y2Ba
);此外,我们结合gydF4y2Ba
hgydF4y2Ba
头expert-output。gydF4y2Ba
特性介绍了多头self-attention特性工程,然后专家网络的输入。结果比的专家级模式,所以我们选择更好的一个。gydF4y2Ba
3.5。深度序列特性应用到多任务学习的兴趣gydF4y2Ba
改进MMOE_DIN底层模型介绍了序列特性。序列的特性可以捕获用户的行为的相关性更好。底层网络特性的方式处理有着浓厚的兴趣。用户序列特性的基础上,我们设计嵌入的,这代表了空间信息和时间信息。空间信息嵌入方法如图gydF4y2Ba
6gydF4y2Ba 。gydF4y2Ba
图6gydF4y2Ba
空间信息嵌入方法。gydF4y2Ba
嵌入信息方法如图gydF4y2Ba
7gydF4y2Ba 。gydF4y2Ba
图7gydF4y2Ba
嵌入信息的方法。gydF4y2Ba
我们正常时间戳为天,做一些数学操作。正弦函数的数学操作包括指数函数操作,操作,余弦函数操作,根操作,操作方,对数操作。然后,我们连接成一个大嵌入向量。gydF4y2Ba
3.6。改善与多任务学习的损失函数gydF4y2Ba
最近,人工智能正逐渐从知觉情报认知智力发展。深入学习是推荐系统的主流技术等级阶段。越来越多的学者(gydF4y2Ba
22gydF4y2Ba ,gydF4y2Ba
23gydF4y2Ba 尝试引入认知智能推荐。推荐系统有多个场景,和数据异构。传统的多任务学习联合训练需要对齐的数据特征。结合异构数据从多个场景训练模型,我们提出一个特征空间映射算子。上述运营商可以到同一个特征空间项目的异构数据通过处理多个网络层。从认知的角度情报,更容易为多个专家分享集体智慧在同一个特征空间。认知的数据融合方案是如图gydF4y2Ba
8gydF4y2Ba 。认知学习的多任务共享参数,我们设计一个定制的损失函数。在学习过程中,特征提取当前数据源被视为真实的数据,和它的标签是设置为真正的标签。从其他数据源中提取的特性被认为是假数据,和相应的标签设置为假标签。通过这种方式,在多任务学习,多源特征迭代训练,鉴别器很难区分共享数据源,从而达到共享的认知效果。gydF4y2Ba
图8gydF4y2Ba
认知智能与多任务学习的框架。gydF4y2Ba
的多任务学习模式使特征空间映射来自不同数据源的数据,以便多源数据在同一个特征空间。我们构建以下认知功能损失,gydF4y2Ba
cgydF4y2Ba
我gydF4y2Ba
kgydF4y2Ba
是真实的还是假的标签,并将它添加到基本损失函数。gydF4y2Ba
(12)gydF4y2Ba
lgydF4y2Ba
改善gydF4y2Ba
=gydF4y2Ba
∑gydF4y2Ba
kgydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
KgydF4y2Ba
∑gydF4y2Ba
我gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
NgydF4y2Ba
kgydF4y2Ba
cgydF4y2Ba
我gydF4y2Ba
kgydF4y2Ba
日志gydF4y2Ba
DgydF4y2Ba
年代gydF4y2Ba
kgydF4y2Ba
我gydF4y2Ba
。gydF4y2Ba
4所示。实验gydF4y2Ba
在本节中,我们评估的性能提出了小说在公共Ali-CCP数据模型。实验对比显示了我们的模型的有效性,它优于先进的多任务学习的方法。gydF4y2Ba
4.1。数据集gydF4y2Ba
公共数据集Ali-CCP包含4200万4300万训练样本和测试样本,从淘宝的推荐系统中提取。训练数据集存储10 g中,存储是8 g和测试数据集。CTR和表格两个任务建模操作点击和购买的数据集。数据集包含标签部分和功能部分。标签由点击标签和转换标签。字段id、特征特性由id,和功能价值。功能包括用户功能,项目特点,结合特性,和上下文特征。下面的数据详细说明页面中(gydF4y2Ba
https://tianchi.aliyun.com/dataset/dataDetail?dataId=408&userId=1gydF4y2Ba )。我们随机选择10%的训练数据集作为验证数据集测试所有模型的评估指标。gydF4y2Ba
4.2。基线模型gydF4y2Ba
我们比较模型与基线和主流模型如下:gydF4y2Ba
中长期规划gydF4y2Ba (gydF4y2Ba
24gydF4y2Ba ]。我们使用多层感知器结构作为我们的基准,这是一个单一任务模型。gydF4y2Ba
共享下gydF4y2Ba (gydF4y2Ba
25gydF4y2Ba ]。模型与Expert-Bottom模式股票几个低级的网络层的所有任务,每个任务都有自己的塔。gydF4y2Ba
ESMMgydF4y2Ba (gydF4y2Ba
4gydF4y2Ba ,gydF4y2Ba
26gydF4y2Ba ]。Probability-Transformer模式的模型是用来预测post-click转化率,这可以减轻通过训练样本选择偏差问题对整个空间。gydF4y2Ba
OMOEgydF4y2Ba (gydF4y2Ba
2gydF4y2Ba ]。模型与Expert-Bottom模式集成专家通过共享一个门在所有任务。gydF4y2Ba
MMOEgydF4y2Ba (gydF4y2Ba
2gydF4y2Ba ]。模型由多个盖茨与Expert-Bottom模式集成专家在所有任务。gydF4y2Ba
公司治理文化gydF4y2Ba (gydF4y2Ba
7gydF4y2Ba ]。模型与Expert-Bottom模式分离task-shared专家和特定于任务的专家,旨在解决多任务负迁移的问题。gydF4y2Ba
请耐心gydF4y2Ba (gydF4y2Ba
7gydF4y2Ba ]。进步的分层提取(中国)Expert-Bottom模式,由多层公司治理文化。gydF4y2Ba
使用Ali-CCP数据集,我们采用一个两层的MLP网络骰子激活,并为每个任务在两个隐藏层MTL模型。Hyperparameters如表所示gydF4y2Ba
1gydF4y2Ba 。gydF4y2Ba
表1gydF4y2Ba
Hyperparameter设置。gydF4y2Ba
HyperparametergydF4y2Ba
价值gydF4y2Ba
标签的重量gydF4y2Ba
正样本,负样本= 1:1gydF4y2Ba
减肥gydF4y2Ba
点击任务,订单任务= 1:0.02gydF4y2Ba
出口重量gydF4y2Ba
点击任务,订单任务= 0.8:0.2gydF4y2Ba
任务数量gydF4y2Ba
2gydF4y2Ba
专家数量gydF4y2Ba
8gydF4y2Ba
隐藏的单位gydF4y2Ba
256 128 64gydF4y2Ba
学习速率gydF4y2Ba
0.001gydF4y2Ba
批量大小gydF4y2Ba
1000年gydF4y2Ba
时代gydF4y2Ba
5gydF4y2Ba
4.3。实验设置gydF4y2Ba
Hyperparameter研究gydF4y2Ba
为了研究hyperparameters的有效性,我们随机搜索,网格搜索和退火方法。gydF4y2Ba
(1)gydF4y2Ba
考虑到类别中嵌入维数,我们做实验通过改变嵌入维度(8、16、32、64、128、256、512、1024],结果如图所示gydF4y2Ba
9gydF4y2Ba 。我们可以看到,模型的影响略嵌入维数的影响。嵌入维度模型复杂性和体积有关。gydF4y2Ba
较小的嵌入维导致拟合数据分布不够,而较大的嵌入维数增加模型的复杂性;合适的嵌入维数会产生最好的效果。使拟合能力和复杂性之间的权衡,我们最终选择嵌入维数= 32在所有的实验中。gydF4y2Ba
(2)gydF4y2Ba
我们研究出口重量的影响;有跷跷板现象在两个不同的任务。然而,出口重量带来的改善总体性能。我们终于把出口的重量0.2 0.8和秩序的任务,点击任务。gydF4y2Ba
(3)gydF4y2Ba
我们研究时代的影响很多数据和报告的AUC性能对整个测试数据集,如图gydF4y2Ba
10gydF4y2Ba 。我们终于时代数量设置为5的实验。gydF4y2Ba
(4)gydF4y2Ba
我们在模型研究层数;AUC的有效性和log-loss如下。随着神经网络层数的增加,AUC先增加然后减少log-loss是相反的趋势。因此,我们最终选择3层在所有的实验中,如图gydF4y2Ba
11gydF4y2Ba 。gydF4y2Ba
图9gydF4y2Ba
不同嵌入的AUC维度。gydF4y2Ba
图10gydF4y2Ba
的总AUC不同的时代。gydF4y2Ba
图11gydF4y2Ba
的AUC和log-loss不同的网络层。gydF4y2Ba
4.4。实验结果gydF4y2Ba
与基线相比MMOE ESMM,公司治理文化,我们证明我们的方法的有效性在Ali-CCP公共数据集。我们表明,该方法提高了多任务模型的准确性。离线评估者我们的模型带来了显著的改善。为了获得准确的预测结果,我们为每个模型重复试验5次,其中最好的离线效果如表所示gydF4y2Ba
2gydF4y2Ba 。gydF4y2Ba
表2gydF4y2Ba
不同模型的性能。gydF4y2Ba
模型gydF4y2Ba
单击AUC最好gydF4y2Ba
订单AUC最好gydF4y2Ba
损失gydF4y2Ba
MMOE (base1)gydF4y2Ba
0.6209gydF4y2Ba
0.6645gydF4y2Ba
1.6027gydF4y2Ba
ESMM (base2)gydF4y2Ba
0.6203gydF4y2Ba
0.6712gydF4y2Ba
1.6105gydF4y2Ba
公司治理文化(base3)gydF4y2Ba
0.6311gydF4y2Ba
0.6708gydF4y2Ba
1.6112gydF4y2Ba
粗粒度的关注gydF4y2Ba
0.6395gydF4y2Ba
0.6957gydF4y2Ba
1.5843gydF4y2Ba
细粒度的关注gydF4y2Ba
0.6339gydF4y2Ba
0.6884gydF4y2Ba
1.5827gydF4y2Ba
专家提振模式gydF4y2Ba
0.6409gydF4y2Ba
0.6804gydF4y2Ba
1.7268gydF4y2Ba
添加汽车交互层gydF4y2Ba
0.6432gydF4y2Ba
0.6824gydF4y2Ba
1.6891gydF4y2Ba
序列MMOEgydF4y2Ba
0.6413gydF4y2Ba
0.6870gydF4y2Ba
1.6152gydF4y2Ba
提高损失函数gydF4y2Ba
0.6407gydF4y2Ba
0.6924gydF4y2Ba
1.5997gydF4y2Ba
粗粒度的关注+汽车交互层+序列特征+提高损失函数gydF4y2Ba
0.6513gydF4y2Ba
0.6966gydF4y2Ba
1.5784gydF4y2Ba
评估我们的提出的模型的有效性,我们采用四个指标在实验中广泛使用,例如,AUC Log-loss CLICK@2, ORDER@2。gydF4y2Ba
AUC:曲线下的面积,它反映了排名能力。分数范围从0到1,越高越好。AUC公式如下:gydF4y2Ba
(13)gydF4y2Ba
AUCgydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
DgydF4y2Ba
+gydF4y2Ba
DgydF4y2Ba
−gydF4y2Ba
∑gydF4y2Ba
xgydF4y2Ba
+gydF4y2Ba
∈gydF4y2Ba
DgydF4y2Ba
+gydF4y2Ba
∑gydF4y2Ba
xgydF4y2Ba
−gydF4y2Ba
∈gydF4y2Ba
DgydF4y2Ba
−gydF4y2Ba
我gydF4y2Ba
fgydF4y2Ba
xgydF4y2Ba
+gydF4y2Ba
>gydF4y2Ba
fgydF4y2Ba
xgydF4y2Ba
−gydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
DgydF4y2Ba
+gydF4y2Ba
和gydF4y2Ba
DgydF4y2Ba
−gydF4y2Ba
表示正负样本集,gydF4y2Ba
DgydF4y2Ba
+gydF4y2Ba
和gydF4y2Ba
DgydF4y2Ba
−gydF4y2Ba
样品的数量gydF4y2Ba
DgydF4y2Ba
+gydF4y2Ba
和gydF4y2Ba
DgydF4y2Ba
−gydF4y2Ba
,gydF4y2Ba
fgydF4y2Ba
。gydF4y2Ba
是预测函数,gydF4y2Ba
我gydF4y2Ba
⋅gydF4y2Ba
指标函数。gydF4y2Ba
Log-LossgydF4y2Ba 。在多任务学习,共同联合log-loss方程的加权和log-loss个人任务。gydF4y2Ba
(14)gydF4y2Ba
lgydF4y2Ba
θgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
θgydF4y2Ba
KgydF4y2Ba
=gydF4y2Ba
∑gydF4y2Ba
kgydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
KgydF4y2Ba
wgydF4y2Ba
kgydF4y2Ba
lgydF4y2Ba
kgydF4y2Ba
θgydF4y2Ba
kgydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
KgydF4y2Ba
任务的数量,gydF4y2Ba
lgydF4y2Ba
kgydF4y2Ba
⋅gydF4y2Ba
损失函数,gydF4y2Ba
wgydF4y2Ba
kgydF4y2Ba
是减肥,gydF4y2Ba
θgydF4y2Ba
kgydF4y2Ba
任务参数。gydF4y2Ba
(15)gydF4y2Ba
lgydF4y2Ba
kgydF4y2Ba
θgydF4y2Ba
kgydF4y2Ba
=gydF4y2Ba
ygydF4y2Ba
kgydF4y2Ba
×gydF4y2Ba
−gydF4y2Ba
日志gydF4y2Ba
乙状结肠gydF4y2Ba
ygydF4y2Ba
^gydF4y2Ba
kgydF4y2Ba
+gydF4y2Ba
1gydF4y2Ba
−gydF4y2Ba
ygydF4y2Ba
kgydF4y2Ba
×gydF4y2Ba
−gydF4y2Ba
日志gydF4y2Ba
1gydF4y2Ba
−gydF4y2Ba
乙状结肠gydF4y2Ba
ygydF4y2Ba
^gydF4y2Ba
kgydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
ygydF4y2Ba
kgydF4y2Ba
表示真正的标签,gydF4y2Ba
ygydF4y2Ba
^gydF4y2Ba
kgydF4y2Ba
表示预测价值,乙状结肠是激活函数。gydF4y2Ba
CLICK@2gydF4y2Ba 。这是实际的概率预测最高点击数量gydF4y2Ba
NgydF4y2Ba
得分。gydF4y2Ba
(16)gydF4y2Ba
CLKICKgydF4y2Ba
@gydF4y2Ba
2gydF4y2Ba
=gydF4y2Ba
tgydF4y2Ba
ogydF4y2Ba
pgydF4y2Ba
ygydF4y2Ba
^gydF4y2Ba
ngydF4y2Ba
ngydF4y2Ba
NgydF4y2Ba
。gydF4y2Ba
ORDER@2gydF4y2Ba 。这是实际购买数量的概率预测gydF4y2Ba
NgydF4y2Ba
得分。gydF4y2Ba
(17)gydF4y2Ba
订单gydF4y2Ba
@gydF4y2Ba
2gydF4y2Ba
=gydF4y2Ba
前gydF4y2Ba
ygydF4y2Ba
^gydF4y2Ba
ngydF4y2Ba
ngydF4y2Ba
NgydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
ngydF4y2Ba
表示实际点击/购买样品的数量gydF4y2Ba
NgydF4y2Ba 分数,gydF4y2Ba
NgydF4y2Ba
在我们的论文= 2。gydF4y2Ba
为了减少偶然误差的实验中,我们重复的训练过程改进模型5次。表gydF4y2Ba
3gydF4y2Ba 显示了每个模型的平均提高5倍。gydF4y2Ba
表3gydF4y2Ba
不同模型的改进。gydF4y2Ba
模型gydF4y2Ba
Clk AUC改善gydF4y2Ba
奥德AUC改善gydF4y2Ba
MMOE(基地)gydF4y2Ba
基线1gydF4y2Ba
基线1gydF4y2Ba
ESMM(基地)gydF4y2Ba
基线2gydF4y2Ba
基线2gydF4y2Ba
公司治理文化(基地)gydF4y2Ba
Baseline3gydF4y2Ba
基线3gydF4y2Ba
粗粒度的关注gydF4y2Ba
+ 2.46%gydF4y2Ba
+ 4.00%gydF4y2Ba
细粒度的关注gydF4y2Ba
+ 1.57%gydF4y2Ba
+ 2.91%gydF4y2Ba
专家提振模式gydF4y2Ba
+ 2.69%gydF4y2Ba
+ 1.74%gydF4y2Ba
添加汽车交互层gydF4y2Ba
+ 3.06%gydF4y2Ba
+ 2.02%gydF4y2Ba
序列MMOEgydF4y2Ba
+ 2.75%gydF4y2Ba
+ 2.71%gydF4y2Ba
提高损失函数gydF4y2Ba
+ 2.65%gydF4y2Ba
+ 3.51%gydF4y2Ba
粗粒度的关注+汽车交互层+序列特征+提高损失函数gydF4y2Ba
+ 4.35%gydF4y2Ba
+ 4.14%gydF4y2Ba
正如上面提到的,为了增加实验的可信度,我们每个模型的训练过程5次重复。gydF4y2Ba
自定义评价指标:为了比较模型效果更公平,我们从多个角度评价模型。除了AUC,我们定制两类离线评价指标:CLK@gydF4y2Ba
NgydF4y2Ba 和ORD@gydF4y2Ba
NgydF4y2Ba 。gydF4y2Ba
CLICK@gydF4y2Ba
NgydF4y2Ba :在顶部gydF4y2Ba
NgydF4y2Ba 商品推荐的模型中,商品的数量的比例的用户点击。gydF4y2Ba
ORDER@gydF4y2Ba
NgydF4y2Ba :在顶部gydF4y2Ba
NgydF4y2Ba 商品推荐的模型,用户购买的商品的数量。gydF4y2Ba
为了减少偶然误差的实验中,我们反复的训练过程改进模型5次。表gydF4y2Ba
4gydF4y2Ba 显示了平均5定制为每个模型评估。gydF4y2Ba
表4gydF4y2Ba
自定义评价不同的模型。gydF4y2Ba
模型gydF4y2Ba
CLICK@2gydF4y2Ba
ORDER@2gydF4y2Ba
MMOEgydF4y2Ba
0.1927gydF4y2Ba
0.1477gydF4y2Ba
ESMMgydF4y2Ba
0.1925gydF4y2Ba
0.1490gydF4y2Ba
公司治理文化gydF4y2Ba
0.1931gydF4y2Ba
0.1487gydF4y2Ba
粗粒度的关注gydF4y2Ba
0.1957gydF4y2Ba
0.1573gydF4y2Ba
细粒度的关注gydF4y2Ba
0.1953gydF4y2Ba
0.1463gydF4y2Ba
专家提振模式gydF4y2Ba
0.1936gydF4y2Ba
0.1478gydF4y2Ba
添加汽车交互层gydF4y2Ba
0.1958gydF4y2Ba
0.1521gydF4y2Ba
序列MMOEgydF4y2Ba
0.1941gydF4y2Ba
0.1504gydF4y2Ba
提高损失函数gydF4y2Ba
0.1932gydF4y2Ba
0.1488gydF4y2Ba
粗粒度的关注+添加汽车交互层+序列MMOE +提高损失函数gydF4y2Ba
0.1969gydF4y2Ba
0.1582gydF4y2Ba
从上面的表中,我们可以看到,我们的方法将积极改进。gydF4y2Ba
4.5。烧蚀研究gydF4y2Ba
从表gydF4y2Ba
2gydF4y2Ba - - - - - -gydF4y2Ba
4gydF4y2Ba 基地MMOE来比较,我们可以看到,每个提出点都有改善。序列特性可以把+ 3.65% AUC由于特性工程改进。粗粒度的关注能带来AUC + 3.41%,和细粒度的关注能带来AUC + 2.11%。粗粒度和细粒度方法两种模式的关注。我们选择粗粒度组件考虑到细粒度的关注可能导致过度拟合。提高专家模式和自动交互层模式都是用来描述专家互动,我们选择汽车交互层,因为它表现更好。此外,我们提高了损失函数以更好地支持多源数据集喂食,和更通用的模型结构。最后,我们把上面的四个方法,预测效果显著提高。click@2和order@2每个模型如图所示gydF4y2Ba
12gydF4y2Ba 。实验重复5次,误差波动很小。可以看出,我们的新的集成模型的最佳效果。gydF4y2Ba
图12gydF4y2Ba
Click@2和order@2不同的模型。gydF4y2Ba
(一)gydF4y2Ba
(b)gydF4y2Ba
5。结论gydF4y2Ba
在本文中,我们提出五个改进方法对多任务学习,关注专家互动和门的注意机制。在公共数据集,有一个显著的改善与MMOE模型进行比较。我们优化门网络,依靠引入粗粒度和细粒度的注意机制。通过一个线性变换,门口的原生MMOE更关注网络专家使用原始输入,所以表达能力是不够的。我们计算权重的门使用注意机制。我们升级大门的计算网络,它是一个线性变换到多个矩阵内积操作。我们引入梯度增加树MMOE专家,提高知识表示和相互通信的推理的效率。多线程应用关注的专家特征提取层,它可以代表高阶特性更好。此外,我们融合序列喧嚣和MMOE,使多任务学习考虑功能的相关性。gydF4y2Ba
在进一步的工作中,我们将介绍认知智力在多任务学习更多。认知智力可以充分发挥专家的智慧。专家系统基于框架和基于模型的专家系统被视为不同的多任务学习算法的专家。我们将建立一个更广泛的推荐系统,它使用multi-experts和多任务协同工作。gydF4y2Ba