CINgydF4y2Ba 计算智能和神经科学gydF4y2Ba 1687 - 5273gydF4y2Ba 1687 - 5265gydF4y2Ba HindawigydF4y2Ba 10.1155 / 2021/8550270gydF4y2Ba 8550270gydF4y2Ba 研究文章gydF4y2Ba 一个多任务学习Multiperspective关注模型及其应用的建议gydF4y2Ba https://orcid.org/0000 - 0001 - 5457 - 3240gydF4y2Ba 王gydF4y2Ba YingshuaigydF4y2Ba 1gydF4y2Ba 2gydF4y2Ba https://orcid.org/0000 - 0002 - 0647 - 3154gydF4y2Ba 张gydF4y2Ba 德gydF4y2Ba 1gydF4y2Ba 2gydF4y2Ba WulamugydF4y2Ba AziguligydF4y2Ba 1gydF4y2Ba 2gydF4y2Ba 京gydF4y2Ba 京ydF4y2Ba 1gydF4y2Ba 部门的电脑gydF4y2Ba 计算机与通信工程学院gydF4y2Ba 北京科技大学(拍摄)gydF4y2Ba 北京100083年gydF4y2Ba 中国gydF4y2Ba ustb.edu.cngydF4y2Ba 2gydF4y2Ba 北京重点实验室材料科学知识工程的北京gydF4y2Ba 北京科技大学(拍摄)gydF4y2Ba 北京100083年gydF4y2Ba 中国gydF4y2Ba ustb.edu.cngydF4y2Ba 2021年gydF4y2Ba 15gydF4y2Ba 10gydF4y2Ba 2021年gydF4y2Ba 2021年gydF4y2Ba 13gydF4y2Ba 6gydF4y2Ba 2021年gydF4y2Ba 5gydF4y2Ba 9gydF4y2Ba 2021年gydF4y2Ba 30.gydF4y2Ba 9gydF4y2Ba 2021年gydF4y2Ba 15gydF4y2Ba 10gydF4y2Ba 2021年gydF4y2Ba 2021年gydF4y2Ba 版权©2021王Yingshuai et al。gydF4y2Ba 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。gydF4y2Ba

训练模型来预测目标同时点击和秩序。为更好的用户满意度和业务效率,多任务学习是在电子商务中最重要的一个方法。一些现有研究模型的用户表示基于历史行为序列捕获用户的利益。通常情况下,用户的利益可能会改变他们过去的例程。然而,多角度关注广泛的地平线,涵盖人类推理的不同特点,情感,认知,关注,和记忆。在本文中,我们试图多角度关注和序列行为引入到多任务学习。我们建议的方法提供了更好的理解用户兴趣和决定。实现更灵活的参数共享和维护每个任务的特点优势,我们提高关注专家观点的互动机制。我们所知,我们首先提出了隐式的交互模式,明确硬交互模式,明确软交互模式,多任务学习的数据融合模式。我们做实验在公共数据和实验室的医疗数据。 The results show that our model consistently achieves remarkable improvements to the state-of-the-art method.

国家重点研究和发展项目gydF4y2Ba 2017年yfb1002304gydF4y2Ba
1。介绍gydF4y2Ba

在现实世界中,有一些场景多任务学习。在电子商务领域,我们需要增加点击率(CTR)和订单转化率(表格)在同一时间。在音乐领域,我们需要改善这首歌打开率和有效的回放速度。在中国医疗情况下建议,我们需要提高病历的点击率和用户满意度。提高推荐精度,Chen等人。gydF4y2Ba 1gydF4y2Ba)提出了一种改进的协同过滤算法,介绍了Bhattacharyya相似性计算到传统的计算公式。然而,单一任务的学习不能同时考虑多个指标。在这种背景下,研究多任务学习。在共享的基础下,multi-gate混合物的专家(MMOE) [gydF4y2Ba 2gydF4y2Ba)设计不同的门网络不同的任务。通过更新专家的权重,最好对所有任务描述特征。它有一个改进的影响不是很相关的一些任务。在视频的建议,为了提高用户的行为和用户满意度,赵et al。gydF4y2Ba 3gydF4y2Ba]提出肤浅的子网。它也解决了在线和离线取样偏差的问题。众所周知,秩序行为发生后点击动作。模型训练过程中执行单击样本子空间,和在线应用于整个空间,这将导致样本偏差。温家宝et al。(gydF4y2Ba 4gydF4y2Ba)向模型中添加这些中间行为通过改善损失函数。以前的多任务学习手动hyperparameters,不平衡网络的灵活性和性能成本。子网路由(信噪比)gydF4y2Ba 5gydF4y2Ba)不敏感的力量之间的关系的任务。它可以结合学习一个好的结构,可以实现灵活的参数共享。秦et al。gydF4y2Ba 6gydF4y2Ba)提出一个模型,它可以结合MMOE和长期短期记忆(LSTM)在一起。该模型应用在多任务学习场景中用户行为序列特性。实际应用场景总是面临的挑战数据稀疏、数据异构性,和复杂的多目标,MMOE和LSTM尝试解决。进步的分层提取(中国)gydF4y2Ba 7gydF4y2Ba)提出了网络,其目的是利用多任务学习的跷跷板现象。为了解决负变压器问题,一方面,比如模型将专家分为共享专家和私人专家;另一方面,请耐心把样本空间的损失函数模型。王等人。gydF4y2Ba 8gydF4y2Ba]提出一个Multitask-Aware公平(MTAF)方法来改善公平的多任务学习。习等。gydF4y2Ba 9gydF4y2Ba]提出一种自适应信息传递多任务(AITM)框架,该结构由自适应多步转换之间的顺序依赖信息传递(AIT)模块。低秩分解self-attention网络(Light-SAN) (gydF4y2Ba 10gydF4y2Ba)提出,学习环境敏感表示通过用户历史项目和矿山连续有效地项目之间的关系。Gating-Enhanced多任务神经网络(Gem-NN) [gydF4y2Ba 11gydF4y2Ba)设计嵌入层之间的闸门机制和中长期规划,学习功能交互和管理信息流。多层次的共享模型(MSSM) (gydF4y2Ba 12gydF4y2Ba)提出,包括字段级稀疏连接模块(FSCM)和一个具有稀疏的共享模块(CSSM)。FSCM可以学习特点有选择地CSSM可以跨所有任务有效地分享知识。解决选择偏见和数据稀疏问题,分层次建模微观和宏观行为(gydF4y2Ba 嗯gydF4y2Ba 3gydF4y2Ba )[gydF4y2Ba 13gydF4y2Ba]提出了表格的预测,采用微观和宏观post-click行为在一个多任务学习模式。赵et al。gydF4y2Ba 14gydF4y2Ba]提出多个关系关注网络,采用注意力机制来提高预测精度。模型结构来自于三方面:首先是任务和功能,其次是功能和特性,第三个是任务和任务。在推荐系统中,帕累托算法应用于多目标学习,使至少一个目标更好的而又不伤害其他目标。损失函数指的是马和放松约束条件,然后在每一批模型更新权重。随着知识蒸馏的想法,唐et al。gydF4y2Ba 15gydF4y2Ba]提出一种新颖的模型,它采用指导多任务学习的主要特点。特征匹配算法结合了原始特征和主要特点,并将其映射到一个新的隐藏空间,提高多任务信息共享的效率。王等人。gydF4y2Ba 16gydF4y2Ba)提取算法提出一种新的模式来改善关系。嵌入层代表分享信息,它使用双向编码器表示从变压器(BERT) pretrained模型初步计算部分。该模型引入了知识蒸馏更好地使用辅助任务的信息。根据多任务学习框架,邵et al。gydF4y2Ba 17gydF4y2Ba]介绍注意力地图卷积层开采两国高阶特征图从用户和商品。模型可以动态地捕捉用户的隐式对大宗商品。姚明et al。(gydF4y2Ba 18gydF4y2Ba)提出一个强有力的聚合多任务学习方法,它可以通过学习表示向量组任务。该方法假定一个任务是一个线性组合的其他任务。任务之间的相关性是通过统计计算的系数。基于知识图,Yu et al。gydF4y2Ba 19gydF4y2Ba)提出一个多任务功能学习方法使用知识图计算嵌入向量终于协助推荐任务。对话的建议是成为电子商务的一个重要组成部分。为了提高预测的效果通过开采顺序特性,陈et al。gydF4y2Ba 20.gydF4y2Ba采用级联图结构和节点序列扩散。模型提出了一种共享表示层,这有助于理解的任务级联关系。序列知识从分享表示层,可以对级联编码结构和序列节点。大多数多任务构建网络通过多层功能共享。gydF4y2Ba

然而,以上研究在多任务学习工程和知识表示是基于功能,不引入多角度关注。我们整合粗粒度的注意力,细粒度的注意力,提高专家模式,self-attention和专家提供;因此,不同的任务专家可以更好的互动。gydF4y2Ba

本文的其余部分组织如下。部分gydF4y2Ba 2gydF4y2Ba介绍了推荐系统在学术和工业中的应用。部分gydF4y2Ba 3gydF4y2Ba论述了回忆阶段,排名阶段,多元化阶段推荐系统,描述了具体的改进方法。部分gydF4y2Ba 4gydF4y2Ba在公共数据集的实验,比较了基线。部分gydF4y2Ba 5gydF4y2Ba得出结论并提出了前景。gydF4y2Ba

我们提出的模型进行了总结的主要贡献如下:gydF4y2Ba

我们引入了粗粒度和细粒度的注意力在城门口网络关注。每个任务层学习为每个专家查询向量,是在查询向量内积和专家,然后对结果的关注。门口的关注比基础MMOE方法取得更好的性能。gydF4y2Ba

受梯度增加的树比随机森林,我们设计梯度增加专家网络,增强了不同专家之间的相互作用。gydF4y2Ba

我们所知,我们是第一个介绍的专家级多头self-attention到多任务学习和获得更好的效果。gydF4y2Ba

我们设计的时空序列特性到多任务学习和改善损失函数,可以支持多个源数据集。gydF4y2Ba

我们进行广泛Ali-CCP实验数据并确认我们的模型代表最先进的方法的优越性。gydF4y2Ba

2。相关工作gydF4y2Ba 2.1。多任务学习建筑gydF4y2Ba

深层神经网络,点击任务与任务在不同比例加权,然后处理作为正样本。单一任务模型的想法是很难找到点击订单任务之间的权衡。模型更关注某个部分,学习可能偏离原始样本分布的信息。此外,单一任务处理忽略了一些信息,其中包含丰富的相关任务。使用多任务学习的同时优化多个目标。分享学习相关参数。子任务学习样本分布的差异。通过这种方式,我们改善代模型的能力。gydF4y2Ba

众所周知,大多数多任务学习网络特征参数共享模块,分为硬分享和共享特别软。努力分享功能层和底部构造完全共享。上层介绍不同的网络,以预测各自的任务。当任务更相关,分享更有效。负迁移会发生当任务不太相关。如果一个任务增加的影响,另一个任务的影响减少。为了解决这个问题,谷歌提出MMOE模型。为每个任务模型结构闸门控制机制,带来更好的效果。腾讯提出请耐心模型。试图引入多层共享专家和私人专家解决了异构任务之间的关系。 The structure of MMOE model is shown in Figure 1gydF4y2Ba。gydF4y2Ba (1)gydF4y2Ba ygydF4y2Ba kgydF4y2Ba =gydF4y2Ba hgydF4y2Ba kgydF4y2Ba fgydF4y2Ba kgydF4y2Ba xgydF4y2Ba ,gydF4y2Ba fgydF4y2Ba kgydF4y2Ba xgydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ngydF4y2Ba ggydF4y2Ba kgydF4y2Ba xgydF4y2Ba 我gydF4y2Ba fgydF4y2Ba 我gydF4y2Ba xgydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ngydF4y2Ba ggydF4y2Ba kgydF4y2Ba xgydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba ggydF4y2Ba kgydF4y2Ba xgydF4y2Ba 我gydF4y2Ba 代表输出的控制分对数gydF4y2Ba 我gydF4y2Ba thgydF4y2Ba 专家,这是用来计算的重量gydF4y2Ba 我gydF4y2Ba thgydF4y2Ba 专家。gydF4y2Ba fgydF4y2Ba 我gydF4y2Ba xgydF4y2Ba 表示gydF4y2Ba 我gydF4y2Ba thgydF4y2Ba 专家网络;gydF4y2Ba hgydF4y2Ba kgydF4y2Ba 。gydF4y2Ba 意味着隐藏层。深入地,门网络方程如下:gydF4y2Ba (2)gydF4y2Ba ggydF4y2Ba kgydF4y2Ba xgydF4y2Ba =gydF4y2Ba softmaxgydF4y2Ba WgydF4y2Ba ggydF4y2Ba kgydF4y2Ba xgydF4y2Ba 。gydF4y2Ba

的multi-gate multi-expert网络。gydF4y2Ba

2.1.1。专家网络部分gydF4y2Ba

步骤1gydF4y2Ba。建立一个神经网络为每个专家,得到的输出gydF4y2Ba ygydF4y2Ba 。gydF4y2Ba (3)gydF4y2Ba ygydF4y2Ba =gydF4y2Ba XgydF4y2Ba ∗gydF4y2Ba 隐藏的gydF4y2Ba 1gydF4y2Ba ∗gydF4y2Ba 隐藏的gydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba

在哪里gydF4y2Ba XgydF4y2Ba 意味着输入功能,其形状是批量大小,特征尺寸。gydF4y2Ba 隐藏的gydF4y2Ba 1gydF4y2Ba 显示第一个专家的单位隐藏层,形状的[特征尺寸,单位的第一个隐层)。gydF4y2Ba 隐藏的gydF4y2Ba 2gydF4y2Ba 第二个专家的单位显示隐藏层,形状的[第一隐层单元,第二个隐层单元)。因此,的形状gydF4y2Ba ygydF4y2Ba (批量大小,单位的第二个隐藏层)。gydF4y2Ba

步骤2gydF4y2Ba。建立一个专家列表输出,用于恢复每个专家的输出。gydF4y2Ba

步骤3gydF4y2Ba。在专家的最后尺寸输出,我们使用平操作堆栈gydF4y2Ba ygydF4y2Ba ;然后我们将它存储为张量的。张形状(批量大小,单位的第二个隐藏层,专家的数量)。gydF4y2Ba

2.1.2。门网络部分gydF4y2Ba

步骤1gydF4y2Ba。建立一个神经网络为每一个门,门的输出gydF4y2Ba ygydF4y2Ba 。gydF4y2Ba (4)gydF4y2Ba ygydF4y2Ba =gydF4y2Ba XgydF4y2Ba ∗gydF4y2Ba 隐藏的gydF4y2Ba 1gydF4y2Ba ∗gydF4y2Ba 隐藏的gydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba

在哪里gydF4y2Ba XgydF4y2Ba 意味着输入功能,其形状是批量大小,特征尺寸。gydF4y2Ba 隐藏的gydF4y2Ba 1gydF4y2Ba 表示单位的第一门隐藏层,形状的[特征尺寸,单位的第一个隐层)。gydF4y2Ba 隐藏的gydF4y2Ba 2gydF4y2Ba 显示了第二个门隐层单元,与的形状(单位的第一门隐层单元的第二个门隐层)。因此,的形状gydF4y2Ba ygydF4y2Ba (批量大小,单位的第二个门隐层)。gydF4y2Ba

步骤2gydF4y2Ba。构造一个门字典叫盖茨输出,其关键是任务名称,其值是输出gydF4y2Ba ygydF4y2Ba 最后的门网络层。gydF4y2Ba (5)gydF4y2Ba 盖茨gydF4y2Ba _gydF4y2Ba 输出gydF4y2Ba 任务gydF4y2Ba =gydF4y2Ba ygydF4y2Ba 。gydF4y2Ba

步骤3gydF4y2Ba。门电路输出转化为权重,gydF4y2Ba ygydF4y2Ba 扩大在轴索引1。之后,专家的最后一层的神经元数量是复制权值矩阵。权重矩阵的形状(批量大小,单位的第二个专家隐层单元的第二个门隐层)。gydF4y2Ba

步骤4gydF4y2Ba。使用输出和控制专家权重,我们计算连接到塔的张量。专家后输出叠加和权重后扩展维度具有相同的形状。给定一个标量内积,我们得到一个向量和形状(批量大小,单位的第二个专家隐藏层,第二个门隐层单元)。我们做reduce-sum操作在过去的尺寸,计算出最终的专家门输出。(批量大小,形状是第二个专家隐层单元)。gydF4y2Ba

2.2。多任务学习的建议gydF4y2Ba

在推荐的情况下,可以调试的参数多任务学习主要包括以下:gydF4y2Ba

标签重量:它类似于类体重在深层神经网络配置,控制每个标签的样本比率。gydF4y2Ba

减肥:设置的重量损失函数为每个任务。由多个轮参数需要调整,然后选择最佳组合。gydF4y2Ba

出口重量:每个任务的体重预测分数,可以设置更高的体重根据试验结果更好的任务。gydF4y2Ba

任务数量:设置任务的数量。gydF4y2Ba

专家数量:专家的数量。每个专家都是一个两层的完全连接网络。预测分数加权控制网络的输出作为输入的每个任务的塔网络。gydF4y2Ba

专家的层的数量。gydF4y2Ba

隐藏的单位的数量。gydF4y2Ba

门网络的层数。gydF4y2Ba

塔网络的层数。gydF4y2Ba

把核心神经网络的参数,如图gydF4y2Ba 2gydF4y2Ba。gydF4y2Ba

参数将架构的核心多任务学习。gydF4y2Ba

模型训练机制如图gydF4y2Ba 3gydF4y2Ba。gydF4y2Ba

流程模型的培训机制。gydF4y2Ba

3所示。该方案gydF4y2Ba

我们认为有两个部分MMOE可以改善的地方。第一点是专家彼此共享参数,以及如何添加关注有效机制。第二点是损失函数的设计,以及如何平衡不同的学习任务。gydF4y2Ba

3.1。粗粒度的注意门网络gydF4y2Ba

在MMOE模型中,门网络是一个线性变换,从最初的学习参数特性。门的表达技巧是不够的。我们使用注意力机制计算模型权重,更新模型的训练。我们提高原来的门的计算网络,这是从线性转换到一个内积运算符。gydF4y2Ba

通过专家的指导,构造权重模型。门的设计网络引入了专家的先验知识。从专家的角度神经元维度,每个神经元的输出是不同的。注意添加的神经元维度。我们在门中添加重量控制的角度来看,和改变门的注意机制。我们的基础上改进MMOE,如图所示gydF4y2Ba 4gydF4y2Ba。gydF4y2Ba

粗粒度的框架关注网络。gydF4y2Ba

门改善部分是如图gydF4y2Ba 4gydF4y2Ba所示。MMOE计算不同专家的权重融合的原始特性和门净输出。受到的关注机制,每个任务层学习为每个专家网络查询向量。以查询向量之间的内积和专家网络。然后作为内积的结果的关注重量相应任务的专家。gydF4y2Ba

改进方案是用以下公式表示:gydF4y2Ba (6)gydF4y2Ba ygydF4y2Ba egydF4y2Ba =gydF4y2Ba fgydF4y2Ba egydF4y2Ba wgydF4y2Ba egydF4y2Ba 1gydF4y2Ba ∗gydF4y2Ba XgydF4y2Ba ∗gydF4y2Ba wgydF4y2Ba egydF4y2Ba 2gydF4y2Ba +gydF4y2Ba bgydF4y2Ba egydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba XgydF4y2Ba 代表原始输入,gydF4y2Ba wgydF4y2Ba egydF4y2Ba 1gydF4y2Ba 和gydF4y2Ba wgydF4y2Ba egydF4y2Ba 2gydF4y2Ba 表示矩阵参数的专家网络,gydF4y2Ba bgydF4y2Ba egydF4y2Ba 是偏见的专家网络,gydF4y2Ba fgydF4y2Ba egydF4y2Ba 。gydF4y2Ba 代表了转换函数从原始输入专家向量。gydF4y2Ba (7)gydF4y2Ba ygydF4y2Ba ggydF4y2Ba =gydF4y2Ba σgydF4y2Ba wgydF4y2Ba ggydF4y2Ba ∗gydF4y2Ba egydF4y2Ba ggydF4y2Ba +gydF4y2Ba bgydF4y2Ba ggydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba wgydF4y2Ba ggydF4y2Ba 门网络的参数,gydF4y2Ba egydF4y2Ba ggydF4y2Ba 是查询向量的初始化门网络,gydF4y2Ba bgydF4y2Ba ggydF4y2Ba 门网络的偏见,gydF4y2Ba σgydF4y2Ba 代表了映射算子。gydF4y2Ba (8)gydF4y2Ba ygydF4y2Ba 一个gydF4y2Ba tgydF4y2Ba tgydF4y2Ba =gydF4y2Ba hgydF4y2Ba ygydF4y2Ba egydF4y2Ba ⊙gydF4y2Ba tgydF4y2Ba ygydF4y2Ba ggydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba hgydF4y2Ba ,gydF4y2Ba tgydF4y2Ba 表示变换函数和gydF4y2Ba ⊙gydF4y2Ba 内积操作手段。gydF4y2Ba

Gate-improved注意力更与专家相关匹配和更具体的任务表示。gydF4y2Ba

3.1.1。的专家gydF4y2Ba

步骤1gydF4y2Ba。建立一个神经网络为每个专家,得到的输出gydF4y2Ba ygydF4y2Ba 。gydF4y2Ba (9)gydF4y2Ba YgydF4y2Ba =gydF4y2Ba NgydF4y2Ba ,gydF4y2Ba FgydF4y2Ba ∗gydF4y2Ba FgydF4y2Ba ,gydF4y2Ba 256年gydF4y2Ba ∗gydF4y2Ba 256128年gydF4y2Ba =gydF4y2Ba NgydF4y2Ba ,gydF4y2Ba 128年gydF4y2Ba 。gydF4y2Ba

步骤2gydF4y2Ba。建立一个专家列表输出,存储专家的结果。gydF4y2Ba

步骤3gydF4y2Ba。堆栈专家输出在过去的维度,和张量的形状gydF4y2Ba NgydF4y2Ba ,gydF4y2Ba 128年,8gydF4y2Ba 。gydF4y2Ba

3.1.2。门的网络的改进gydF4y2Ba

步骤1gydF4y2Ba。建立一个神经网络为每个门。门口有一个层的形状gydF4y2Ba 1128年gydF4y2Ba ,128是MMOE专家的最后一层的神经元数量单位。gydF4y2Ba

步骤2gydF4y2Ba。每个任务的盖茨输出存储在字典命名为盖茨的输出。gydF4y2Ba

步骤3gydF4y2Ba。堆栈专家第二维度和输出计算专家与张量形式的结果gydF4y2Ba NgydF4y2Ba ,gydF4y2Ba 8128年gydF4y2Ba 。我们为每个任务构造专家权重查询向量。查询向量相乘得到的产品操作门的输出gydF4y2Ba 1128年gydF4y2Ba 和专家gydF4y2Ba NgydF4y2Ba ,gydF4y2Ba 8128年gydF4y2Ba 。gydF4y2Ba

步骤4gydF4y2Ba。让elementwise操作在盖茨和专家输出扩展维度,使用广播机制。我们获得初始查询向量的形状gydF4y2Ba NgydF4y2Ba ,gydF4y2Ba 8128年gydF4y2Ba 总使用reduce-sum函数,然后在过去的维度。我们会注意点的形状张量gydF4y2Ba NgydF4y2Ba ,gydF4y2Ba 8gydF4y2Ba 。gydF4y2Ba

步骤5gydF4y2Ba。通过扩大和复制的注意点张量,我们计算专家权重的形状gydF4y2Ba NgydF4y2Ba ,gydF4y2Ba 128年,8gydF4y2Ba 。的形状重量和专家的形状都是相同的。gydF4y2Ba

步骤6gydF4y2Ba。我们为专家和添加权重计算出最终的输出gydF4y2Ba NgydF4y2Ba ,gydF4y2Ba 128年gydF4y2Ba 。gydF4y2Ba

我们的主要改进是使用专家信息设计每个门的查询向量,由关注机制。细粒度的关注基于粗粒度的关注使得嵌入维数不同的权重值。描述对细粒度注意以下部分所示。gydF4y2Ba

3.2。细粒度的注意门网络gydF4y2Ba

维度的专家神经元和嵌入的维数,我们一起使用的注意。这样,门控制网络不仅是一个简单的两层完全连接网络,但也将最初的门与专家的注意机制。细粒度模型学习为每个任务查询向量。gydF4y2Ba

3.2.1之上。专家网络部分gydF4y2Ba

它是一样的专家网络的一部分MMOE粗粒度的注意。gydF4y2Ba

3.2.2。注意门网络部分gydF4y2Ba

粗粒度的关注构造神经网络为每个门的形状gydF4y2Ba 1128年gydF4y2Ba 。然后,门网络和专家的形状gydF4y2Ba NgydF4y2Ba ,gydF4y2Ba 8128年gydF4y2Ba 使繁殖操作产品。我们为每个任务设计查询网络的形状gydF4y2Ba NgydF4y2Ba ,gydF4y2Ba 8128年gydF4y2Ba 8,128尺寸是不同的,尺寸都是一样的。细粒度的关注在128年维度和8个维度不同,它可以更好的适应不同的相关任务。gydF4y2Ba

3.3。梯度增加专家网络gydF4y2Ba

在MMOE模型中,专家可以被看作是随机森林。为了使不同的专家更好的交互,我们提高专家的模式从随机森林梯度增强决策树。我们构建一个名为hub-list专家列表,用于存储每个专家的输出。hub-list穿越时,信息将被添加在列表的最后。如果没有元素专家枢纽中心,我们喂养前到神经网络提取特征。如果有专家中心中心元素,我们喂养专家中心的最后一层贴合与以前的提取特性神经网络。随机森林是改进梯度增强树主要发生在专家的部分。gydF4y2Ba

3.3.1。专家网络的改进部分gydF4y2Ba

我们建立了一个专家输出,用于存储每个专家的预测评分。如果这是第一专家,接收输入的原始功能。如果是后者专家,接收输入的原始特性和预测价值前专家。通过这种方式,它相当于增加特征列的数量。随着神经网络的建设,对专家的最后输出没有影响。形状是gydF4y2Ba NgydF4y2Ba ,gydF4y2Ba 128年gydF4y2Ba ,叠加后,它是gydF4y2Ba NgydF4y2Ba ,gydF4y2Ba 128年,8gydF4y2Ba 。gydF4y2Ba

3.3.2。门网络部分gydF4y2Ba

像本机MMOE模型,我们建立一个神经网络,其形状是输出gydF4y2Ba NgydF4y2Ba ,gydF4y2Ba 8gydF4y2Ba 。然后我们扩展维度和把它变成gydF4y2Ba NgydF4y2Ba ,gydF4y2Ba 128年,8gydF4y2Ba 。这种形状的张量,我们添加对专家的权重。我们聚合和计算输出的形状gydF4y2Ba NgydF4y2Ba ,gydF4y2Ba 128年gydF4y2Ba 最后。gydF4y2Ba

3.4。明确Self-Attention专家互动gydF4y2Ba

在文献[gydF4y2Ba 21gydF4y2Ba),self-attention方法用于不同功能之间的交互。借鉴这个想法,我们认为不同专家的输出是抽象的高级特性,和设计交互式网络层。gydF4y2Ba

作为显示在图gydF4y2Ba 5gydF4y2BaMMOE的基础上,我们添加一个专家交互层,使用一个多头的注意机制。相互作用后的输出作为高阶特性。我们雇佣专家之间的内积运算输出和高阶功能,和饲料结果为每个任务的塔网络。通过自动交互,知识可以从专家更好地挖掘用户兴趣。gydF4y2Ba

明确的框架self-attention专家互动。gydF4y2Ba

具体来说,我们采用键值的注意捕获不同专家之间的组合机制。采取专家gydF4y2Ba 米gydF4y2Ba 作为一个例子,我们定义之间的关系专家gydF4y2Ba 米gydF4y2Ba 和专家gydF4y2Ba kgydF4y2Ba 在一个特定的关注gydF4y2Ba hgydF4y2Ba 如下:gydF4y2Ba (10)gydF4y2Ba αgydF4y2Ba 米gydF4y2Ba ,gydF4y2Ba kgydF4y2Ba hgydF4y2Ba =gydF4y2Ba 经验值gydF4y2Ba fgydF4y2Ba hgydF4y2Ba egydF4y2Ba 米gydF4y2Ba ,gydF4y2Ba egydF4y2Ba kgydF4y2Ba ∑gydF4y2Ba lgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 米gydF4y2Ba 经验值gydF4y2Ba fgydF4y2Ba hgydF4y2Ba egydF4y2Ba 米gydF4y2Ba ,gydF4y2Ba egydF4y2Ba lgydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba fgydF4y2Ba hgydF4y2Ba ⋅gydF4y2Ba 是一个关注函数,gydF4y2Ba egydF4y2Ba 米gydF4y2Ba 表示专家gydF4y2Ba 米gydF4y2Ba ,gydF4y2Ba egydF4y2Ba kgydF4y2Ba 表示专家gydF4y2Ba kgydF4y2Ba ;在这项工作中,我们采用内积为关注功能。gydF4y2Ba (11)gydF4y2Ba fgydF4y2Ba hgydF4y2Ba egydF4y2Ba 米gydF4y2Ba ,gydF4y2Ba egydF4y2Ba kgydF4y2Ba =gydF4y2Ba WgydF4y2Ba 查询gydF4y2Ba hgydF4y2Ba egydF4y2Ba 米gydF4y2Ba ,gydF4y2Ba WgydF4y2Ba 关键gydF4y2Ba hgydF4y2Ba egydF4y2Ba kgydF4y2Ba ,gydF4y2Ba egydF4y2Ba ˜gydF4y2Ba 米gydF4y2Ba hgydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 米gydF4y2Ba αgydF4y2Ba 米gydF4y2Ba ,gydF4y2Ba kgydF4y2Ba hgydF4y2Ba WgydF4y2Ba 价值gydF4y2Ba hgydF4y2Ba egydF4y2Ba kgydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba WgydF4y2Ba 查询gydF4y2Ba hgydF4y2Ba 和gydF4y2Ba WgydF4y2Ba 关键gydF4y2Ba hgydF4y2Ba 变换矩阵,将原来的专家空间映射到一个新的空间。gydF4y2Ba WgydF4y2Ba 价值gydF4y2Ba hgydF4y2Ba 值空间大学入学考试,gydF4y2Ba egydF4y2Ba ˜gydF4y2Ba 米gydF4y2Ba hgydF4y2Ba 是向量的专家gydF4y2Ba 米gydF4y2Ba (在头gydF4y2Ba hgydF4y2Ba );此外,我们结合gydF4y2Ba hgydF4y2Ba 头expert-output。gydF4y2Ba

特性介绍了多头self-attention特性工程,然后专家网络的输入。结果比的专家级模式,所以我们选择更好的一个。gydF4y2Ba

3.5。深度序列特性应用到多任务学习的兴趣gydF4y2Ba

改进MMOE_DIN底层模型介绍了序列特性。序列的特性可以捕获用户的行为的相关性更好。底层网络特性的方式处理有着浓厚的兴趣。用户序列特性的基础上,我们设计嵌入的,这代表了空间信息和时间信息。空间信息嵌入方法如图gydF4y2Ba 6gydF4y2Ba。gydF4y2Ba

空间信息嵌入方法。gydF4y2Ba

嵌入信息方法如图gydF4y2Ba 7gydF4y2Ba。gydF4y2Ba

嵌入信息的方法。gydF4y2Ba

我们正常时间戳为天,做一些数学操作。正弦函数的数学操作包括指数函数操作,操作,余弦函数操作,根操作,操作方,对数操作。然后,我们连接成一个大嵌入向量。gydF4y2Ba

3.6。改善与多任务学习的损失函数gydF4y2Ba

最近,人工智能正逐渐从知觉情报认知智力发展。深入学习是推荐系统的主流技术等级阶段。越来越多的学者(gydF4y2Ba 22gydF4y2Ba,gydF4y2Ba 23gydF4y2Ba尝试引入认知智能推荐。推荐系统有多个场景,和数据异构。传统的多任务学习联合训练需要对齐的数据特征。结合异构数据从多个场景训练模型,我们提出一个特征空间映射算子。上述运营商可以到同一个特征空间项目的异构数据通过处理多个网络层。从认知的角度情报,更容易为多个专家分享集体智慧在同一个特征空间。认知的数据融合方案是如图gydF4y2Ba 8gydF4y2Ba。认知学习的多任务共享参数,我们设计一个定制的损失函数。在学习过程中,特征提取当前数据源被视为真实的数据,和它的标签是设置为真正的标签。从其他数据源中提取的特性被认为是假数据,和相应的标签设置为假标签。通过这种方式,在多任务学习,多源特征迭代训练,鉴别器很难区分共享数据源,从而达到共享的认知效果。gydF4y2Ba

认知智能与多任务学习的框架。gydF4y2Ba

的多任务学习模式使特征空间映射来自不同数据源的数据,以便多源数据在同一个特征空间。我们构建以下认知功能损失,gydF4y2Ba cgydF4y2Ba 我gydF4y2Ba kgydF4y2Ba 是真实的还是假的标签,并将它添加到基本损失函数。gydF4y2Ba (12)gydF4y2Ba lgydF4y2Ba 改善gydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba KgydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba NgydF4y2Ba kgydF4y2Ba cgydF4y2Ba 我gydF4y2Ba kgydF4y2Ba 日志gydF4y2Ba DgydF4y2Ba 年代gydF4y2Ba kgydF4y2Ba 我gydF4y2Ba 。gydF4y2Ba

4所示。实验gydF4y2Ba

在本节中,我们评估的性能提出了小说在公共Ali-CCP数据模型。实验对比显示了我们的模型的有效性,它优于先进的多任务学习的方法。gydF4y2Ba

4.1。数据集gydF4y2Ba

公共数据集Ali-CCP包含4200万4300万训练样本和测试样本,从淘宝的推荐系统中提取。训练数据集存储10 g中,存储是8 g和测试数据集。CTR和表格两个任务建模操作点击和购买的数据集。数据集包含标签部分和功能部分。标签由点击标签和转换标签。字段id、特征特性由id,和功能价值。功能包括用户功能,项目特点,结合特性,和上下文特征。下面的数据详细说明页面中(gydF4y2Ba https://tianchi.aliyun.com/dataset/dataDetail?dataId=408&userId=1gydF4y2Ba)。我们随机选择10%的训练数据集作为验证数据集测试所有模型的评估指标。gydF4y2Ba

4.2。基线模型gydF4y2Ba

我们比较模型与基线和主流模型如下:gydF4y2Ba

中长期规划gydF4y2Ba(gydF4y2Ba 24gydF4y2Ba]。我们使用多层感知器结构作为我们的基准,这是一个单一任务模型。gydF4y2Ba

共享下gydF4y2Ba(gydF4y2Ba 25gydF4y2Ba]。模型与Expert-Bottom模式股票几个低级的网络层的所有任务,每个任务都有自己的塔。gydF4y2Ba

ESMMgydF4y2Ba(gydF4y2Ba 4gydF4y2Ba,gydF4y2Ba 26gydF4y2Ba]。Probability-Transformer模式的模型是用来预测post-click转化率,这可以减轻通过训练样本选择偏差问题对整个空间。gydF4y2Ba

OMOEgydF4y2Ba(gydF4y2Ba 2gydF4y2Ba]。模型与Expert-Bottom模式集成专家通过共享一个门在所有任务。gydF4y2Ba

MMOEgydF4y2Ba(gydF4y2Ba 2gydF4y2Ba]。模型由多个盖茨与Expert-Bottom模式集成专家在所有任务。gydF4y2Ba

公司治理文化gydF4y2Ba(gydF4y2Ba 7gydF4y2Ba]。模型与Expert-Bottom模式分离task-shared专家和特定于任务的专家,旨在解决多任务负迁移的问题。gydF4y2Ba

请耐心gydF4y2Ba(gydF4y2Ba 7gydF4y2Ba]。进步的分层提取(中国)Expert-Bottom模式,由多层公司治理文化。gydF4y2Ba

使用Ali-CCP数据集,我们采用一个两层的MLP网络骰子激活,并为每个任务在两个隐藏层MTL模型。Hyperparameters如表所示gydF4y2Ba 1gydF4y2Ba。gydF4y2Ba

Hyperparameter设置。gydF4y2Ba

HyperparametergydF4y2Ba 价值gydF4y2Ba
标签的重量gydF4y2Ba 正样本,负样本= 1:1gydF4y2Ba
减肥gydF4y2Ba 点击任务,订单任务= 1:0.02gydF4y2Ba
出口重量gydF4y2Ba 点击任务,订单任务= 0.8:0.2gydF4y2Ba
任务数量gydF4y2Ba 2gydF4y2Ba
专家数量gydF4y2Ba 8gydF4y2Ba
隐藏的单位gydF4y2Ba 256 128 64gydF4y2Ba
学习速率gydF4y2Ba 0.001gydF4y2Ba
批量大小gydF4y2Ba 1000年gydF4y2Ba
时代gydF4y2Ba 5gydF4y2Ba
4.3。实验设置gydF4y2Ba

Hyperparameter研究gydF4y2Ba

为了研究hyperparameters的有效性,我们随机搜索,网格搜索和退火方法。gydF4y2Ba

考虑到类别中嵌入维数,我们做实验通过改变嵌入维度(8、16、32、64、128、256、512、1024],结果如图所示gydF4y2Ba 9gydF4y2Ba。我们可以看到,模型的影响略嵌入维数的影响。嵌入维度模型复杂性和体积有关。gydF4y2Ba

较小的嵌入维导致拟合数据分布不够,而较大的嵌入维数增加模型的复杂性;合适的嵌入维数会产生最好的效果。使拟合能力和复杂性之间的权衡,我们最终选择嵌入维数= 32在所有的实验中。gydF4y2Ba

我们研究出口重量的影响;有跷跷板现象在两个不同的任务。然而,出口重量带来的改善总体性能。我们终于把出口的重量0.2 0.8和秩序的任务,点击任务。gydF4y2Ba

我们研究时代的影响很多数据和报告的AUC性能对整个测试数据集,如图gydF4y2Ba 10gydF4y2Ba。我们终于时代数量设置为5的实验。gydF4y2Ba

我们在模型研究层数;AUC的有效性和log-loss如下。随着神经网络层数的增加,AUC先增加然后减少log-loss是相反的趋势。因此,我们最终选择3层在所有的实验中,如图gydF4y2Ba 11gydF4y2Ba。gydF4y2Ba

不同嵌入的AUC维度。gydF4y2Ba

的总AUC不同的时代。gydF4y2Ba

的AUC和log-loss不同的网络层。gydF4y2Ba

4.4。实验结果gydF4y2Ba

与基线相比MMOE ESMM,公司治理文化,我们证明我们的方法的有效性在Ali-CCP公共数据集。我们表明,该方法提高了多任务模型的准确性。离线评估者我们的模型带来了显著的改善。为了获得准确的预测结果,我们为每个模型重复试验5次,其中最好的离线效果如表所示gydF4y2Ba 2gydF4y2Ba。gydF4y2Ba

不同模型的性能。gydF4y2Ba

模型gydF4y2Ba 单击AUC最好gydF4y2Ba 订单AUC最好gydF4y2Ba 损失gydF4y2Ba
MMOE (base1)gydF4y2Ba 0.6209gydF4y2Ba 0.6645gydF4y2Ba 1.6027gydF4y2Ba
ESMM (base2)gydF4y2Ba 0.6203gydF4y2Ba 0.6712gydF4y2Ba 1.6105gydF4y2Ba
公司治理文化(base3)gydF4y2Ba 0.6311gydF4y2Ba 0.6708gydF4y2Ba 1.6112gydF4y2Ba
粗粒度的关注gydF4y2Ba 0.6395gydF4y2Ba 0.6957gydF4y2Ba 1.5843gydF4y2Ba
细粒度的关注gydF4y2Ba 0.6339gydF4y2Ba 0.6884gydF4y2Ba 1.5827gydF4y2Ba
专家提振模式gydF4y2Ba 0.6409gydF4y2Ba 0.6804gydF4y2Ba 1.7268gydF4y2Ba
添加汽车交互层gydF4y2Ba 0.6432gydF4y2Ba 0.6824gydF4y2Ba 1.6891gydF4y2Ba
序列MMOEgydF4y2Ba 0.6413gydF4y2Ba 0.6870gydF4y2Ba 1.6152gydF4y2Ba
提高损失函数gydF4y2Ba 0.6407gydF4y2Ba 0.6924gydF4y2Ba 1.5997gydF4y2Ba
粗粒度的关注+汽车交互层+序列特征+提高损失函数gydF4y2Ba 0.6513gydF4y2Ba 0.6966gydF4y2Ba 1.5784gydF4y2Ba

评估我们的提出的模型的有效性,我们采用四个指标在实验中广泛使用,例如,AUC Log-loss CLICK@2, ORDER@2。gydF4y2Ba

AUC:曲线下的面积,它反映了排名能力。分数范围从0到1,越高越好。AUC公式如下:gydF4y2Ba (13)gydF4y2Ba AUCgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba DgydF4y2Ba +gydF4y2Ba DgydF4y2Ba −gydF4y2Ba ∑gydF4y2Ba xgydF4y2Ba +gydF4y2Ba ∈gydF4y2Ba DgydF4y2Ba +gydF4y2Ba ∑gydF4y2Ba xgydF4y2Ba −gydF4y2Ba ∈gydF4y2Ba DgydF4y2Ba −gydF4y2Ba 我gydF4y2Ba fgydF4y2Ba xgydF4y2Ba +gydF4y2Ba >gydF4y2Ba fgydF4y2Ba xgydF4y2Ba −gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba DgydF4y2Ba +gydF4y2Ba 和gydF4y2Ba DgydF4y2Ba −gydF4y2Ba 表示正负样本集,gydF4y2Ba DgydF4y2Ba +gydF4y2Ba 和gydF4y2Ba DgydF4y2Ba −gydF4y2Ba 样品的数量gydF4y2Ba DgydF4y2Ba +gydF4y2Ba 和gydF4y2Ba DgydF4y2Ba −gydF4y2Ba ,gydF4y2Ba fgydF4y2Ba 。gydF4y2Ba 是预测函数,gydF4y2Ba 我gydF4y2Ba ⋅gydF4y2Ba 指标函数。gydF4y2Ba

Log-LossgydF4y2Ba。在多任务学习,共同联合log-loss方程的加权和log-loss个人任务。gydF4y2Ba (14)gydF4y2Ba lgydF4y2Ba θgydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba θgydF4y2Ba KgydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba KgydF4y2Ba wgydF4y2Ba kgydF4y2Ba lgydF4y2Ba kgydF4y2Ba θgydF4y2Ba kgydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba KgydF4y2Ba 任务的数量,gydF4y2Ba lgydF4y2Ba kgydF4y2Ba ⋅gydF4y2Ba 损失函数,gydF4y2Ba wgydF4y2Ba kgydF4y2Ba 是减肥,gydF4y2Ba θgydF4y2Ba kgydF4y2Ba 任务参数。gydF4y2Ba (15)gydF4y2Ba lgydF4y2Ba kgydF4y2Ba θgydF4y2Ba kgydF4y2Ba =gydF4y2Ba ygydF4y2Ba kgydF4y2Ba ×gydF4y2Ba −gydF4y2Ba 日志gydF4y2Ba 乙状结肠gydF4y2Ba ygydF4y2Ba ^gydF4y2Ba kgydF4y2Ba +gydF4y2Ba 1gydF4y2Ba −gydF4y2Ba ygydF4y2Ba kgydF4y2Ba ×gydF4y2Ba −gydF4y2Ba 日志gydF4y2Ba 1gydF4y2Ba −gydF4y2Ba 乙状结肠gydF4y2Ba ygydF4y2Ba ^gydF4y2Ba kgydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba ygydF4y2Ba kgydF4y2Ba 表示真正的标签,gydF4y2Ba ygydF4y2Ba ^gydF4y2Ba kgydF4y2Ba 表示预测价值,乙状结肠是激活函数。gydF4y2Ba

CLICK@2gydF4y2Ba。这是实际的概率预测最高点击数量gydF4y2Ba NgydF4y2Ba 得分。gydF4y2Ba (16)gydF4y2Ba CLKICKgydF4y2Ba @gydF4y2Ba 2gydF4y2Ba =gydF4y2Ba tgydF4y2Ba ogydF4y2Ba pgydF4y2Ba ygydF4y2Ba ^gydF4y2Ba ngydF4y2Ba ngydF4y2Ba NgydF4y2Ba 。gydF4y2Ba

ORDER@2gydF4y2Ba。这是实际购买数量的概率预测gydF4y2Ba NgydF4y2Ba 得分。gydF4y2Ba (17)gydF4y2Ba 订单gydF4y2Ba @gydF4y2Ba 2gydF4y2Ba =gydF4y2Ba 前gydF4y2Ba ygydF4y2Ba ^gydF4y2Ba ngydF4y2Ba ngydF4y2Ba NgydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba ngydF4y2Ba 表示实际点击/购买样品的数量gydF4y2Ba NgydF4y2Ba分数,gydF4y2Ba NgydF4y2Ba 在我们的论文= 2。gydF4y2Ba

为了减少偶然误差的实验中,我们重复的训练过程改进模型5次。表gydF4y2Ba 3gydF4y2Ba显示了每个模型的平均提高5倍。gydF4y2Ba

不同模型的改进。gydF4y2Ba

模型gydF4y2Ba Clk AUC改善gydF4y2Ba 奥德AUC改善gydF4y2Ba
MMOE(基地)gydF4y2Ba 基线1gydF4y2Ba 基线1gydF4y2Ba
ESMM(基地)gydF4y2Ba 基线2gydF4y2Ba 基线2gydF4y2Ba
公司治理文化(基地)gydF4y2Ba Baseline3gydF4y2Ba 基线3gydF4y2Ba
粗粒度的关注gydF4y2Ba + 2.46%gydF4y2Ba + 4.00%gydF4y2Ba
细粒度的关注gydF4y2Ba + 1.57%gydF4y2Ba + 2.91%gydF4y2Ba
专家提振模式gydF4y2Ba + 2.69%gydF4y2Ba + 1.74%gydF4y2Ba
添加汽车交互层gydF4y2Ba + 3.06%gydF4y2Ba + 2.02%gydF4y2Ba
序列MMOEgydF4y2Ba + 2.75%gydF4y2Ba + 2.71%gydF4y2Ba
提高损失函数gydF4y2Ba + 2.65%gydF4y2Ba + 3.51%gydF4y2Ba
粗粒度的关注+汽车交互层+序列特征+提高损失函数gydF4y2Ba + 4.35%gydF4y2Ba + 4.14%gydF4y2Ba

正如上面提到的,为了增加实验的可信度,我们每个模型的训练过程5次重复。gydF4y2Ba

自定义评价指标:为了比较模型效果更公平,我们从多个角度评价模型。除了AUC,我们定制两类离线评价指标:CLK@gydF4y2Ba NgydF4y2Ba和ORD@gydF4y2Ba NgydF4y2Ba。gydF4y2Ba

CLICK@gydF4y2Ba NgydF4y2Ba:在顶部gydF4y2Ba NgydF4y2Ba商品推荐的模型中,商品的数量的比例的用户点击。gydF4y2Ba

ORDER@gydF4y2Ba NgydF4y2Ba:在顶部gydF4y2Ba NgydF4y2Ba商品推荐的模型,用户购买的商品的数量。gydF4y2Ba

为了减少偶然误差的实验中,我们反复的训练过程改进模型5次。表gydF4y2Ba 4gydF4y2Ba显示了平均5定制为每个模型评估。gydF4y2Ba

自定义评价不同的模型。gydF4y2Ba

模型gydF4y2Ba CLICK@2gydF4y2Ba ORDER@2gydF4y2Ba
MMOEgydF4y2Ba 0.1927gydF4y2Ba 0.1477gydF4y2Ba
ESMMgydF4y2Ba 0.1925gydF4y2Ba 0.1490gydF4y2Ba
公司治理文化gydF4y2Ba 0.1931gydF4y2Ba 0.1487gydF4y2Ba
粗粒度的关注gydF4y2Ba 0.1957gydF4y2Ba 0.1573gydF4y2Ba
细粒度的关注gydF4y2Ba 0.1953gydF4y2Ba 0.1463gydF4y2Ba
专家提振模式gydF4y2Ba 0.1936gydF4y2Ba 0.1478gydF4y2Ba
添加汽车交互层gydF4y2Ba 0.1958gydF4y2Ba 0.1521gydF4y2Ba
序列MMOEgydF4y2Ba 0.1941gydF4y2Ba 0.1504gydF4y2Ba
提高损失函数gydF4y2Ba 0.1932gydF4y2Ba 0.1488gydF4y2Ba
粗粒度的关注+添加汽车交互层+序列MMOE +提高损失函数gydF4y2Ba 0.1969gydF4y2Ba 0.1582gydF4y2Ba

从上面的表中,我们可以看到,我们的方法将积极改进。gydF4y2Ba

4.5。烧蚀研究gydF4y2Ba

从表gydF4y2Ba 2gydF4y2Ba- - - - - -gydF4y2Ba 4gydF4y2Ba基地MMOE来比较,我们可以看到,每个提出点都有改善。序列特性可以把+ 3.65% AUC由于特性工程改进。粗粒度的关注能带来AUC + 3.41%,和细粒度的关注能带来AUC + 2.11%。粗粒度和细粒度方法两种模式的关注。我们选择粗粒度组件考虑到细粒度的关注可能导致过度拟合。提高专家模式和自动交互层模式都是用来描述专家互动,我们选择汽车交互层,因为它表现更好。此外,我们提高了损失函数以更好地支持多源数据集喂食,和更通用的模型结构。最后,我们把上面的四个方法,预测效果显著提高。click@2和order@2每个模型如图所示gydF4y2Ba 12gydF4y2Ba。实验重复5次,误差波动很小。可以看出,我们的新的集成模型的最佳效果。gydF4y2Ba

Click@2和order@2不同的模型。gydF4y2Ba

5。结论gydF4y2Ba

在本文中,我们提出五个改进方法对多任务学习,关注专家互动和门的注意机制。在公共数据集,有一个显著的改善与MMOE模型进行比较。我们优化门网络,依靠引入粗粒度和细粒度的注意机制。通过一个线性变换,门口的原生MMOE更关注网络专家使用原始输入,所以表达能力是不够的。我们计算权重的门使用注意机制。我们升级大门的计算网络,它是一个线性变换到多个矩阵内积操作。我们引入梯度增加树MMOE专家,提高知识表示和相互通信的推理的效率。多线程应用关注的专家特征提取层,它可以代表高阶特性更好。此外,我们融合序列喧嚣和MMOE,使多任务学习考虑功能的相关性。gydF4y2Ba

在进一步的工作中,我们将介绍认知智力在多任务学习更多。认知智力可以充分发挥专家的智慧。专家系统基于框架和基于模型的专家系统被视为不同的多任务学习算法的专家。我们将建立一个更广泛的推荐系统,它使用multi-experts和多任务协同工作。gydF4y2Ba

数据可用性gydF4y2Ba

Ali-CCP公共数据集已被用于实验。Ali-CCP数据集是一个公共数据集包含8400万个样本从淘宝的推荐系统中提取。CTR和表格(转化率)是两个任务建模操作点击和购买的数据集。数据集的url是gydF4y2Ba https://tianchi.aliyun.com/dataset/dataDetail?dataId=408gydF4y2Ba。gydF4y2Ba

的利益冲突gydF4y2Ba

没有利益冲突有关的出版。gydF4y2Ba

确认gydF4y2Ba

这项工作是国家重点支持的研究和发展项目(没有。2017 yfb1002304)。gydF4y2Ba

程ydF4y2Ba H。gydF4y2Ba 太阳gydF4y2Ba H。gydF4y2Ba 程gydF4y2Ba M。gydF4y2Ba 严gydF4y2Ba W。gydF4y2Ba 推荐评级预测方法基于用户兴趣和信任值gydF4y2Ba 计算智能和神经科学gydF4y2Ba 2021年gydF4y2Ba 2021年gydF4y2Ba 9gydF4y2Ba 6677920gydF4y2Ba 10.1155 / 2021/6677920gydF4y2Ba 马gydF4y2Ba J。gydF4y2Ba 赵gydF4y2Ba Z。gydF4y2Ba 易gydF4y2Ba X。gydF4y2Ba 程ydF4y2Ba J。gydF4y2Ba 在香港gydF4y2Ba lgydF4y2Ba 气gydF4y2Ba e . H。gydF4y2Ba 建模的任务关系在多任务学习multi-gate mixture-of-expertsgydF4y2Ba ACM SIGKDD国际会议的程序知识发现和数据挖掘gydF4y2Ba 2018年8月gydF4y2Ba 英国伦敦gydF4y2Ba 1930年gydF4y2Ba 1939年gydF4y2Ba 10.1145/3219819.3220007gydF4y2Ba 2 - s2.0 - 85051473411gydF4y2Ba 赵gydF4y2Ba Z。gydF4y2Ba 在香港gydF4y2Ba lgydF4y2Ba 魏gydF4y2Ba lgydF4y2Ba 推荐视频看下:一个多任务排名系统gydF4y2Ba 学报13 ACM关于推荐系统的会议gydF4y2Ba 2019年9月gydF4y2Ba 丹麦哥本哈根gydF4y2Ba 43gydF4y2Ba 51gydF4y2Ba 温gydF4y2Ba H。gydF4y2Ba 张gydF4y2Ba J。gydF4y2Ba 王gydF4y2Ba Y。gydF4y2Ba 整个空间多任务建模通过post-click行为分解转化率预测gydF4y2Ba 学报》第43届国际市立图书馆会议在信息检索的研究与开发gydF4y2Ba 2020年7月gydF4y2Ba 西安,中国gydF4y2Ba 2377年gydF4y2Ba 2386年gydF4y2Ba 马gydF4y2Ba J。gydF4y2Ba 赵gydF4y2Ba Z。gydF4y2Ba 程ydF4y2Ba J。gydF4y2Ba 李gydF4y2Ba 一个。gydF4y2Ba 在香港gydF4y2Ba lgydF4y2Ba 气gydF4y2Ba e . H。gydF4y2Ba 为灵活的参数信噪比:子网络路由共享多任务学习gydF4y2Ba 人工智能学报AAAI会议gydF4y2Ba 2019年gydF4y2Ba 33gydF4y2Ba 216年gydF4y2Ba 223年gydF4y2Ba 10.1609 / aaai.v33i01.3301216gydF4y2Ba 秦gydF4y2Ba Z。gydF4y2Ba 程gydF4y2Ba Y。gydF4y2Ba 赵gydF4y2Ba Z。gydF4y2Ba 程ydF4y2Ba Z。gydF4y2Ba 麦茨勒gydF4y2Ba D。gydF4y2Ba 秦gydF4y2Ba J。gydF4y2Ba 多任务的顺序专家用户活动流gydF4y2Ba 第26届ACM SIGKDD学报》国际会议上知识发现和数据挖掘gydF4y2Ba 2020年7月gydF4y2Ba 纽约,纽约,美国gydF4y2Ba 3083年gydF4y2Ba 3091年gydF4y2Ba 10.1145/3394486.3403359gydF4y2Ba 唐gydF4y2Ba H。gydF4y2Ba 刘gydF4y2Ba J。gydF4y2Ba 赵gydF4y2Ba M。gydF4y2Ba 龚gydF4y2Ba X。gydF4y2Ba 进步的分层提取(中国):一种新颖的多任务学习个性化推荐(MTL)模型gydF4y2Ba 《第十四ACM关于推荐系统的会议gydF4y2Ba 2020年9月gydF4y2Ba 纽约,纽约,美国gydF4y2Ba 269年gydF4y2Ba 278年gydF4y2Ba 10.1145/3383313.3412236gydF4y2Ba 王gydF4y2Ba Y。gydF4y2Ba 王gydF4y2Ba X。gydF4y2Ba BeutelgydF4y2Ba 一个。gydF4y2Ba 在多任务学习理解和改善fairness-accuracy权衡gydF4y2Ba 2021年gydF4y2Ba arXiv预印本arXiv: 2106.02705gydF4y2Ba 习gydF4y2Ba D。gydF4y2Ba 程ydF4y2Ba Z。gydF4y2Ba 严gydF4y2Ba P。gydF4y2Ba 建模顺序依赖观众多步转换与多任务学习中有针对性的广告gydF4y2Ba 2021年gydF4y2Ba arXiv预印本arXiv: 2105.08489gydF4y2Ba 风扇gydF4y2Ba X。gydF4y2Ba 刘gydF4y2Ba Z。gydF4y2Ba 丽安gydF4y2Ba J。gydF4y2Ba 更轻,更好:低秩分解self-attention网络下一项建议gydF4y2Ba 学报》第44届国际市立图书馆会议在信息检索的研究与开发gydF4y2Ba 2021年7月gydF4y2Ba 加拿大蒙特利尔gydF4y2Ba 1733年gydF4y2Ba 1737年gydF4y2Ba 范gydF4y2Ba H。gydF4y2Ba 张gydF4y2Ba J。gydF4y2Ba 周gydF4y2Ba X。gydF4y2Ba GemNN: gating-enhanced多任务和功能神经网络交互学习CTR预测gydF4y2Ba 学报》第44届国际市立图书馆会议在信息检索的研究与开发gydF4y2Ba 2021年7月gydF4y2Ba 加拿大蒙特利尔gydF4y2Ba 2166年gydF4y2Ba 2171年gydF4y2Ba 丁gydF4y2Ba K。gydF4y2Ba 越南盾gydF4y2Ba X。gydF4y2Ba 他gydF4y2Ba Y。gydF4y2Ba MSSM:多层次稀疏共享模型高效的多任务学习gydF4y2Ba 学报》第44届国际市立图书馆会议在信息检索的研究与开发gydF4y2Ba 2021年7月gydF4y2Ba 加拿大蒙特利尔gydF4y2Ba 2237年gydF4y2Ba 2241年gydF4y2Ba 温gydF4y2Ba H。gydF4y2Ba 张gydF4y2Ba J。gydF4y2Ba LvgydF4y2Ba F。gydF4y2Ba 分层次建模微观和宏观行为通过多任务学习转化率预测gydF4y2Ba 2021年gydF4y2Ba arXiv预印本arXiv: 2104.09713gydF4y2Ba 赵gydF4y2Ba J。gydF4y2Ba 杜gydF4y2Ba B。gydF4y2Ba 太阳gydF4y2Ba lgydF4y2Ba 壮族gydF4y2Ba F。gydF4y2Ba LvgydF4y2Ba W。gydF4y2Ba 熊gydF4y2Ba H。gydF4y2Ba 多个关系关注网络多任务学习ACM参考格式:多个关系关注网络多任务学习gydF4y2Ba 数据库知识发现(Kdd)学报》gydF4y2Ba 2019年8月gydF4y2Ba 美国安克雷奇,正义与发展党gydF4y2Ba 1123年gydF4y2Ba 1131年gydF4y2Ba 唐gydF4y2Ba F。gydF4y2Ba 肖gydF4y2Ba C。gydF4y2Ba 王gydF4y2Ba F。gydF4y2Ba 周gydF4y2Ba J。gydF4y2Ba 雷曼兄弟gydF4y2Ba l . H。gydF4y2Ba 多任务学习保留特权信息gydF4y2Ba 第25届ACM SIGKDD学报》国际会议上知识发现和数据挖掘gydF4y2Ba 2019年8月gydF4y2Ba 美国安克雷奇,正义与发展党gydF4y2Ba 1369年gydF4y2Ba 1377年gydF4y2Ba 10.1145/3292500.3330907gydF4y2Ba 2 - s2.0 - 85071173909gydF4y2Ba 王gydF4y2Ba W。gydF4y2Ba 胡gydF4y2Ba W。gydF4y2Ba 改善关系提取的多任务学习gydF4y2Ba 学报》2020年第4高性能计算和集群技术会议和2020年第三大数据和人工智能国际会议gydF4y2Ba 2020年7月gydF4y2Ba 中国青岛gydF4y2Ba 152年gydF4y2Ba 157年gydF4y2Ba 10.1145/3409501.3409535gydF4y2Ba 邵gydF4y2Ba C.-J。gydF4y2Ba 傅gydF4y2Ba 小时。gydF4y2Ba 程gydF4y2Ba P.-J。gydF4y2Ba 建议改善看到下面成了各种偏好强度与多任务gydF4y2Ba 《第十四ACM关于推荐系统的会议gydF4y2Ba 2020年9月gydF4y2Ba 纽约,纽约,美国gydF4y2Ba 498年gydF4y2Ba 502年gydF4y2Ba 10.1145/3383313.3412224gydF4y2Ba 姚gydF4y2Ba Y。gydF4y2Ba 曹gydF4y2Ba J。gydF4y2Ba 程ydF4y2Ba H。gydF4y2Ba 健壮的任务分组与代表集群多任务学习的任务gydF4y2Ba 第25届ACM SIGKDD学报》国际会议上知识发现和数据挖掘gydF4y2Ba 2019年8月gydF4y2Ba 美国安克雷奇,正义与发展党gydF4y2Ba 1408年gydF4y2Ba 1417年gydF4y2Ba 10.1145/3292500.3330904gydF4y2Ba 2 - s2.0 - 85071150247gydF4y2Ba 王gydF4y2Ba H。gydF4y2Ba 张gydF4y2Ba F。gydF4y2Ba 赵gydF4y2Ba M。gydF4y2Ba 李gydF4y2Ba W。gydF4y2Ba 谢gydF4y2Ba X。gydF4y2Ba 郭gydF4y2Ba M。gydF4y2Ba “多任务功能学习对知识图增强的建议gydF4y2Ba 学报2019年万维网会议WWWgydF4y2Ba 2019年5月gydF4y2Ba 旧金山,加州,美国gydF4y2Ba 2000年gydF4y2Ba 2010年gydF4y2Ba 10.1145/3308558.3313411gydF4y2Ba 2 - s2.0 - 85066912995gydF4y2Ba 程ydF4y2Ba X。gydF4y2Ba 张gydF4y2Ba K。gydF4y2Ba 周gydF4y2Ba F。gydF4y2Ba TrajcevskigydF4y2Ba G。gydF4y2Ba 钟gydF4y2Ba T。gydF4y2Ba 张gydF4y2Ba F。gydF4y2Ba 信息瀑布模型通过深多任务学习gydF4y2Ba 《第42国际市立图书馆会议在信息检索的研究与开发gydF4y2Ba 2019年7月gydF4y2Ba 法国巴黎gydF4y2Ba 885年gydF4y2Ba 888年gydF4y2Ba 10.1145/3331184.3331288gydF4y2Ba 2 - s2.0 - 85073788082gydF4y2Ba SangaiahgydF4y2Ba 答:K。gydF4y2Ba 陆gydF4y2Ba H。gydF4y2Ba 胡gydF4y2Ba Q。gydF4y2Ba 认知科学和人工智能的人类认知和沟通gydF4y2Ba IEEE消费电子杂志gydF4y2Ba 2019年gydF4y2Ba 9gydF4y2Ba 1gydF4y2Ba 72年gydF4y2Ba 73年gydF4y2Ba 罗gydF4y2Ba X。gydF4y2Ba AliCoCo:阿里巴巴电子商务的认知概念网络gydF4y2Ba 学报2020年ACM SIGMOD国际会议管理的数据gydF4y2Ba 2020年6月gydF4y2Ba 波特兰,或美国gydF4y2Ba 313年gydF4y2Ba 327年gydF4y2Ba 10.1145/3318464.3386132gydF4y2Ba HibbigydF4y2Ba F.-Z。gydF4y2Ba AbdoungydF4y2Ba O。gydF4y2Ba HaimoudigydF4y2Ba e·K。gydF4y2Ba 知识管理专家的智能辅导系统的模型gydF4y2Ba 学报》第三届国际会议上网络、信息系统和安全gydF4y2Ba 2020年3月gydF4y2Ba 摩洛哥马拉喀什gydF4y2Ba 1gydF4y2Ba 4gydF4y2Ba 10.1145/3386723.3387895gydF4y2Ba 加德纳gydF4y2Ba m·W。gydF4y2Ba 道灵gydF4y2Ba s R。gydF4y2Ba 人工神经网络(多层感知器)——回顾大气科学中的应用gydF4y2Ba 大气环境gydF4y2Ba 1998年gydF4y2Ba 31日gydF4y2Ba 14日至15日gydF4y2Ba 卡鲁阿纳gydF4y2Ba R。gydF4y2Ba 多任务学习gydF4y2Ba 机器学习gydF4y2Ba 1997年gydF4y2Ba 28gydF4y2Ba 1gydF4y2Ba 41gydF4y2Ba 75年gydF4y2Ba 10.1023 /:1007379606734gydF4y2Ba 2 - s2.0 - 0031189914gydF4y2Ba 马gydF4y2Ba X。gydF4y2Ba 赵gydF4y2Ba lgydF4y2Ba 黄gydF4y2Ba G。gydF4y2Ba 王gydF4y2Ba Z。gydF4y2Ba 胡gydF4y2Ba Z。gydF4y2Ba 朱gydF4y2Ba X。gydF4y2Ba 时至今日gydF4y2Ba K。gydF4y2Ba 整个空间多任务模型:估计post-click转化率的有效途径gydF4y2Ba 市立的诉讼gydF4y2Ba 2018年9月gydF4y2Ba 中国天津gydF4y2Ba 1137年gydF4y2Ba 1140年gydF4y2Ba