一个多任务学习Multiperspective关注模型及其应用的建议

文摘

训练模型来预测目标同时点击和秩序。为更好的用户满意度和业务效率,多任务学习是在电子商务中最重要的一个方法。一些现有研究模型的用户表示基于历史行为序列捕获用户的利益。通常情况下,用户的利益可能会改变他们过去的例程。然而,多角度关注广泛的地平线,涵盖人类推理的不同特点,情感,认知,关注,和记忆。在本文中,我们试图多角度关注和序列行为引入到多任务学习。我们建议的方法提供了更好的理解用户兴趣和决定。实现更灵活的参数共享和维护每个任务的特点优势,我们提高关注专家观点的互动机制。我们所知,我们首先提出了隐式的交互模式,明确硬交互模式,明确软交互模式,多任务学习的数据融合模式。我们做实验在公共数据和实验室的医疗数据。 The results show that our model consistently achieves remarkable improvements to the state-of-the-art method.

1。介绍

在现实世界中,有一些场景多任务学习。在电子商务领域,我们需要增加点击率(CTR)和订单转化率(表格)在同一时间。在音乐领域,我们需要改善这首歌打开率和有效的回放速度。在中国医疗情况下建议,我们需要提高病历的点击率和用户满意度。提高推荐精度,Chen等人。1)提出了一种改进的协同过滤算法,介绍了Bhattacharyya相似性计算到传统的计算公式。然而,单一任务的学习不能同时考虑多个指标。在这种背景下,研究多任务学习。在共享的基础下,multi-gate混合物的专家(MMOE) [2)设计不同的门网络不同的任务。通过更新专家的权重,最好对所有任务描述特征。它有一个改进的影响不是很相关的一些任务。在视频的建议,为了提高用户的行为和用户满意度,赵et al。3]提出肤浅的子网。它也解决了在线和离线取样偏差的问题。众所周知,秩序行为发生后点击动作。模型训练过程中执行单击样本子空间,和在线应用于整个空间,这将导致样本偏差。温家宝et al。(4)向模型中添加这些中间行为通过改善损失函数。以前的多任务学习手动hyperparameters,不平衡网络的灵活性和性能成本。子网路由(信噪比)5)不敏感的力量之间的关系的任务。它可以结合学习一个好的结构,可以实现灵活的参数共享。秦et al。6)提出一个模型,它可以结合MMOE和长期短期记忆(LSTM)在一起。该模型应用在多任务学习场景中用户行为序列特性。实际应用场景总是面临的挑战数据稀疏、数据异构性,和复杂的多目标,MMOE和LSTM尝试解决。进步的分层提取(中国)7)提出了网络,其目的是利用多任务学习的跷跷板现象。为了解决负变压器问题,一方面,比如模型将专家分为共享专家和私人专家;另一方面,请耐心把样本空间的损失函数模型。王等人。8]提出一个Multitask-Aware公平(MTAF)方法来改善公平的多任务学习。习等。9]提出一种自适应信息传递多任务(AITM)框架,该结构由自适应多步转换之间的顺序依赖信息传递(AIT)模块。低秩分解self-attention网络(Light-SAN) (10)提出,学习环境敏感表示通过用户历史项目和矿山连续有效地项目之间的关系。Gating-Enhanced多任务神经网络(Gem-NN) [11)设计嵌入层之间的闸门机制和中长期规划,学习功能交互和管理信息流。多层次的共享模型(MSSM) (12)提出,包括字段级稀疏连接模块(FSCM)和一个具有稀疏的共享模块(CSSM)。FSCM可以学习特点有选择地CSSM可以跨所有任务有效地分享知识。解决选择偏见和数据稀疏问题,分层次建模微观和宏观行为( )(13]提出了表格的预测,采用微观和宏观post-click行为在一个多任务学习模式。赵et al。14]提出多个关系关注网络,采用注意力机制来提高预测精度。模型结构来自于三方面:首先是任务和功能,其次是功能和特性,第三个是任务和任务。在推荐系统中,帕累托算法应用于多目标学习,使至少一个目标更好的而又不伤害其他目标。损失函数指的是马和放松约束条件,然后在每一批模型更新权重。随着知识蒸馏的想法,唐et al。15]提出一种新颖的模型,它采用指导多任务学习的主要特点。特征匹配算法结合了原始特征和主要特点,并将其映射到一个新的隐藏空间,提高多任务信息共享的效率。王等人。16)提取算法提出一种新的模式来改善关系。嵌入层代表分享信息,它使用双向编码器表示从变压器(BERT) pretrained模型初步计算部分。该模型引入了知识蒸馏更好地使用辅助任务的信息。根据多任务学习框架,邵et al。17]介绍注意力地图卷积层开采两国高阶特征图从用户和商品。模型可以动态地捕捉用户的隐式对大宗商品。姚明et al。(18)提出一个强有力的聚合多任务学习方法,它可以通过学习表示向量组任务。该方法假定一个任务是一个线性组合的其他任务。任务之间的相关性是通过统计计算的系数。基于知识图,Yu et al。19)提出一个多任务功能学习方法使用知识图计算嵌入向量终于协助推荐任务。对话的建议是成为电子商务的一个重要组成部分。为了提高预测的效果通过开采顺序特性,陈et al。20.采用级联图结构和节点序列扩散。模型提出了一种共享表示层,这有助于理解的任务级联关系。序列知识从分享表示层,可以对级联编码结构和序列节点。大多数多任务构建网络通过多层功能共享。

然而,以上研究在多任务学习工程和知识表示是基于功能,不引入多角度关注。我们整合粗粒度的注意力,细粒度的注意力,提高专家模式,self-attention和专家提供;因此,不同的任务专家可以更好的互动。

本文的其余部分组织如下。部分2介绍了推荐系统在学术和工业中的应用。部分3论述了回忆阶段,排名阶段,多元化阶段推荐系统,描述了具体的改进方法。部分4在公共数据集的实验,比较了基线。部分5得出结论并提出了前景。

我们提出的模型进行了总结的主要贡献如下:(1)我们引入了粗粒度和细粒度的注意力在城门口网络关注。每个任务层学习为每个专家查询向量,是在查询向量内积和专家,然后对结果的关注。门口的关注比基础MMOE方法取得更好的性能。(2)受梯度增加的树比随机森林,我们设计梯度增加专家网络,增强了不同专家之间的相互作用。(3)我们所知,我们是第一个介绍的专家级多头self-attention到多任务学习和获得更好的效果。(4)我们设计的时空序列特性到多任务学习和改善损失函数,可以支持多个源数据集。(5)我们进行广泛Ali-CCP实验数据并确认我们的模型代表最先进的方法的优越性。

2.1。多任务学习建筑

深层神经网络,点击任务与任务在不同比例加权,然后处理作为正样本。单一任务模型的想法是很难找到点击订单任务之间的权衡。模型更关注某个部分,学习可能偏离原始样本分布的信息。此外,单一任务处理忽略了一些信息,其中包含丰富的相关任务。使用多任务学习的同时优化多个目标。分享学习相关参数。子任务学习样本分布的差异。通过这种方式,我们改善代模型的能力。

众所周知,大多数多任务学习网络特征参数共享模块,分为硬分享和共享特别软。努力分享功能层和底部构造完全共享。上层介绍不同的网络,以预测各自的任务。当任务更相关,分享更有效。负迁移会发生当任务不太相关。如果一个任务增加的影响,另一个任务的影响减少。为了解决这个问题,谷歌提出MMOE模型。为每个任务模型结构闸门控制机制,带来更好的效果。腾讯提出请耐心模型。试图引入多层共享专家和私人专家解决了异构任务之间的关系。 The structure of MMOE model is shown in Figure1。在哪里 , 代表输出的控制分对数专家,这是用来计算的重量专家。表示专家网络;意味着隐藏层。深入地,门网络方程如下:

2.1.1。专家网络部分

步骤1。建立一个神经网络为每个专家,得到的输出。在哪里意味着输入功能,其形状是批量大小,特征尺寸。显示第一个专家的单位隐藏层,形状的[特征尺寸,单位的第一个隐层)。第二个专家的单位显示隐藏层,形状的[第一隐层单元,第二个隐层单元)。因此,的形状(批量大小,单位的第二个隐藏层)。步骤2。建立一个专家列表输出,用于恢复每个专家的输出。步骤3。在专家的最后尺寸输出,我们使用平操作堆栈 ;然后我们将它存储为张量的。张形状(批量大小,单位的第二个隐藏层,专家的数量)。

2.1.2。门网络部分

步骤1。建立一个神经网络为每一个门,门的输出。在哪里意味着输入功能,其形状是批量大小,特征尺寸。表示单位的第一门隐藏层,形状的[特征尺寸,单位的第一个隐层)。显示了第二个门隐层单元,与的形状(单位的第一门隐层单元的第二个门隐层)。因此,的形状(批量大小,单位的第二个门隐层)。步骤2。构造一个门字典叫盖茨输出,其关键是任务名称,其值是输出最后的门网络层。 步骤3。门电路输出转化为权重,扩大在轴索引1。之后,专家的最后一层的神经元数量是复制权值矩阵。权重矩阵的形状(批量大小,单位的第二个专家隐层单元的第二个门隐层)。步骤4。使用输出和控制专家权重,我们计算连接到塔的张量。专家后输出叠加和权重后扩展维度具有相同的形状。给定一个标量内积,我们得到一个向量和形状(批量大小,单位的第二个专家隐藏层,第二个门隐层单元)。我们做reduce-sum操作在过去的尺寸,计算出最终的专家门输出。(批量大小,形状是第二个专家隐层单元)。

2.2。多任务学习的建议

在推荐的情况下,可以调试的参数多任务学习主要包括以下:(1)标签重量:它类似于类体重在深层神经网络配置,控制每个标签的样本比率。(2)减肥:设置的重量损失函数为每个任务。由多个轮参数需要调整,然后选择最佳组合。(3)出口重量:每个任务的体重预测分数,可以设置更高的体重根据试验结果更好的任务。(4)任务数量:设置任务的数量。(5)专家数量:专家的数量。每个专家都是一个两层的完全连接网络。预测分数加权控制网络的输出作为输入的每个任务的塔网络。(6)专家的层的数量。(7)隐藏的单位的数量。(8)门网络的层数。(9)塔网络的层数。

把核心神经网络的参数,如图2。

模型训练机制如图3。

3所示。该方案

我们认为有两个部分MMOE可以改善的地方。第一点是专家彼此共享参数,以及如何添加关注有效机制。第二点是损失函数的设计,以及如何平衡不同的学习任务。

3.1。粗粒度的注意门网络

在MMOE模型中,门网络是一个线性变换,从最初的学习参数特性。门的表达技巧是不够的。我们使用注意力机制计算模型权重,更新模型的训练。我们提高原来的门的计算网络,这是从线性转换到一个内积运算符。

通过专家的指导,构造权重模型。门的设计网络引入了专家的先验知识。从专家的角度神经元维度,每个神经元的输出是不同的。注意添加的神经元维度。我们在门中添加重量控制的角度来看,和改变门的注意机制。我们的基础上改进MMOE,如图所示4。

门改善部分是如图4所示。MMOE计算不同专家的权重融合的原始特性和门净输出。受到的关注机制,每个任务层学习为每个专家网络查询向量。以查询向量之间的内积和专家网络。然后作为内积的结果的关注重量相应任务的专家。

改进方案是用以下公式表示: 在哪里代表原始输入,和表示矩阵参数的专家网络,是偏见的专家网络,代表了转换函数从原始输入专家向量。在哪里门网络的参数,是查询向量的初始化门网络,门网络的偏见,代表了映射算子。在哪里表示变换函数和内积操作手段。

Gate-improved注意力更与专家相关匹配和更具体的任务表示。

3.1.1。的专家

步骤1。建立一个神经网络为每个专家,得到的输出。 步骤2。建立一个专家列表输出,存储专家的结果。步骤3。堆栈专家输出在过去的维度,和张量的形状。

3.1.2。门的网络的改进

步骤1。建立一个神经网络为每个门。门口有一个层的形状 ,在128年的最后一层的神经元数量MMOE专家单位。步骤2。每个任务的盖茨输出存储在字典命名为盖茨的输出。步骤3。堆栈专家第二维度和输出计算专家与张量形式的结果。我们为每个任务构造专家权重查询向量。查询向量相乘得到的产品操作门的输出和专家。步骤4。让elementwise操作在盖茨和专家输出扩展维度,使用广播机制。我们获得初始查询向量的形状 ,然后使用reduce-sum函数总在过去的维度。我们会注意点的形状张量。步骤5。通过扩大和复制的注意点张量,我们计算专家权重的形状。的形状重量和专家的形状都是相同的。步骤6。我们为专家和添加权重计算出最终的输出。

我们的主要改进是使用专家信息设计每个门的查询向量,由关注机制。细粒度的关注基于粗粒度的关注使得嵌入维数不同的权重值。描述对细粒度注意以下部分所示。

3.2。细粒度的注意门网络

维度的专家神经元和嵌入的维数,我们一起使用的注意。这样,门控制网络不仅是一个简单的两层完全连接网络,但也将最初的门与专家的注意机制。细粒度模型学习为每个任务查询向量。

3.2.1之上。专家网络部分

它是一样的专家网络的一部分MMOE粗粒度的注意。

3.2.2。注意门网络部分

粗粒度的关注构造神经网络为每个门的形状。然后,门网络和专家的形状使繁殖操作产品。我们为每个任务设计查询网络的形状 ,在128维度是不同的,而8维都是相同的。细粒度的关注在128年维度和8个维度不同,它可以更好的适应不同的相关任务。

3.3。梯度增加专家网络

在MMOE模型中,专家可以被看作是随机森林。为了使不同的专家更好的交互,我们提高专家的模式从随机森林梯度增强决策树。我们构建一个名为hub-list专家列表,用于存储每个专家的输出。hub-list穿越时,信息将被添加在列表的最后。如果没有元素专家枢纽中心,我们喂养前到神经网络提取特征。如果有专家中心中心元素,我们喂养专家中心的最后一层贴合与以前的提取特性神经网络。随机森林是改进梯度增强树主要发生在专家的部分。

3.3.1。专家网络的改进部分

我们建立了一个专家输出,用于存储每个专家的预测评分。如果这是第一专家,接收输入的原始功能。如果是后者专家,接收输入的原始特性和预测价值前专家。通过这种方式,它相当于增加特征列的数量。随着神经网络的建设,对专家的最后输出没有影响。形状是 ,叠加后,它是。

3.3.2。门网络部分

像本机MMOE模型,我们建立一个神经网络,其形状是输出。然后我们扩展维度和把它变成。这种形状的张量,我们添加对专家的权重。我们聚合和计算输出的形状最后。

3.4。明确Self-Attention专家互动

在文献[21),self-attention方法用于不同功能之间的交互。借鉴这个想法,我们认为不同专家的输出是抽象的高级特性,和设计交互式网络层。

作为显示在图5MMOE的基础上,我们添加一个专家交互层,使用一个多头的注意机制。相互作用后的输出作为高阶特性。我们雇佣专家之间的内积运算输出和高阶功能,和饲料结果为每个任务的塔网络。通过自动交互,知识可以从专家更好地挖掘用户兴趣。

具体来说,我们采用键值的注意捕获不同专家之间的组合机制。采取专家作为一个例子,我们定义之间的关系专家和专家在一个特定的关注如下: 在哪里是一个关注函数,表示专家 ,和表示专家 ;在这项工作中,我们采用内积为关注功能。在哪里和变换矩阵,将原来的专家空间映射到一个新的空间。值空间大学入学考试,是向量的专家(在头 );此外,我们结合头expert-output。

特性介绍了多头self-attention特性工程,然后专家网络的输入。结果比的专家级模式,所以我们选择更好的一个。

3.5。深度序列特性应用到多任务学习的兴趣

改进MMOE_DIN底层模型介绍了序列特性。序列的特性可以捕获用户的行为的相关性更好。底层网络特性的方式处理有着浓厚的兴趣。用户序列特性的基础上,我们设计嵌入的,这代表了空间信息和时间信息。空间信息嵌入方法如图6。

嵌入信息方法如图7。

我们正常时间戳为天,做一些数学操作。正弦函数的数学操作包括指数函数操作,操作,余弦函数操作,根操作,操作方,对数操作。然后,我们连接成一个大嵌入向量。

3.6。改善与多任务学习的损失函数

最近,人工智能正逐渐从知觉情报认知智力发展。深入学习是推荐系统的主流技术等级阶段。越来越多的学者(22,23尝试引入认知智能推荐。推荐系统有多个场景,和数据异构。传统的多任务学习联合训练需要对齐的数据特征。结合异构数据从多个场景训练模型,我们提出一个特征空间映射算子。上述运营商可以到同一个特征空间项目的异构数据通过处理多个网络层。从认知的角度情报,更容易为多个专家分享集体智慧在同一个特征空间。认知的数据融合方案是如图8。认知学习的多任务共享参数,我们设计一个定制的损失函数。在学习过程中,特征提取当前数据源被视为真实的数据,和它的标签是设置为真正的标签。从其他数据源中提取的特性被认为是假数据,和相应的标签设置为假标签。通过这种方式,在多任务学习,多源特征迭代训练,鉴别器很难区分共享数据源,从而达到共享的认知效果。

的多任务学习模式使特征空间映射来自不同数据源的数据,以便多源数据在同一个特征空间。我们构建以下认知功能损失,是真实的还是假的标签,并将它添加到基本损失函数。

4所示。实验

在本节中,我们评估的性能提出了小说在公共Ali-CCP数据模型。实验对比显示了我们的模型的有效性,它优于先进的多任务学习的方法。

4.1。数据集

公共数据集Ali-CCP包含4200万4300万训练样本和测试样本,从淘宝的推荐系统中提取。训练数据集存储10 g中,存储是8 g和测试数据集。CTR和表格两个任务建模操作点击和购买的数据集。数据集包含标签部分和功能部分。标签由点击标签和转换标签。字段id、特征特性由id,和功能价值。功能包括用户功能,项目特点,结合特性,和上下文特征。下面的数据详细说明页面中(https://tianchi.aliyun.com/dataset/dataDetail?dataId=408&userId=1)。我们随机选择10%的训练数据集作为验证数据集测试所有模型的评估指标。

4.2。基线模型

我们比较模型与基线和主流模型如下:中长期规划(24]。我们使用多层感知器结构作为我们的基准,这是一个单一任务模型。共享下(25]。模型与Expert-Bottom模式股票几个低级的网络层的所有任务,每个任务都有自己的塔。ESMM(4,26]。Probability-Transformer模式的模型是用来预测post-click转化率,这可以减轻通过训练样本选择偏差问题对整个空间。OMOE(2]。模型与Expert-Bottom模式集成专家通过共享一个门在所有任务。MMOE(2]。模型由多个盖茨与Expert-Bottom模式集成专家在所有任务。公司治理文化(7]。模型与Expert-Bottom模式分离task-shared专家和特定于任务的专家,旨在解决多任务负迁移的问题。请耐心(7]。进步的分层提取(中国)Expert-Bottom模式,由多层公司治理文化。

使用Ali-CCP数据集,我们采用一个两层的MLP网络骰子激活,并为每个任务在两个隐藏层MTL模型。Hyperparameters如表所示1。


Hyperparameter	价值

标签的重量	正样本,负样本= 1:1
减肥	点击任务,订单任务= 1:0.02
出口重量	点击任务,订单任务= 0.8:0.2
任务数量	2
专家数量	8
隐藏的单位	256 128 64
学习速率	0.001
批量大小	1000年
时代	5

4.3。实验设置

Hyperparameter研究

为了研究hyperparameters的有效性,我们随机搜索,网格搜索和退火方法。(1)考虑到类别中嵌入维数,我们做实验通过改变嵌入维度(8、16、32、64、128、256、512、1024],结果如图所示9。我们可以看到,模型的影响略嵌入维数的影响。嵌入维度模型复杂性和体积有关。较小的嵌入维导致拟合数据分布不够,而较大的嵌入维数增加模型的复杂性;合适的嵌入维数会产生最好的效果。使拟合能力和复杂性之间的权衡,我们最终选择嵌入维数= 32在所有的实验中。(2)我们研究出口重量的影响;有跷跷板现象在两个不同的任务。然而,出口重量带来的改善总体性能。我们终于把出口的重量0.2 0.8和秩序的任务,点击任务。(3)我们研究时代的影响很多数据和报告的AUC性能对整个测试数据集,如图10。我们终于时代数量设置为5的实验。(4)我们在模型研究层数;AUC的有效性和log-loss如下。随着神经网络层数的增加,AUC先增加然后减少log-loss是相反的趋势。因此,我们最终选择3层在所有的实验中,如图11。

4.4。实验结果

与基线相比MMOE ESMM,公司治理文化,我们证明我们的方法的有效性在Ali-CCP公共数据集。我们表明,该方法提高了多任务模型的准确性。离线评估者我们的模型带来了显著的改善。为了获得准确的预测结果,我们为每个模型重复试验5次,其中最好的离线效果如表所示2。


模型	单击AUC最好	订单AUC最好	损失

MMOE (base1)	0.6209	0.6645	1.6027
ESMM (base2)	0.6203	0.6712	1.6105
公司治理文化(base3)	0.6311	0.6708	1.6112
粗粒度的关注	0.6395	0.6957	1.5843
细粒度的关注	0.6339	0.6884	1.5827
专家提振模式	0.6409	0.6804	1.7268
添加汽车交互层	0.6432	0.6824	1.6891
序列MMOE	0.6413	0.6870	1.6152
提高损失函数	0.6407	0.6924	1.5997
粗粒度的关注+汽车交互层+序列特征+提高损失函数	0.6513	0.6966	1.5784

评估我们的提出的模型的有效性,我们采用四个指标在实验中广泛使用,例如,AUC Log-loss CLICK@2, ORDER@2。

AUC:曲线下的面积,它反映了排名能力。分数范围从0到1,越高越好。AUC公式如下: 在哪里和表示正负样本集,和样品的数量和 , 是预测函数,指标函数。

Log-Loss。在多任务学习,共同联合log-loss方程的加权和log-loss个人任务。在哪里任务的数量,损失函数,是减肥,任务参数。在哪里表示真正的标签,表示预测价值,乙状结肠是激活函数。

CLICK@2。这是实际的概率预测最高点击数量得分。

ORDER@2。这是实际购买数量的概率预测得分。在哪里表示实际点击/购买样品的数量N分数,在我们的论文= 2。

为了减少偶然误差的实验中,我们重复的训练过程改进模型5次。表3显示了每个模型的平均提高5倍。


模型	Clk AUC改善	奥德AUC改善

MMOE(基地)	基线1	基线1
ESMM(基地)	基线2	基线2
公司治理文化(基地)	Baseline3	基线3
粗粒度的关注	+ 2.46%	+ 4.00%
细粒度的关注	+ 1.57%	+ 2.91%
专家提振模式	+ 2.69%	+ 1.74%
添加汽车交互层	+ 3.06%	+ 2.02%
序列MMOE	+ 2.75%	+ 2.71%
提高损失函数	+ 2.65%	+ 3.51%
粗粒度的关注+汽车交互层+序列特征+提高损失函数	+ 4.35%	+ 4.14%

正如上面提到的,为了增加实验的可信度,我们每个模型的训练过程5次重复。

自定义评价指标:为了比较模型效果更公平,我们从多个角度评价模型。除了AUC,我们定制两类离线评价指标:CLK@N和ORD@N。

CLICK@N:在顶部N商品推荐的模型中,商品的数量的比例的用户点击。

ORDER@N:在顶部N商品推荐的模型,用户购买的商品的数量。

为了减少偶然误差的实验中,我们反复的训练过程改进模型5次。表4显示了平均5定制为每个模型评估。


模型	CLICK@2	ORDER@2

MMOE	0.1927	0.1477
ESMM	0.1925	0.1490
公司治理文化	0.1931	0.1487
粗粒度的关注	0.1957	0.1573
细粒度的关注	0.1953	0.1463
专家提振模式	0.1936	0.1478
添加汽车交互层	0.1958	0.1521
序列MMOE	0.1941	0.1504
提高损失函数	0.1932	0.1488
粗粒度的关注+添加汽车交互层+序列MMOE +提高损失函数	0.1969	0.1582

从上面的表中,我们可以看到,我们的方法将积极改进。

4.5。烧蚀研究

从表2- - - - - -4基地MMOE来比较,我们可以看到,每个提出点都有改善。序列特性可以把+ 3.65% AUC由于特性工程改进。粗粒度的关注能带来AUC + 3.41%,和细粒度的关注能带来AUC + 2.11%。粗粒度和细粒度方法两种模式的关注。我们选择粗粒度组件考虑到细粒度的关注可能导致过度拟合。提高专家模式和自动交互层模式都是用来描述专家互动,我们选择汽车交互层,因为它表现更好。此外,我们提高了损失函数以更好地支持多源数据集喂食,和更通用的模型结构。最后,我们把上面的四个方法,预测效果显著提高。click@2和order@2每个模型如图所示12。实验重复5次,误差波动很小。可以看出,我们的新的集成模型的最佳效果。

(一)

(b)

5。结论

在本文中,我们提出五个改进方法对多任务学习,关注专家互动和门的注意机制。在公共数据集,有一个显著的改善与MMOE模型进行比较。我们优化门网络,依靠引入粗粒度和细粒度的注意机制。通过一个线性变换,门口的原生MMOE更关注网络专家使用原始输入,所以表达能力是不够的。我们计算权重的门使用注意机制。我们升级大门的计算网络,它是一个线性变换到多个矩阵内积操作。我们引入梯度增加树MMOE专家,提高知识表示和相互通信的推理的效率。多线程应用关注的专家特征提取层,它可以代表高阶特性更好。此外,我们融合序列喧嚣和MMOE,使多任务学习考虑功能的相关性。

在进一步的工作中,我们将介绍认知智力在多任务学习更多。认知智力可以充分发挥专家的智慧。专家系统基于框架和基于模型的专家系统被视为不同的多任务学习算法的专家。我们将建立一个更广泛的推荐系统,它使用multi-experts和多任务协同工作。

数据可用性

Ali-CCP公共数据集已被用于实验。Ali-CCP数据集是一个公共数据集包含8400万个样本从淘宝的推荐系统中提取。CTR和表格(转化率)是两个任务建模操作点击和购买的数据集。数据集的url是https://tianchi.aliyun.com/dataset/dataDetail?dataId=408。

的利益冲突

没有利益冲突有关的出版。

确认

这项工作是国家重点支持的研究和发展项目(没有。2017 yfb1002304)。

引用

陈h, h .太阳、m . Cheng和w·严”推荐评级预测方法基于用户兴趣和信任的价值,”计算智能和神经科学卷,2021篇文章ID 6677920、9页,2021。视图:出版商的网站|谷歌学术搜索
赵j . Ma z、x彝语,j . Chen l .香港和e·h·太极,“建模任务关系在多任务学习multi-gate mixture-of-experts,”ACM SIGKDD国际会议的程序知识发现和数据挖掘,页1930 - 1939,伦敦,英国,2018年8月。视图:出版商的网站|谷歌学术搜索
z赵、l .香港和l .魏”推荐视频看下:一个多任务排名系统”学报13 ACM关于推荐系统的会议,页43-51,哥本哈根,丹麦,2019年9月。视图:谷歌学术搜索
h·温,j·张,y,“整个空间多任务建模通过post-click行为分解转化率预测,”学报》第43届国际市立图书馆会议在信息检索的研究与开发西安,页2377 - 2386年,中国,2020年7月。视图:谷歌学术搜索
a . j . Ma z赵,j . Chen Li l .香港和e·h·太极,“为灵活的参数信噪比:子网络路由共享多任务学习,”人工智能学报AAAI会议33卷,第223 - 216页,2019年。视图:出版商的网站|谷歌学术搜索
赵z秦,y, z, z . Chen d·麦茨勒和j .秦”一心多用混合顺序专家的用户活动流,”第26届ACM SIGKDD学报》国际会议上知识发现和数据挖掘,页3083 - 3091,纽约,纽约,美国,2020年7月。视图:出版商的网站|谷歌学术搜索
赵m . h . Tang j . Liu, x锣,“进步分层提取(中国):一种新颖的多任务学习(MTL)个性化推荐模型,”《第十四ACM关于推荐系统的会议,页269 - 278,纽约,纽约,美国,2020年9月。视图:出版商的网站|谷歌学术搜索
x y . Wang Wang和a . Beutel”理解和改善fairness-accuracy权衡在多任务学习,”2021年,arXiv预印本arXiv: 2106.02705。视图:谷歌学术搜索
d . Xi, z陈,p .严”的建模顺序依赖观众多步转换与多任务学习中有针对性的广告,“2021年,arXiv预印本arXiv: 2105.08489。视图:谷歌学术搜索
刘x, z, j·丽安,“更轻,更好:低秩分解self-attention网络下一项建议,”学报》第44届国际市立图书馆会议在信息检索的研究与开发加拿大蒙特利尔,页1733 - 1737,,2021年7月。视图:谷歌学术搜索
h·范·j·张、周x”GemNN: gating-enhanced多任务和功能神经网络交互学习CTR预测”学报》第44届国际市立图书馆会议在信息检索的研究与开发加拿大蒙特利尔,页2166 - 2171,,2021年7月。视图:谷歌学术搜索
k .丁董x, y,“MSSM:多层次稀疏高效的多任务学习,共享模型”学报》第44届国际市立图书馆会议在信息检索的研究与开发加拿大蒙特利尔,页2237 - 2241,,2021年7月。视图:谷歌学术搜索
h·温、j . Zhang和Lv,“分层次建模微观和宏观行为通过多任务学习转化率预测,”2021年,arXiv预印本arXiv: 2104.09713。视图:谷歌学术搜索
j .赵b·杜·l·太阳,壮族,w . Lv和h .熊”多个关系关注网络多任务学习ACM参考格式:多个关系的关注多任务学习网络”数据库知识发现(Kdd)学报》安克雷奇,页1123 - 1131年,正义与发展党,美国,2019年8月。视图:谷歌学术搜索
f . Tang c·肖f . Wang j .周和l·h·雷曼“多任务学习,保留特权信息”第25届ACM SIGKDD学报》国际会议上知识发现和数据挖掘安克雷奇,页1369 - 1377年,正义与发展党,美国,2019年8月。视图:出版商的网站|谷歌学术搜索
w . Wang和w·胡“提取多任务学习,改善关系”学报》2020年第4高性能计算和集群技术会议和2020年第三大数据和人工智能国际会议青岛,页152 - 157年,中国,2020年7月。视图:出版商的网站|谷歌学术搜索
C.-J。邵,小时。傅,P.-J。程”,改善与多任务在不同的偏好强度,看到下面成了推荐”《第十四ACM关于推荐系统的会议,页498 - 502,纽约,纽约,美国,2020年9月。视图:出版商的网站|谷歌学术搜索
曹y姚明,j . h·陈,“健壮的任务分组与代表任务聚集多任务学习,”第25届ACM SIGKDD学报》国际会议上知识发现和数据挖掘安克雷奇,页1408 - 1417年,正义与发展党,美国,2019年8月。视图:出版商的网站|谷歌学术搜索
f . h . Wang, m .赵w·李谢x,和m .郭”“多任务功能学习对知识图增强建议,”学报2019年万维网会议WWW旧金山,页2000 - 2010年,CA,美国,2019年5月。视图:出版商的网站|谷歌学术搜索
陈x, k .张周f, g . Trajcevski t·钟和f·张,“信息瀑布模型通过深多任务学习,《第42国际市立图书馆会议在信息检索的研究与开发,页885 - 888年,巴黎,法国,2019年7月。视图:出版商的网站|谷歌学术搜索
a . k . Sangaiah h . Lu,问:胡锦涛,“认知科学和人工智能的人类认知和交流,“IEEE消费电子杂志,9卷,不。1,第73 - 72页,2019。视图:谷歌学术搜索
x罗,”AliCoCo:阿里巴巴电子商务的认知概念网”学报2020年ACM SIGMOD国际会议管理的数据波特兰,页313 - 327,或者美国,2020年6月。视图:出版商的网站|谷歌学术搜索
F.-Z。o . Abdoun Hibbi, e . k . Haimoudi“知识管理专家模型的智能辅导系统,”学报》第三届国际会议上网络、信息系统和安全马拉喀什,页1 - 4,摩洛哥,2020年3月。视图:出版商的网站|谷歌学术搜索
m·w·加德纳和s . r .道灵”,人工神经网络(多层感知器)——审查在大气科学的应用,”大气环境没有,卷。31日。14日至15日,1998年。视图:谷歌学术搜索
r·卡鲁阿纳的“多任务学习。”机器学习,28卷,不。1,41 - 75,1997页。视图:出版商的网站|谷歌学术搜索
黄马x l .赵g . et al .,“整个空间多任务模式:一个有效的方法来评估post-click转化率,”市立的诉讼天津,页1137 - 1140年,中国,2018年9月。视图:谷歌学术搜索

计算智能和神经科学

文摘

1。介绍

2.1。多任务学习建筑

2.1.1。专家网络部分

2.1.2。门网络部分

2.2。多任务学习的建议

3所示。该方案

3.1。粗粒度的注意门网络

3.1.1。的专家

3.1.2。门的网络的改进

3.2。细粒度的注意门网络

3.2.1之上。专家网络部分

3.2.2。注意门网络部分

3.3。梯度增加专家网络

3.3.1。专家网络的改进部分

3.3.2。门网络部分

3.4。明确Self-Attention专家互动

3.5。深度序列特性应用到多任务学习的兴趣

3.6。改善与多任务学习的损失函数

4所示。实验

4.1。数据集

4.2。基线模型

4.3。实验设置

4.4。实验结果

4.5。烧蚀研究

5。结论

数据可用性

的利益冲突

确认

引用

版权

更多相关文章

相关文章

计算智能和神经科学

一个多任务学习Multiperspective关注模型及其应用的建议

文摘

1。介绍

2。相关工作

2.1。多任务学习建筑

2.1.1。专家网络部分

2.1.2。门网络部分

2.2。多任务学习的建议

3所示。该方案

3.1。粗粒度的注意门网络

3.1.1。的专家

3.1.2。门的网络的改进

3.2。细粒度的注意门网络

3.2.1之上。专家网络部分

3.2.2。注意门网络部分

3.3。梯度增加专家网络

3.3.1。专家网络的改进部分

3.3.2。门网络部分

3.4。明确Self-Attention专家互动

3.5。深度序列特性应用到多任务学习的兴趣

3.6。改善与多任务学习的损失函数

4所示。实验

4.1。数据集

4.2。基线模型

4.3。实验设置

4.4。实验结果

4.5。烧蚀研究

5。结论

数据可用性

的利益冲突

确认

引用

版权

更多相关文章

相关文章