文摘

准确预测点击率(CTR),用它来广告推荐,我们建议深度关注广告的受欢迎程度预测模型(DAFCT)基于标签的推荐技术和协同过滤方法,集内容特征和时间信息。首先,我们构造一个Attention-LSTM模型捕捉流行趋势和利用时间信息根据用户的反馈;最后,我们使用连接方法融合时间信息和内容特点和设计深度关注流行预测(DAVPP)算法来解决DAFCT。我们通过实验调整的加权组合的相似性度量参数查询页面和验证算法的可扩展性。KDDCUP2012数据集上的实验结果表明,该模型的协同过滤推荐算法具有更好的可伸缩性和更好的推荐质量。与Attention-LSTM模型和NFM模型相比,DAFCT的F1得分提高了9.80和3.07,分别。

1。介绍

目前,全球互联网广告有数千亿美元的规模,和搜索广告已经成为网络广告的一种重要形式1]。广告行业逐渐由目标交付,在广告的价值交付可以精确测量,与一个用户友好的和advertiser-beneficial广告市场(2]。每搜索,搜索引擎收入(收入RPS)是成功的一个重要评价指标的搜索广告推荐系统,可以反映在搜索广告的定价方法(如中国共产党,每次点击成本)和广告来吸引用户点击的能力(Click-ThroughRate CTR);也就是说,当初= CTR×共产党[3]。因此,重要的是要预测CTR准确、合理的广告推荐使用它。

提前预测广告的流行是许多应用程序的一个重要组成部分,如建议,广告,和信息检索4,5]。通过观察大量的用户反馈行为在YouTube和网站,我们发现一些广告的流行往往会增加用户反馈后一段时间后发布。获取广告的受欢迎程度的动态变化过程,本文首先使用递归神经网络(RNN)模型和计算广告的趋势指数,和谨慎的喜欢和跺的广告将流行预测任务转换为分类问题;广告的受欢迎程度分为“流行,”广告的流行是分为“流行”和“不受欢迎”类别,和广告的内容特征建模使用神经网络模型;最后,广告和内容特征融合的流行预测广告的受欢迎程度(6]。

宏观的积累过程基于用户反馈的数量来预测流行有巨大的实用价值,和长时间的短期记忆(LSTM)网络可以有效地捕获事件的变化过程7),广泛应用于股票趋势预测(8),温度变化趋势预测(9在医学研究)和抑郁的趋势预测10),等等。LSTM网络可以有效地获取广告的流行趋势,和研究人员已经使用LSTM网络模型和预测广告的流行动态,取得好的结果(11]。受这些研究作品的启发,本文采用LSTM网络模型广告的流行趋势和获取广告的流行的趋势。

社会标签是一个集体智慧的代表在Web 2.0时代,这是一个用户和资源之间的桥梁。标签系统不仅已广泛应用领域的音乐、电影和书籍(12),但也在广告的建议。目前,标签广告推荐方法主要是获得其推荐规则之间的关系通过分析标记(广告关键字),用户和资源(广告)13]。例如,[14)提出了一种改进的FolkRank广告推荐方法,迭代计算的用户、资源、和标签试图找到推荐标签,在资源对应的广告推荐系统和标签对应的广告关键词。阿加瓦尔et al。15]分析用户行为轨迹的相似性之间的相似性在不同的时间差距和使用时间差距作为重量值协作推荐的广告被用户在不同的时间差距。因此,如何合理地找到标签推荐技术和协同过滤技术的结合,充分探索广告关键字之间的关系,查询页面和广告的关键之一是提高广告质量的建议。

综合分析现有的研究结果表明,受欢迎程度的动态变化过程很难捕捉,但广告的内容特性有很大的影响流行预测模型的性能。目前,很少有研究工作,结合流行的变化过程和内容特征建模。LSTM网络是有效的应用到模型的动态变化过程受欢迎(16),可以有效地捕捉流行的变化趋势。NFM的深度上优于模型为例,有效地结合了线性二阶特征相互作用和非线性高阶特征交互和具有良好的模型表示和泛化能力但不能捕捉流行的趋势变化的广告。在本文中,我们提出DAFCT,相结合的内容特征和时间信息的广告,具有良好的特征表示和泛化能力,可以抓住广告的流行趋势。

本文的贡献如下:CTR,使合理使用广告的建议。基于标签的推荐技术和协同过滤方法,DAFCT集成内容提出了功能和定时信息。我们使用连接方法整合时间信息和内容的特性,和设计深度关注解决DAFCT流行预测算法。KDDCUP2012数据集上实验结果表明,该模型具有更好的可伸缩性和更好的推荐质量。

引起LSTM网络减少依赖外部信息(17),已广泛应用于文本分类、情绪分析,点击率预测。他等。18)提出了一种深时间上下文网络来预测文章的流行动态变化过程的建模脸书推文的流行,和预测结果表明,该模型具有显著的预测能力的长期流行动态。陈等人。19)建模的普及引用通过引入注意到LSTM网络引文的流行预测的准确性达85%的计算机科学引文数据集。林奇et al。20.)构建时间序列信息通过分析反馈等事件叉和明星在Github上的项目,并使用LSTM Github模型时间序列信息,预测流行趋势。高et al。21]分析了宏观事件的数量,如点击视图,撤退,,喜欢的在线文章和介绍了注意力机制到LSTM网络模型随时间变化过程的微信文章预测流行趋势,进一步整合的内容特性,预测微信的流行的文章。

深上优于流行预测模型已经在学术界的一个研究热点和行业自2016年以来,和深层神经网络(款)提出的模型22),这是基于内容特征,如图像像素建模和图像描述,最初应用于广告点击率预测和后广泛用于流行预测研究。改善预测性能,23)提高了深度学习模型和神经协同过滤(NCF)模型提出了一种基于神经网络和实验验证NCF模型的预测精度达到87.30%。

最近,深度上优于模型应用到用户偏好预测(24),应用流行预测(8),和电影的受欢迎程度预测(9]。深度学习模型的一些主要分析内容特性预测性能的影响(25),而另一个更新奇的一部分研究工作集中在分类模型的性能(11),一个著名的基于深度学习分类模型的神经因子分解机NFM (26],它有一个更好的性能比传统的更有名深上优于NFM分类模型,它比传统的深层神经网络具有更好的特征表示模型。马等。27)广告提出了协同过滤推荐算法没有位置偏差,考虑了影响的广告位置CTR,使用页面的相关性和产品的广告,而不是用户的评级。

上述研究结果只建模基于个别项目的内容特点,忽视流行趋势的影响的性能预测模型。

3所示。提出的模型

3.1。Attention-LSTM模型

在本文中,我们使用LSTM网络获取广告流行的趋势和注意力机制引入LSTM网络减少外部因素的干扰,并构造Attention-LSTM模型基于注意机制。更多的图形化描述的增长趋势流行,本文使用OA⁃L代表广告流行的趋势指数,由Attention-LSTM模型,计算和Attention-LSTM模型图所示1。通过分析反馈信息用户的喜欢、观点、评论等,考虑到时间间隔t随着时间的推移,用户反馈的数量被构造成一个时间序列 ,然后反馈系列 获得,LSTM网络写成的计算公式 地点: , , 输入门口,忘记门,在一个给定的时间间隔和输出门吗t分别; 隐藏的输出t−1; 是输入在t−1; 细胞状态吗t−1;和年代是乙状结肠激活函数。

Attention-LSTM模型的计算过程如下:

给定一个特定的时间间隔t,n隐层输出表示为

这些隐层输出 后将softmax层获得权重的关注:

记录体重的关注 :

然后Attention-LSTM模型输出流行趋势在这个时间:

从上面的计算,OA⁃L的值是一个数字小于1,这是趋势指数一定的广告,广告的流行是通过结合NFM模型的预测结果。从实验结果,Attention-LSTM模型可以有效地获取广告的流行趋势,它非常有助于提高人气的性能预测模型(28]。

3.2。NFM模型

广告的内容,包括广告类型和数值信息,通常为流行预测提供了有用的信息,是一个关键的影响因素为不同类型的广告。广告的流行,不同的用户有不同的偏好和他们的反馈性能是非常不同的19,29日]。在本文中,我们采用NFM模型广告的内容特征模型;首先,我们使用一个炎热的编码技术特性类型转换成一个炎热的向量,然后我们将广告类型的一个炎热的向量输入NFM的嵌入层模型,然后广告类型特征和数值特征相结合的二阶特性交互池层,这是输入到隐层来获取广告的内容特征。NFM模型结合了线性二阶特征相互作用和非线性高阶特征从稀疏数据交互学习功能,有效改善了特征表征能力。图2显示了NFM模型学习的内容特性,其中包括三层:输入层、嵌入层、和记忆层。具体描述如下。我们描述它的每个组件的形式的数据。

例如,考虑到设置的广告类型 ,(= 1,2,…,k)广告mi类型,一个炎热的特征向量x的广告类型是使用嵌入技术获得准尺寸下的嵌入视频的向量表示类型: 在哪里 是嵌入向量的第i个广告类型, 是一个炎热的向量的第i个广告类型。

输入嵌入向量 二阶交互层: 在哪里 意味着 ,二阶交互层是一个池的操作,将文本特征的嵌入矩阵转化为一个向量。输出 的二阶交互层隐层和计算的输入 在哪里σ, , 乙状结肠函数,权重矩阵,向量和偏见的隐藏层,分别和l隐层的层数(30.]。

NFM的输出模型是通过隐层的输出 完全连接层: 在哪里 是线性NFM模型的一部分, 是初始化的重量, 代表i特性的重量, 是非线性的部分,即。款,输出层的权重矩阵。

3.3。DAFCT

流行变化的过程中时间信息难以获取,而广告的内容特性很大程度上决定广告的流行,流行预测任务的必要条件是(31日]。摘要DAFCT首先采用RNN开采时间信息获取广告的流行趋势,介绍了注意机制来消除外部因素的干扰;然后采用深层神经网络过程的内容特征,并采用嵌入技术来减少对稀疏模型的计算复杂度和高维特性;最后,结合使用的连接方法是时间信息和内容的功能。

鉴于n广告,表示广告的受欢迎程度 和表示n受欢迎程度 作为P:

方程(11)是连接概率的广告,广告的受欢迎程度。结合流行趋势Attention-LSTM模型和NFM的输出模型,计算一个完全连接层 在OA⁃L是广告的流行趋势指数,和ONFM NFM模型的预测结果。后替换为方程(12),我们得到了流行:

3.4。协同过滤广告推荐算法

基于模型设计,协同过滤推荐算法在本文中描述的算法1

输入:目标查询页面 (= 1,2,…,),查询页面集(|| =r),广告的关键字集合K(|K| =n)、广告设置CTR C组,数量的邻居N
输出最好的推荐、广告目标查询页面 一个
步骤1 为每个查询页面 在一组,≤1j,j≠1,循环执行以下操作。
步骤2 计算co-hit相似性查询页面
步骤3 之间的相似性计算co-labeling查询页面
步骤4 计算co-contained的相似性查询页面之间的关系
步骤5 计算组合相似性查询页面
步骤6 剩下的对象集,除了目标查询页面 ,从最大到最小,根据
步骤7 选择顶部n查询页面设置为最近的邻居 目标的查询页面
步骤8 选择最高的前N广告点击率预测在设定的头N个最好的推荐广告组 ADR-CF_T算法的时间开销的关键是查询页面之间的相似度计算,计算和时间开销co-hit相似SimQA查询页面之间是一样的传统CF算法(32]。

4所示。实验结果和分析

本文跟踪的训练数据集KDDCUP2012 [33)被选中作为实验数据。这些数据提供了腾讯李玖哲的搜索广告点击数据,与10.6 GB - 149639105数据的总大小。摘要五属性数据的属性,即点击,印象,去,QueryID,和QueryID选为搜索广告推荐系统的实验。印象,去,QueryID KeywordID。

4.1。数据预处理

在本文中,我们首先随机采样数据的原始数据和选定的1000000件;根据这个实验的数据需求,我们删除7其他属性列后,得到了641566块的数据删除重复项。为了避免严重的数据稀疏问题,我们选择查询页面和广告至少30钟记录,留下19436年的数据,其中包括10936查询页面,广告,8789和10439的广告关键词。在每个查询页面中,80%的广告是随机选择作为训练集,剩下的数据作为测试集。

4.2。评价指标

自从头n个推荐采用的方法,精度,召回,F-measure计算出不同数量的邻居是用来评估搜索广告推荐系统的质量。他们定义如下11,13,14),分别。

4.3。分析的结果
4.3.1。参数调整

公元协同过滤推荐算法,标签,相似度计算方法的关键是重量co-hit相似,co-matched标签相似性和co-contained关系之间的相似性查询页面的相似度的计算更加准确。在本文中,我们选择10%、20%、和30%的数据集进行实验,分别观察梅的变化(α,β)的值αß迭代,每个相似性测量体重的重量。考虑α+β+γ= 1,只αß作为因变量,实验结果如图3- - - - - -5

数据3- - - - - -5,我们可以看到的变化αß会影响广告推荐算法的预测精度,并提出了协同过滤广告的性能与标签推荐算法是最优的,当0.2 <α< < 0.4和0.4ß< 0.6。本文的最优值α,β,γ选为0.2、0.4和0.4,分别。

4.4。可伸缩性的验证

测试可伸缩性ADR-CF_T算法的性能,本文比较了执行时间的20%,40%,60%,和80%的数据集的大小与整个数据集通过随机选择数据集的大小,和实验结果如图6

从图6可以看出,随着数据量的增加,算法的执行时间从缓慢增长大幅增长,逐渐变化,平稳增长。的发展可以看出,公元协同过滤推荐算法的执行时间与标签时在一个可接受的范围内数据大小增加,因此该算法具有良好的可伸缩性。

4.5。推荐质量对比实验

本文的数据集分为两个部分:一个训练集和测试集,测试集的训练集占80%,占20%。头n个推荐列表输出,和准确性,召回,F-measure用于评估实验的推荐质量。更明显的显示公元协同过滤推荐算法的有效性与标签提出了,体重和解因素α,β,γ分别调整为1,即基于用户协作广告推荐算法(3],[公元基于标签的推荐算法15(特性),上广告推荐算法16]。比较上述三种算法的推荐质量,提出了协同过滤广告和标签推荐算法,三组实验设计摘要:每个TOP5推荐算法的推荐质量比较,推荐质量比较的算法不同N值,推荐质量优化程度比较。

4.5.1。TOP5比较每个算法的推荐质量

本文提出的协同过滤广告与标签推荐算法与基于用户协作广告推荐算法相比,基于广告的推荐算法,和广告推荐算法基于标签和项目之间的关系的准确性,回忆,和F-measure价值。实验结果如表所示1和图7

通过比较,发现公元协同过滤推荐算法,标签提出了精度提高52%,25%在回忆,F-measure价值46%,近41%的整体有效性的传统协同过滤算法。自本文考虑三个因素的影响,即点击率,广告关键词,和广告关键词和广告之间的关系,在计算相似性查询页面,综合相似度计算方法可以有效地反映偏好信息查询页面的广告,广告的相关性查询页面的关键词,和广告以及广告本身的特点为一个更完整的描述。与此同时,体重和解因素α,ß,γ本文提出的相似性度量被发现更大的对推荐算法的预测精度的影响,分析它们的值。

4.5.2。比较不同的每个算法的推荐质量N

最近的邻居的数量的选择也影响了推荐算法的推荐质量;因此,本文比较了准确性、召回和F-measure基于用户协作广告推荐算法,基于广告推荐算法特性tag-item广告推荐算法,并提出了合作广告和标签推荐算法为5的情况下,10、15、20、25日和30日。准确性、召回和F-measure的推荐算法,基于用户协作广告广告基于标签的推荐算法,特性上的广告推荐算法,与标签和公元协同过滤推荐算法提出了比较,比较结果如图8- - - - - -10

广告相比之下,提出了协同过滤推荐算法,标签至少提高了准确性17%,记得至少0.9%,F-measure至少21%相比,其他三个算法当25广告推荐给每个页面。随着最近的邻居的数量增加,推荐效果似乎减少而不是增加。这是因为真正的数量类似的查询页面广告推荐系统是有限的。当更多的选择不同的邻居,这些查询页面显示广告点击率较高的从不同的查询页面,导致推荐质量下降。

因此,只有正确地选择类似的查询页面,最近的邻居广告推荐系统我们可以获得所需的协作推荐效果。

4.5.3。推荐质量优化程度比较

本文四个推荐算法的精度和召回都配有高斯函数来验证优化的程度的推荐结果,对应的高斯拟合函数 和推力系数为95%。的准确性和回忆高斯曲线拟合每个算法的推荐结果如图所示11

高斯拟合曲线表明,基于用户协作广告推荐算法和标签和项目特性的广告推荐算法有交集点随着召回率的增加,和提供的系数表2给的交点坐标(0.0472,0.0168)。在区间[0.0472,0.08],基于用户协作广告推荐算法的准确性高于广告推荐算法的基于标签和项目之间的关系,和不同程度的逐渐减少。与回忆的增加,协同过滤广告的准确性与标签推荐算法提出了明显高于其他三个算法,相比之下,公元基于标签的推荐算法的精度最低,这与前面的实验结果是一致的。

5。结论

在本文中,我们提出一个深度关注流行预测模型DAFCT特性和时间信息相结合的内容,可以有效地表达广告的流行趋势和提高知名度的性能预测。实验结果表明,协同过滤广告和标签推荐算法有更好的可伸缩性和更好的推荐质量比传统的协同过滤算法,基于标签的推荐算法,和推荐算法基于标签和商品之间的关系。然而,该算法没有考虑其他因素影响广告的点击率,如位置和投标价格。因此,下一步将考虑结合机器学习算法,挖掘广告本身的属性,提取特征信息,分析广告的点击率影响因素在实际应用程序中,和提高推荐精度。

数据可用性

本文中使用的数据集可从相应的作者。

信息披露

本文是“双基地”的教学示范课程思想政治建设示范课程”广告计划,“中国(批准号2020 szsfkc0110)。

的利益冲突

作者宣称没有利益冲突。