广告点击率预测基于Weighted-ELM和学习演算法

文摘

准确的点击率(CTR)预测不仅可以提高广告公司的声誉和收入,而且还帮助广告主优化广告性能。主要有两个尚未解决的问题的CTR预测:预测精度低,由于广告的不平衡分布数据和实时竞价广告实现的缺乏。在本文中,我们将开发一种新型的在线实时竞价CTR预测方法,通过融合(RTB)广告通过以下策略:用户配置文件系统是由RTB广告的历史数据来描述用户特性,历史CTR特性,特性ID,另一个数值特性。小说CTR预测方法提出了解决不平衡学习样本分布通过整合Weighted-ELM (WELM)和学习演算法。常用的算法相比,该方法可以显著提高点击率。

1。介绍

随着网络技术和通信技术的发展,互联网和移动互联网发展迅速。由于智能手机的普及,各种各样的手机应用程序被发明了。这是一个利基市场,广告主和广告公司更加关注网络广告的点击率(CTR)产品。通常在线广告可以通过两种不同的方式:一种是基于网站的搜索广告,它具体指的是搜索引擎根据用户的关键字目标广告内容和广告。另一个是实时竞价(RTB)广告,广告供应商平台提供的不再是广告,但具体的用户访问了广告位置。RTB广告扩大网络广告的方向性和准确性1]。

目前,存在许多研究对网络广告点击率预测工作。梅农et al。2)提出了最大似然算法来估计CTR概率模型的参数。但是这个模型只能适用于现有的广告而不是新广告。理查森et al。3)提出了逻辑回归模型学习CTR预测模型与模型搜索广告功能,包括关键字的数量,页面中的数据的位置,和其他特征的广告。薛潘(4)提出了一种基于速率的随机回归方法估计机器学习框架Yahoo !解决CTR预测问题通过使用四个特征作为模型的输入。norm-2正则化项添加逻辑回归模型。这种方法可以产生一个稀疏的模型增加非零参数的数量,以避免过度拟合的问题。邵(5)提出了一个高层次的特征表示和click-by-point预测方法相结合的基于深层网络高级特性和使用深层神经网络模型的基本特征。

大多数现有工作CTR预测是专注于搜索广告严重依赖于关键字和用户输入。随着智能终端的发展和移动互联网,RTB广告正在迅速增加。越来越多的广告商的RTB广告将成为未来互联网广告的主要趋势。同时,RTB CTR预测的研究工作仍处于开始阶段。

这部小说在这篇文章中,我们将研究基于大数据的在线CTR预测问题,结合RTB广告与用户配置文件系统。小说CTR预测方法将通过整合Weighted-ELM (WELM)和学习演算法来解决学习样本分布不平衡。我们将使用真实的广告执行实验数据来验证该方法的有效性。

2。实验数据集和评价标准

在本节中,实验数据集,本研究中使用的评估标准曲线下面积(AUC)将简要描述。

本文实验数据集用于CTR预测是国内广告公司提供的原始数据记录在中国。有16个属性在原始数据日志表中所示的细节1。


属性名称	数据类型	属性的解释

push_time	时间戳	时间的投标请求
u_id	字符串	用户ID
exchange_id	Int	广告交换平台ID
c_id	字符串	广告创意的ID
space_id	字符串	广告位置ID
area_id	Int	区域ID
media_id	Int	传媒ID
advertiser_id	Int	广告标识
policy_id	Int	政策ID
user_agent	字符串	代理的浏览器
user_ip	字符串	用户的ip
if_click	Int	如果点击
if_show	Int	如果显示
price_base	双	最低价格竞价广告位置
price_win	双	价格赢得广告位置
url	字符串	URL

2.1。用户配置文件

广告日志以来大量的数据,我们将上述16个属性分为4类:用户的特征、时间特征、身份特征,数值特征。

2.1.1。用户的特点

在早期的实践中,当需求方平台收到的投标请求广告代理,通常不分析用户的信息和所有用户用于广告。证明这种方式交付的信息不能达到期望的结果作为u_id和media_id属性中使用的方法不能满足用户的利益。因此,首要任务是建立用户概要文件系统获得用户的年龄,性别,和兴趣偏好CTR预测。系统的总体结构如图1。

用户配置文件系统主要包括以下功能:(我)数据预处理子系统:负责清洗和预处理广告日志数据;(2)关键字分割服务:负责分段的不规则的文本;(3)知识库:负责提供相关的映射表;(iv)用户图形子系统:最重要的部分用户图形系统:负责整合各个部分的数据来构建一个用户图;(v)数据存储子系统:负责存储用户的结果图。

用户图形系统的输出包括用户的年龄,性别,和兴趣偏好。用户的特点是通过使用i_id属性匹配用户图形系统的输出。

2.1.2。时间特征

时间特征包括日志中的push_time领域代表广告请求的时间。根据历史数据,用户在不同的时期有不同的利益,所以点击行为的概率也不同。基于这一判断,我们把一天分为六个时期深夜,早晨,午餐时间,下午,晚上吃饭时间,。整个时间信息是由一个六维向量。六个时间如表所示2。


期的名字	期

T1(午夜)	00:00 ~ 06:00时
T2(上午)	~ 06:00时11点
T3(午餐)	11点~ 13点
T4(下午)	13:00 ~ 18:00
T5(晚餐)	18:00 ~ 20:00
T6(晚上)	20:00 ~ 23点

2.1.3。ID特点

中的ID特征数据集包括u_id advertiser_id, media_id, area_id, c_id, policy_id, exchange_id。有很多RTB广告日志ID属性。如果我们没有过滤过程的特点,我们将获得一个向量的维度可能多达数百数千认真这就增加了计算复杂度。因此,有必要降低特征空间的维数。我们应用方法3删除不必要的ID属性,没有影响或影响不大的点击率。

2.1.4。数值特征

属性的数据集,如price_base, price_win, URL, u_ip,影响广告的点击率。把price_win例如,如果该值为0,它表明,广告并不是一个成功的投标。如果该值为零,不同的值反映了广告点击的价值是不同的。通常认为,值越大,越广告位置和点击的概率就越大。因此数值属性需要被添加到特征向量。

在本文中,我们采用了最大和最小归一化法规范化每个特征值在0和1之间。

2.2。曲线下面积(AUC)

CTR的预测是一个二进制分类问题而积极的和消极的样本的比例极不平衡。在实际的广告,积极的和消极的样本的比例大约是3:1000或更低。不同类别的样本分布不均匀,所以精度的评价指标并不是一个好的标准来判断分类器的性能。

本文采用AUC测量CTR的效果预测。计算AUC的过程中,相关的曲线称为ROC曲线(接收机工作特性)6]。传统ROC曲线用于医学领域。目前通常使用领域的数据挖掘、机器学习和模式识别。

ROC曲线绘制时,横向坐标是玻璃钢(假阳性)和垂直坐标是TPR(真阳性)。玻璃钢和TPR的值可以根据公式计算(1)。

在(1),TP代表样品是积极和算法识别它们作为正样本;FP是样品是负面的和算法识别它们作为正样本;FN代表样本的积极和算法识别它们负样本;TN代表样品是负面的和算法承认他们为负样本(7]。

很明显,如果有更多的用户点击一个广告,这个广告的排名将在前面和ROC曲线下的面积比较大,表明广告更好的性能。

作为一个例子,我们画接受者操作特征(ROC)曲线,exchange_id area_id, media_id, advertiser_id Weighted-ELM。每个AUC值的曲线如表所示3。


ID属性	exchange_id	area_id	media_id	advertiser_id

AUC值	0.5137	0.5412	0.5930	0.5271

从表3,我们可以看到的AUC值exchange_id advertiser_id几乎是0.5,从随机的结果没有差异。这种现象有RTB广告的特点有关。RTB广告商不希望自己的点击转换数据被用来优化其他广告的有效性。

advertiser_id的AUC值相比,media_id的AUC值略有增加,0.60。这种情况下与用户的兴趣和media_id可以反映用户的兴趣。如果用户经常访问一些应用程序,点击广告的概率会增加。

3所示。CTR评估

榆树算法在本节中,将讨论,将用于CTR的预测。与传统的支持向量机分类算法和BP相比,榆树学习速度快的优势,准确的估计结果与轻松设置权重。基于这些优点,榆树算法自提出以来迅速发展几年前。因为积极的和消极的样本的比例非常不均匀,我们提出了Weighted-ELM算法来解决这个问题在下一小节。由于榆树Weighted-ELM算法的基础上,我们将首先描述原始榆树在下面。

3.1。榆树算法

近年来,黄等。8- - - - - -10)和其他学者提出了一个快速算法的单隐层前馈神经网络名为极端学习机(ELM) [11,12]。榆树算法的具体结构如图2。

输入重量和偏见隐藏节点的榆树是随机抽取的。他们不需要一系列的迭代算法,大大节省了神经网络的训练时间。榆树得到的输出权值最小平方误差损失函数的最小二乘解。因此确定神经网络参数的过程非常简单,节省了许多时间的调整参数。

榆树算法的基本思想如下。

给定的训练样本集 ,矩阵神经网络的输入矩阵和矩阵是实际的输出值的神经网络的训练样本集。隐藏的节点,我们可以得到

在这个方程, 是神经网络隐层节点的激活函数。通常是团体,罪、hardlim或tribas功能;之间的连接权重th隐层节点,输入节点;的偏见th隐藏节点;之间的连接权重隐层节点和输出节点。

在算法的实际应用,网络的输出值等于或接近实际的输出值。如果样本集和神经网络结构接近目标值零位误差,我们可以得到。榆树的公式算法可以缩写在哪里神经网络的输出矩阵隐藏节点和隐藏层节点之间是输出权重矩阵和输出层节点。

算法的主要思想是如何得到输出权重矩阵训练误差和输出权重矩阵最小值。这就意味着如何让下面的方程的最小值: 在哪里广义逆矩阵的吗。如果非奇异的, 。如果非奇异的, 。如果不是满列秩,可以通过奇异值分解)(5,13]。

3.2。Weighted-ELM算法

基本的榆树算法是非常有用的对于许多问题。然而,存在着大量的分类问题的样本不平衡,比如广告点击率的问题。为了解决这一问题的样本不平衡分类、徐等人提出了Weighted-ELM算法(14]。

榆树算法的目标函数在这个方程中,条件满足: , 。上半年的公式(5)的结构性风险,后者称为经验风险的一部分。

Weighted-ELM算法的目标函数在哪里是一个对角矩阵和矩阵的值有关每个训练样本。一般来说,如果属于几类,对应的应该给一个相对较大的重量。有两个方法的价值。第一个方法所示第二种方法如下。

训练的过程榆树相当于解决以下问题:

类似于原始的榆树,也解决了在两个方面:当很小, 当很大,

Weighted-ELM分类器的输出可以给出的

4所示。WELM-Adaboost算法

本文构造了广告点击率WELM-Adaboost算法提出了一种可以预测模型的调整数据分布的重量。

4.1。学习演算法

学习演算法,提高算法的典型应用之一。学习演算法选择非常重要的特性构建一系列的弱分类器级联这些弱分类器组成强分类器。该算法的优点是,它使用加权训练数据而不是随机选择的训练样本。它结合了弱分类器,并使用加权投票机制,而不是平均投票机制。

4.2。广告点击率预测模型基于WELM-Adaboost

摘要Weighted-ELM作为弱预测,每个样品的重量分布调整通过学习演算法获得多个Weighted-ELM分类器。这些分类器组合成一个强分类器(14]。

广告点击率预测过程基于WELM-Adaboost算法如图3。

算法的详细步骤如下:(1)从样本数据,随机选择样本数据作为训练数据。据的积极和消极的样本分布比例,初始化每个训练样本的权重。(2)为每个迭代 ,在那里的总数是弱分类器,该算法将重复以下步骤(a) (e):(一)应用分类器的训练样本与最初的样品重量 ;(b)计算重量预测误差的权重其结果是分类错误的样本;预测误差的计算方法是根据重量 (c)计算序列的重量的根据其分类性能: (d)新的训练样本的重量是根据重量计算序列调整 : (e)Renormalize样品重量。(3)后迭代,组弱的预测因子。这些弱预示合并成最终的预测因素 : 在哪里是样本的类别的数量。

5。实验结果

本文中使用的实验数据集RTB广告原始日志数据提供的国内广告公司在北京,中国。因为数据太大,正(或负)样品严重不平衡,我们随机抽取1的数据作为实验数据日志。单击样品记录为正;其他(nonclick)样本都是负面的。积极和消极的比例样本实验数据几乎是3:1000年是一个典型的不平衡数据集。实验数据的统计数据如表所示4。表中,Impression_n意味着nonclick样本的数量和Click_num意味着点击样本的数量。


数据集	Impression_num	Click_num	点击/印象

训练集	180823年	544年	0.0030
测试集	77496年	252年	0.0032
总	258319年	796年	0.0031

5.1。CTR的预测模型

从上面的特征提取过程,我们可以得出结论,RTB的CTR广告与用户的兴趣有很大的关系和基本属性。它有一个小的关系大多数ID的特点。最后,我们选择时间特征和用户特征media_id,area_id,price_base,和price_win作为输入的预测模型基于该方法。

有必要探索的影响隐藏节点的数目和激活函数的速度和榆树算法的准确性。

榆树算法提供了四种激活函数。从图4,我们可以知道当隐藏节点的数目是相同的和激活函数是正弦函数,AUC值高于其他三种类型的激活函数约5%。此外,正弦函数的训练速度慢于乙状结肠函数和tribas函数,但速度比hardlim函数。考虑到培训时间和设备成本,隐藏节点的数量设置为500,并激活函数设置为正弦函数。

5.2。比较算法的性能

我们选择逻辑回归(LR)模型和支持向量机(SVM)模型的比较方法中常用的其他文件,和AUC值三个算法如表所示5。


	LR	支持向量机	榆树

1:5	0.852	0.846	0.951
1:10	0.803	0.818	0.838
1:20	0.751	0.761	0.840
1:50	0.732	0.712	0.839
1:100	0.625	0.639	0.682
1:150	0.507	0.510	0.508

表5表明,榆树比LR和SVM的性能在所有测试数据集,这表明,我们选择了合理的特征和榆树算法是有效的。

最后,我们选择了传统的榆树算法和Weighted-ELM算法对比方法当积极的和消极的样本的比例与不同比例设置;的趋势的AUC结果三个算法如图5。

从图可以看出5当积极和消极样本比例是1:5,三种算法的AUC值可达0.9以上。当积极和消极样本比例是1:50岁的AUC值WELM-Adaboost算法仍高于0.9,但榆树的AUC值算法和Weighted-ELM算法减少到0.84。的样本比例的增加比积极的和消极的样本,AUC值的三个算法表现出降低的趋势,但WELM-Adaboost算法的AUC值明显高于其他两种算法。提出WELM-Adaboost算法有更好的性能比其他两种方法。

结果如表所示6。


比例	榆树	Weighted-ELM	WElM-Adaboost

1:5	0.951	0.882	0.962
1:10	0.838	0.831	0.919
1:20	0.840	0.870	0.932
1:50	0.839	0.840	0.919
1:100	0.682	0.583	0.838
1:150	0.508	0.614	0.789
3:1000	0.503	0.569	0.679

WELM-Adaboost算法,该算法训练20 Weighted-ELMs弱分类器。从表可以看出5当积极的和消极的样本的比例达到1:100年,榆树Weighted-ELM算法算法和AUC值较低的AUC值WELM-Adaboost算法仍保持在0.8以上。这表明该WELM-Adaboost算法具有更好的性能。

6。结论

本文首先应用广告公司的大数据来构建用户图形系统分类广告为目的的数据。这个用户的输出图形系统包括用户的年龄、性别、兴趣偏好,用作CTR的预测模型的输入。实验表明,这种对CTR预测特性有很大的影响。

论文的主要贡献是提出一个WELM-Adaboost算法RTB广告的点击率预测方法。我们真正的广告数据集应用于实现实验运用AUC值作为衡量标准。我们比较榆树算法和Weighted-ELM算法与建议的方法。的AUC值实验结果表明,该算法相比显著提高榆树和Weighted-ELM基础方法。

尽管本文作了系统的研究特征提取和CTR预测RTB的广告,还有一些问题需要改进。

深层神经网络可能是一个好方法对未来进一步的研究CTR预测。

的利益冲突

作者宣称没有利益冲突。

确认

本文由中国国家自然科学基金资助(61673056和61673056号)。

引用

z孟,研究互联网用户的个性化广告推送服务、东华大学、上海,中国,2014。
a·k·梅农k Chitrapura s Garg d·阿加瓦尔和n .哥打“响应预测使用协同过滤和层次结构和端版本信息,”17 ACM SIGKDD学报》国际会议上知识发现和数据挖掘(KDD ' 11),页141 - 149,圣地亚哥,加利福尼亚州,美国,2011年8月。视图:出版商的网站|谷歌学术搜索
m·理查森,大肠Dominowska, r·劳格诺”预测点击:评估新广告的点击率,”学报》第16届国际万维网会议(WWW ' 07)2007年5月,页521 - 530。视图:出版商的网站|谷歌学术搜索
o .薛潘“建模延迟反馈显示广告,”20 ACM SIGKDD国际会议的程序知识发现和数据挖掘(KDD ' 14),页1097 - 1105,纽约,纽约,美国,2014年8月。视图:出版商的网站|谷歌学术搜索
Di。邵,高水平研究网络广告特性表征和预测方法、哈尔滨工业大学、哈尔滨,中国,2014。
t·福塞特,“ROC曲线图:笔记和研究的实际问题,“机器学习没有,卷。31日。1,1-38,2004页。视图:谷歌学术搜索
w .舒晓,点击率预测基于深神经Netwook模型,北京邮电大学,北京,中国,2015。
g . b .黄、朱问:y和c·k·萧,“极端的学习机器:理论和应用程序”,Neurocomputing,卷70,不。1 - 3、489 - 501年,2006页。视图:出版商的网站|谷歌学术搜索
w .宗庆后,G.-B。黄、陈y“加权极端不平衡学习的学习机器,”Neurocomputing卷,101年,第242 - 229页,2013年。视图:出版商的网站|谷歌学术搜索
张x, y壮族,w . Wang和w·Pedrycz”转移推动合成实例类对象识别不平衡,“IEEE控制论,没有。99年,页1 - 14,2016。视图:出版商的网站|谷歌学术搜索
k . Li x, z, l . Wenyin j .阴,“提高加权榆树不平衡学习,”Neurocomputing卷。128年,15至21,2014页。视图:出版商的网站|谷歌学术搜索
g . b .黄、朱问:y和c·k·萧,“极端的学习机器:前馈神经网络的一个新的学习计划,”《IEEE国际神经网络联合会议,2卷,第990 - 985页,2004年7月。视图:出版商的网站|谷歌学术搜索
周宏儒。荣,Y.-S。Ong A.-H。棕褐色,z朱”,快速pruned-extreme学习机器分类问题。”Neurocomputing,卷72,不。1 - 3、359 - 366年,2008页。视图:出版商的网站|谷歌学术搜索
z y,问:Wang Wei,马,“交通标志识别基于加权榆树和演算法,”IEEE电子信件,52卷,不。24日,第1990 - 1988页,2016年。视图:出版商的网站|谷歌学术搜索

科学的规划

编程基础科学大数据分析

文摘