广告点击率预估是怎么回事？-51CTO.COM

[[176886]]

点击率预估是广告技术的核心算法之一，它是很多广告算法工程师喜爱的战场。一直想介绍一下点击率预估，但是涉及公式和模型理论太多，怕说不清楚，读者也不明白。所以，这段时间花了一些时间整理点击率预估的知识，希望在尽量不使用数据公式的情况下，把大道理讲清楚，给一些不愿意看公式的同学一个Cook Book。

点击率预测是什么?

点击率预测是对每次广告的点击情况做出预测，可以判定这次为点击或不点击，也可以给出点击的概率，有时也称作pClick。

点击率预测和推荐算法的不同?

广告中点击率预估需要给出精准的点击概率，A点击率0.3% , B点击率0.13%等，需要结合出价用于排序使用;推荐算法很多时候只需要得出一个最优的次序A>B>C即可;

搜索和非搜索广告点击率预测的区别

搜索中有强搜索信号-“查询词(Query)”，查询词和广告内容的匹配程度很大程度影响了点击概率; 点击率也高，PC搜索能到达百分之几的点击率。
非搜索广告(例如展示广告，信息流广告)，点击率的计算很多来源于用户的兴趣和广告特征，上下文环境;移动信息流广告的屏幕比较大，用户关注度也比较集中，好位置也能到百分之几的点击率。对于很多文章底部的广告，点击率非常低，用户关注度也不高，常常是千分之几，甚至更低;

如何衡量点击率预测的准确性?

AUC是常常被用于衡量点击率预估的准确性的方法;理解AUC之前，需要理解一下Precision/Recall;对于一个分类器，我们通常将结果分为：TP,TN,FP,FN。

本来用Precision=TP/(TP+FP)，Recall=TP/P，也可以用于评估点击率算法的好坏，毕竟这是一种监督学习，每一次预测都有正确答案。但是，这种方法对于测试数据样本的依赖性非常大，稍微不同的测试数据集合，结果差异非常大。那么，既然无法使用简单的单点Precision/Recall来描述，我们可以考虑使用一系列的点来描述准确性。做法如下：

1.找到一系列的测试数据，点击率预估分别会对每个测试数据给出点击/不点击，和Confidence Score。

2.按照给出的Score进行排序，那么考虑如果将Score作为一个Thresholds的话，考虑这个时候所有数据的 TP Rate 和 FP Rate; 当Thresholds分数非常高时，例如0.9，TP数很小，NP数很大，因此TP率不会太高;

4.当选用不同Threshold时候，画出来的ROC曲线，以及下方AUC面积。

5.我们计算这个曲线下面的面积就是所谓的AUC值;AUC值越大，预测约准确。

为什么要使用AUC曲线

既然已经这么多评价标准，为什么还要使用ROC和AUC呢?因为ROC曲线有个很好的特性：当测试集中的正负样本的分布变化的时候，ROC曲线能够保持不变。在实际的数据集中经常会出现类不平衡(class imbalance)现象，即负样本比正样本多很多(或者相反)，而且测试数据中的正负样本的分布也可能随着时间变化。AUC对样本的比例变化有一定的容忍性。AUC的值通常在0.6-0.85之间。

如何来进行点击率预测?

点击率预测可以考虑为一个黑盒，输入一堆信号，输出点击的概率。这些信号就包括如下信号

广告：历史点击率，文字，格式，图片等等

环境：手机型号，时间媒体，位置，尺寸，曝光时间，网络IP，上网方式，代理等

用户：基础属性(男女，年龄等)，兴趣属性(游戏，旅游等)，历史浏览，点击行为，电商行为

信号的粒度：

Low Level : 数据来自一些原始访问行为的记录，例如用户是否点击过Landing Page，流量IP等。这些特征可以用于粗选，模型简单，

High Level: 特征来自一些可解释的数据，例如兴趣标签，性别等

特征编码Feature Encoding：

1.特征离散化：把连续的数字，变成离散化，例如温度值可以办成多个温度区间。

2.特征交叉：把多个特征进行叫交叉的出的值，用于训练，这种值可以表示一些非线性的关系。例如，点击率预估中应用最多的就是广告跟用户的交叉特征、广告跟性别的交叉特征，广告跟年龄的交叉特征，广告跟手机平台的交叉特征，广告跟地域的交叉特征等等。

特征选取(Feature Selection)：

特征选择就是选择那些靠谱的Feature，去掉冗余的Feature，对于搜索广告Query和广告的匹配程度很关键;对于展示广告，广告本身的历史表现，往往是最重要的Feature。

独热编码(One-Hot encoding)

假设有三组特征，分别表示年龄，城市，设备;

["男", "女"]

["北京", "上海", "广州"]

["苹果", "小米", "华为", "微软"]

传统变化： 对每一组特征，使用枚举类型，从0开始;

["男“，”上海“，”小米“]=[ 0,1,1]

["女“，”北京“，”苹果“] =[1,0,0]

传统变化后的数据不是连续的，而是随机分配的，不容易应用在分类器中。

热独编码是一种经典编码，是使用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候，其中只有一位有效。

["男“，”上海“，”小米“]=[ 1,0,0,1,0,0,1,0,0]

["女“，”北京“，”苹果“] =[0,1,1,0,0,1,0,0,0]

经过热独编码，数据会变成稀疏的，方便分类器处理。

点击率预估整理过程：

三个基本过程：特征工程，模型训练，线上服务

特征工程：准备各种特征，编码，去掉冗余特征(用PCA等)

模型训练：选定训练，测试等数据集，计算AUC，如果AUC有提升，通常可以在进一步在线上分流实验。

线上服务：线上服务，需要实时计算CTR，实时计算相关特征和利用模型计算CTR，对于不同来源的CTR，可能需要一个Calibration的服务。

点击率预测的算法

-逻辑回归(Logic Regression)：

Logistic回归是点击率预估必须入门的一种方法，使用简单，理论容易理解，甚至有些问题可以进行Debug，了解问题原因。它的核心想法就是通过Sigmooid函数，将Y值转化成0-1;其基本公式如下：

LR_SGD(随机梯度下降):

LR的模型有了，在训练过程中，为了提高训练的速度，常用的是SGD的优化方法。 SGD解决了梯度下降的两个问题：收敛速度慢和陷入局部最优。梯度下降是一种常规的优化方法，但是SGD的S表示一定的随机性;梯度下降是每次都朝着全局优化方向前进，而SGD却由于随机性，有一定的曲折后，可能达到全局最优，也可能深陷于局部最优，但SGD的运行性能确实出色。

LR-FTRL

谷歌点击率预估在在线学习(Online Learning)积累好多年的经验，所谓在线学习就是通过线上实时处理数据而进行模型训练，而不是传统模式，把所有数据都放到一起处理(Batch Learning)，得到离线的最优解。

LR-FTRL (Follow-the-regularized-Leader)，Google在10年就提出了一些理论基础，在13年给出了Paper，并且带有FTRL的实现伪代码，在此之后，FTRL才大规模应用在工业界。

-FM(Factorization Machines)：

Steffen Rendle于2010年提出Factorization Machines(FM)，并发布开源工具libFM。凭借这单个模型，他在KDD Cup 2012上，取得Track1的第2名和Track2的第3名。在Kaggle的主流的点击率比赛中和实际广告系统的经验，factorization machine的效果完胜LR。FM的内核和LR也非常类似，但是多增加了一部分引入特征之间的交互因素，所以FM是非线性函数内核，它非常类似我们在特征工程中采用的特征交叉，但是FM是通过训练找到那些有用的特征叉值。

深度学习DNN

深度学习采用神经网络技术也在不断影响点击率技术的发展。特别是DNN的开发平台，更多的广告和用户数据，更大的计算资源(包括GPU)，这都给深度学习解决点击率预估的问题，奠定了好的基础。

Google、百度等搜索引擎公司以 Logistic Regression(LR)作为预估模型。而从 2012 年开始，百度开始意识到模型的结构对广告 CTR 预估的重要性：使用扁平结构的 LR 严重限制了模型学习与抽象特征的能力。为了突破这样的限制，百度尝试将 DNN 作用于搜索广告，而这其中最大的挑战在于当前的计算能力还无法接受 10^11 级别的原始广告特征作为输入。作为解决，在百度的 DNN 系统里，特征数从10^11 数量级被降到了10^3，从而能被 DNN 正常地学习。这套深度学习系统已于 2013 年 5 月开始上线服务于百度搜索广告系统，初期与LR并存，后期通过组合方法共同提升点击准确率。

现在越来越多的深度学习的平台，例如谷歌的TensorFlow，使用起来也非常方便，大部分工程师1-2星期就可以上手实验，对于特征工程的要求没有LR高，DNN能够对特征进行自主的优取，但是对于大规模的计算，能够直接匹敌LR算法的，还需要一段长长的时间。

集成学习(Ensemble Learning)

集成学习通过训练多个分类器，然后把这些分类器组合起来使用，以达到更好效果。集成学习算法主要有Boosting和Bagging两种类型。

Boosting：通过迭代地训练一系列的分类器，每个分类器采用的样本的选择方式都和上一轮的学习结果有关。比如在一个年龄的预测器，第一个分类器的结果和真正答案间的距离(残差)，这个残差的预测可以训练一个新的预测器进行预测。XGBoost是非常出色的Boosting工具，支持DT的快速实现。

Bagging：每个分类器的样本按这样的方式产生，每个分类器都随机从原样本中做有放回的采样，然后分别在这些采样后的样本上训练分类器，然后再把这些分类器组合起来。简单的多数投票一般就可以。这个类别有个非常著名的算法叫Random Forest,它的每个基分类器都是一棵决策树，最后用组合投票的方法获得最后的结果。

各大公司的一些点击率预估的算法：

1.微软 ：微软在2010年曾经有一篇文章是关于使用《Web-Scale Bayesian Click-Through Rate Prediction for Sponsored Search Advertising in Microsoft’s Bing Search Engine 》，但这并不代表这是微软现在的技术，据说现在的技术也是Online-learning和一些组合技术的融合，另外也在尝试DNN的解决方案。

2.谷歌：谷歌是比较开放的公司，LR-FTRL对整个行业的online-learning都有整体的促进作用。《Ad Click Prediction: a View from the Trenches》，谷歌内部也在不断尝试引入深度学习方法解决点击率问题，也包括展示广告的点击率预估。

3.Facebook:

Facebook广告大部分情况下是没有关键词的，因此Facebook的点击率预估，其实是非常更难的问题。Facebook有一篇文章，《Practical Lessons from Predicting Clicks on Ads at Facebook》，其中介绍Facebook结合GBDT训练出一些feature，然后再传入LR进行分类;

4.百度：基本全面使用DNN的训练和之前的一些LR;

5.小米：小米使用过多种方法，包括LR-SGD, LR-FTRL, FM等，同时也在通过组合的方式提升综合效果，另外也在积极探索DNN的解决方案。

点击率预测的成功要素

点击率预估的成功来源于两面：一面是实力，一面是运气，加油和好运!

【本文为51CTO专栏作者“欧阳辰”的原创稿件，转载请联系作者本人获取授权】