基于PaddlePaddle的点击率的深度学习方法尝试

企业动态
前面在团队内部分享点击率相关的一些文章时,输出了一篇常见计算广告点击率预估算法总结,看了一些广告点击率的文章,从最经典的Logistic Regression到Factorization Machined,FFM,FNN,PNN到今年的DeepFM,还有文章里面没有讲的gbdt+lr这类,一直想找时间实践下

前言

前面在团队内部分享点击率相关的一些文章时,输出了一篇常见计算广告点击率预估算法总结,看了一些广告点击率的文章,从最经典的Logistic Regression到Factorization Machined,FFM,FNN,PNN到今年的DeepFM,还有文章里面没有讲的gbdt+lr这类,一直想找时间实践下,正好这次在学习paddle的时候在它的models目录下看到了DeepFM的实现,因为之前对DeepFM有过比较详细的描述,这里稍微复习一下:

DeepFM更有意思的地方是WDL和FM结合了,其实就是把PNN和WDL结合了,PNN即将FM用神经网络的方式构造了一遍,作为wide的补充,原始的Wide and Deep,Wide的部分只是LR,构造线性关系,Deep部分建模更高阶的关系,所以在Wide and Deep中还需要做一些特征的东西,如Cross Column的工作,而我们知道FM是可以建模二阶关系达到Cross column的效果,DeepFM就是把FM和NN结合,无需再对特征做诸如Cross Column的工作了,这个是我感觉最吸引人的地方,其实FM的部分感觉就是PNN的一次描述,这里只描述下结构图,PNN的部分前面都描述, FM部分:

Deep部分:

DeepFM相对于FNN、PNN,能够利用其Deep部分建模更高阶信息(二阶以上),而相对于Wide and Deep能够减少特征工程的部分工作,wide部分类似FM建模一、二阶特征间关系, 算是NN和FM的一个更***的结合方向,另外不同的是如下图,DeepFM的wide和deep部分共享embedding向量空间,wide和deep均可以更新embedding部分,虽说wide部分纯是PNN的工作,但感觉还是蛮有意思的。

本文相关代码部分都是来自于paddlepaddle/model, 我这里走一遍流程,学习下,另外想要了解算法原理的可以仔细再看看上面的文章,今天我们来paddlepaddle上做下实验,来从代码程度学习下DeepFM怎么实现的:

数据集说明

criteo Display Advertising Challenge,数据主要来criteolab一周的业务数据,用来预测用户在访问页面时,是否会点击某广告。

wget --no-check-certificate https://s3-eu-west-1.amazonaws.com/criteo-labs/dac.tar.gz tar zxf dac.tar.gz rm -f dac.tar.gz  mkdir raw mv ./*.txt raw/ 

数据有点大, 大概4.26G,慢慢等吧,数据下载完成之后,解压出train.csv,test.csv,其中训练集45840617条样本数,测试集45840617条样本,数据量还是蛮大的。 数据主要有三部分组成:

  • label: 广告是否被点击;
  • 连续性特征: 1-13,为各维度下的统计信息,连续性特征;
  • 离散型特征:一些被脱敏处理的类目特征

Overview

整个项目主要由几个部分组成:

数据处理

这里数据处理主要包括两个部分:

  1. 连续值特征值处理:
  • 滤除统计次数95%以上的数据,这样可以滤除大部分异值数据,这里的处理方式和以前我在1号店做相关工作时一致,代码里面已经做了这部分工作,直接给出了这部分的特征阈值;
  • 归一化处理,这里andnew ng的课程有张图很明显,表明不同的特征的值域范围,会使得模型寻优走『之』字形,这样会增加收敛的计算和时间;
  1. 离散特征值处理:
  • one-hot: 对应特征值映射到指定维度的只有一个值为1的稀疏变量;
  • embedding: 对应特征值映射到指定的特征维度上;

具体我们来研究下代码:

class ContinuousFeatureGenerator:     """     Normalize the integer features to [0, 1] by min-max normalization     """      def __init__(self, num_feature):         self.num_feature = num_feature         self.min = [sys.maxint] * num_feature         self.max = [-sys.maxint] * num_feature      def build(self, datafile, continous_features):         with open(datafile, 'r') as f:             for line in f:                 features = line.rstrip('\n').split('\t')                 for i in range(0, self.num_feature):                     val = features[continous_features[i]]                     if val != '':                         val = int(val)                         if val > continous_clip[i]:                             val = continous_clip[i]                         self.min[i] = min(self.min[i], val)                         self.max[i] = max(self.max[i], val)      def gen(self, idx, val):         if val == '':             return 0.0         val = float(val)         return (val - self.min[idx]) / (self.max[idx] - self.min[idx]) 

连续特征是在1-13的位置,读取文件,如果值大于对应维度的特征值的95%阈值,则该特征值置为该阈值,并计算特征维度的***、最小值,在gen时归一化处理。

class CategoryDictGenerator:     """     Generate dictionary for each of the categorical features     """      def __init__(self, num_feature):         self.dicts = []         self.num_feature = num_feature         for i in range(0, num_feature):             self.dicts.append(collections.defaultdict(int))      def build(self, datafile, categorial_features, cutoff=0):         with open(datafile, 'r') as f:             for line in f:                 features = line.rstrip('\n').split('\t')                 for i in range(0, self.num_feature):                     if features[categorial_features[i]] != '':                         self.dicts[i][features[categorial_features[i]]] += 1         for i in range(0, self.num_feature):             self.dicts[i] = filter(lambda x: x[1] >= cutoff,                                 self.dicts[i].items())             self.dicts[i] = sorted(self.dicts[i], key=lambda x: (-x[1], x[0]))             vocabs, _ = list(zip(*self.dicts[i]))             self.dicts[i] = dict(zip(vocabs, range(1, len(vocabs) + 1)))             self.dicts[i]['<unk>'] = 0      def gen(self, idx, key):         if key not in self.dicts[idx]:             res = self.dicts[idx]['<unk>']         else:             res = self.dicts[idx][key]         return res      def dicts_sizes(self):         return map(len, self.dicts) 

类目特征的处理相对比较麻烦,需要遍历,然后得到对应维度上所有出现值的所有情况,对打上对应id,为后续类目特征赋予id。这部分耗时好大,慢慢等吧,另外强烈希望paddlepaddle的小伙伴能在输出处理期间打印下提示信息,算了,我之后有时间看看能不能提提pr。

经过上面的特征处理之后,训练集的值变为:

reader

paddle里面reader的文件,自由度很高,自己可以写生成器,然后使用batch的api,完成向网络传入batchsize大小的数据:

class Dataset:     def _reader_creator(self, path, is_infer):         def reader():             with open(path, 'r') as f:                 for line in f:                     features = line.rstrip('\n').split('\t')                     dense_feature = map(float, features[0].split(','))                     sparse_feature = map(int, features[1].split(','))                     if not is_infer:                         label = [float(features[2])]                         yield [dense_feature, sparse_feature                             ] + sparse_feature + [label]                     else:                         yield [dense_feature, sparse_feature] + sparse_feature          return reader      def train(self, path):         return self._reader_creator(path, False)      def test(self, path):         return self._reader_creator(path, False)      def infer(self, path):         return self._reader_creator(path, True) 

主要逻辑在兑入文件,然后yield对应的网络数据的输入格式

模型构造

模型构造,DeepFM在paddlepaddle里面比较简单,因为有专门的fm层,这个据我所知在TensorFlow或MXNet里面没有专门的fm层,但是值得注意的是,在paddlepaddle里面的fm层,只建模二阶关系,需要再加入fc才是完整的fm,实现代码如下:

def fm_layer(input, factor_size, fm_param_attr):     first_order = paddle.layer.fc(         input=input, size=1, act=paddle.activation.Linear())     second_order = paddle.layer.factorization_machine(         input=input,         factor_size=factor_size,         act=paddle.activation.Linear(),         param_attr=fm_param_attr)     out = paddle.layer.addto(         input=[first_order, second_order],         act=paddle.activation.Linear(),         bias_attr=False)     return out 

然后就是构造DeepFM,这里根据下面的代码画出前面的图,除去数据处理的部分,就是DeepFM的网络结构:

def DeepFM(factor_size, infer=False):     dense_input = paddle.layer.data(         name="dense_input",         type=paddle.data_type.dense_vector(dense_feature_dim))     sparse_input = paddle.layer.data(         name="sparse_input",         type=paddle.data_type.sparse_binary_vector(sparse_feature_dim))     sparse_input_ids = [         paddle.layer.data(             name="C" + str(i),             type=s(sparse_feature_dim))         for i in range(1, 27)     ]     dense_fm = fm_layer(         dense_input,         factor_size,         fm_param_attr=paddle.attr.Param(name="DenseFeatFactors"))     sparse_fm = fm_layer(         sparse_input,         factor_size,         fm_param_attr=paddle.attr.Param(name="SparseFeatFactors"))     def embedding_layer(input):         return paddle.layer.embedding(             input=input,             size=factor_size,             param_attr=paddle.attr.Param(name="SparseFeatFactors"))     sparse_embed_seq = map(embedding_layer, sparse_input_ids)     sparse_embed = paddle.layer.concat(sparse_embed_seq)      fc1 = paddle.layer.fc(         input=[sparse_embed, dense_input],         size=400,         act=paddle.activation.Relu())     fc2 = paddle.layer.fc(input=fc1, size=400, act=paddle.activation.Relu())     fc3 = paddle.layer.fc(input=fc2, size=400,            act=paddle.activation.Relu())      predict = paddle.layer.fc(         input=[dense_fm, sparse_fm, fc3],         size=1,         act=paddle.activation.Sigmoid())      if not infer:         label = paddle.layer.data(             name="label", type=paddle.data_type.dense_vector(1))         cost = paddle.layer.multi_binary_label_cross_entropy_cost(             input=predict, label=label)         paddle.evaluator.classification_error(             name="classification_error", input=predict, label=label)         paddle.evaluator.auc(name="auc", input=predict, label=label)          return cost     else:         return predict 

其中,主要包括三个部分,一个是多个fc组成的deep部分,第二个是sparse fm部分,然后是dense fm部分,如图:

这里蛮简单的,具体的api去查下文档就可以了,这里稍微说明一下的是,sparse feature这块有两部分一块是embedding的处理,这里是先生成对应的id,然后用id来做embedding,用作后面fc的输出,然后sparse_input是onehot表示用来作为fm的输出,fm来计算一阶和二阶隐变量关系。

模型训练

数据量太大,单机上跑是没有问题,可以正常运行成功,在我内部机器上,可以运行成功,但是有两个问题:

  1. fm由于处理的特征为稀疏表示,而paddlepaddle在这块的FM层的支持只有在cpu上,速度很慢,分析原因其实不是fm的速度的问题,因为deepfm有设计多个fc,应该是这里的速度影响, 在paddlepaddle github上有提一个issue,得知暂时paddlepaddle不能把部分放到gpu上面跑,给了一个解决方案把所有的sparse改成dense,发现在这里gpu显存hold不住;
  2. 我的机器太渣,因为有开发任务不能长期占用;

所以综上,我打算研究下在百度云上怎么通过k8s来布置paddlepaddle的分布式集群。

文档cloud.baidu.com/doc/CCE

研究来研究去,***步加卡主了,不知道怎么回事,那个页面就是出不来...出师未捷身先死,提了个issue: github.com/PaddlePaddle,等后面解决了再来更新分布式训练的部分。

单机的训练没有什么大的问题,由上面所说,因为fm的sparse不支持gpu,所以很慢,拉的百度云上16核的机器,大概36s/100 batch,总共样本4000多w,一个epoch预计4个小时,MMP,等吧,分布式的必要性就在这里。

另外有在paddlepaddle里面提一个issue:

github.com/PaddlePaddle,说把sparse转成dense的话可以直接在gpu上跑起来,这个看起来不值得去尝试,sparse整个维度还是挺高的,期待对sparse op 有更好的解决方案,更期待在能够把单层单层的放在gpu,多设备一起跑,这方面,TensorFlow和MXNet要好太多。

这里我遇到一个问题,我使用paddle的docker镜像的时候,可以很稳定的占用16个cpu的大部分计算力,但是我在云主机上自己装的时候,cpu占用率很低,可能是和我环境配置有点问题,这个问题不大,之后为了不污染环境主要用docker来做相关的开发工作,所以这里问题不大。

cpu占有率有比较明显的跳动,这里从主观上比TensorFlow稳定性要差一些,不排除是sparse op的影响,印象中,TensorFlow cpu的占用率很稳定。


到发这篇文章位置,跑到17300个batch,基本能达到auc为0.8左右,loss为0.208左右。

预测

预测代码和前一篇将paddle里面的demo一样,只需要,重新定义一下网络,然后绑定好模型训练得到的参数,然后传入数据即可完成inference,paddle,有专门的Inference接口,只要传入output_layer,和训练学习到的parameters,就可以很容易的新建一个模型的前向inference网络。

def infer():     args = parse_args()     paddle.init(use_gpu=False, trainer_count=1)     model = DeepFM(args.factor_size, infer=True)     parameters = paddle.parameters.Parameters.from_tar(         gzip.open(args.model_gz_path, 'r'))     inferer = paddle.inference.Inference(         output_layer=model, parameters=parameters)     dataset = reader.Dataset()     infer_reader = paddle.batch(dataset.infer(args.data_path),  batch_size=1000)     with open(args.prediction_output_path, 'w') as out:         for id, batch in enumerate(infer_reader()):             res = inferer.infer(input=batch)             predictions = [x for x in itertools.chain.from_iterable(res)]             out.write('\n'.join(map(str, predictions)) + '\n') 

总结

照例总结一下,DeemFM是17年深度学习在点击率预估、推荐这块的新的方法,有点类似于deep and wide的思想,将传统的fm来nn化,利用神经网络强大的建模能力来挖掘数据中的有效信息,paddlepaddle在这块有现成的deepfm模型,单机部署起来比较容易,分布式,这里我按照百度云上的教程还未成功,后续会持续关注。另外,因为最近在做大规模机器学习框架相关的工作,越发觉得别说成熟的,仅仅能够work的框架就很不错了,而比较好用的如现在的TensorFlow\MXNet,开发起来真的难上加难,以前光是做调包侠时没有体验,现在深入到这块的工作时,才知道其中的难度,也从另一个角度开始审视现在的各种大规模机器学习框架,比如TensorFlow、MXNet,在深度学习的支持上,确实很棒,但是也有瓶颈,对于大规模海量的feature,尤其是sparse op的支持上,至少现在还未看到特别好的支持,就比如这里的FM,可能大家都会吐槽为啥这么慢,没做框架之前,我也会吐槽,但是开始接触了一些的时候,才知道FM,主要focus在sparse相关的数据对象,而这部分数据很难在gpu上完成比较高性能的计算,所以前面经过paddle的开发者解释sparse相关的计算不支持gpu的时候,才感同身受,一个好的大规模机器学习框架必须要从不同目标来评价,如果需求是大规律数据,那稳定性、可扩展性是重点,如果是更多算法、模型的支持,可能现在的TensorFlow、MXNet才是标杆,多么希望现在大规模机器学习框架能够多元化的发展,有深度学习支持力度大的,也有传统算法上,把数据量、训练规模、并行化加速并做到***的,这样的发展才或许称得上百花齐放,其实我们不需要太多不同长相的TensorFlow、MXNet锤子,有时候我们就需要把镰刀而已,希望大规模机器学习框架的发展,不应该仅仅像TensorFlow、MXNet一样,希望有一个专注把做大规模、大数据量、***并行化加速作为roadmap的新标杆,加油。

责任编辑:张燕妮 来源: 小石头的码疯窝
相关推荐

2018-03-15 15:40:39

广告点击率PaddlePaddlTensorflow

2021-07-01 15:56:42

深度学习人工智能互联网

2021-11-12 15:16:32

深度学习数据合成人工智能

2024-10-08 08:19:19

2013-10-30 10:39:25

Banner

2011-06-20 15:55:14

SEO

2016-11-22 19:54:56

点击率预估推荐算法广告

2017-05-23 14:00:26

机器学习编程技术计算模型

2017-05-08 23:02:56

敏捷学习GitHubissue

2016-12-28 15:19:22

大数据机器学习销售预测

2009-09-28 10:40:28

.NET学习

2018-04-23 14:49:31

表征句子深度学习自然语言

2009-09-04 09:37:49

思科认证CCNA学习方法

2018-09-06 11:25:46

机器学习神经网络人工智能

2016-09-30 15:33:02

集成学习机器学习算法

2015-07-28 15:41:06

机器学习算法数据挖掘

2017-08-07 10:08:29

深度学习分类体系信息检索

2023-11-21 09:32:17

深度学习人工智能

2017-12-01 17:35:02

2017-11-27 15:24:02

Linux学习方法优势
点赞
收藏

51CTO技术栈公众号