新浪微博胡南炜:深度学习在微博信息流推荐中的实践

原创
云计算
2017年12月01日-02日,由51CTO主办的WOTD全球软件开发技术峰会将在深圳中州万豪酒店隆重举行。本次峰会以软件开发为主题,数十位专家级嘉宾将带来多场精彩的技术内容分享。届时,新浪微博 机器学习资深架构师胡南炜将在深度学习与智能应用开发分会场与来宾分享"深度学习在微博信息流推荐系统的实践与应用"主题演讲。

【51CTO.com原创稿件】2017年12月01日-02日,由51CTO主办的WOTD全球软件开发技术峰会将在深圳中州万豪酒店隆重举行。本次峰会以软件开发为主题,数十位专家级嘉宾将带来多场精彩的技术内容分享。届时,新浪微博 机器学习资深架构师胡南炜将在深度学习与智能应用开发分会场与来宾分享"深度学习在微博信息流推荐系统的实践与应用"主题演讲,为大家详细阐述新浪微博团队在微博信息流推荐系统中是如何应用深度学习的。51CTO诚邀您莅临大会,与我们共享技术带来的喜悦。

51CTO记者对即将参加大会演讲的胡南炜老师进行了专访,让我们先睹为快,探听一下他是如何解读深度学习的。

复杂的场景需要深度学习技术

移动时代人们对信息内容的获取和阅读已经发生了巨大变化。信息流推荐是社会化推荐领域一个相对比较新颖的话题。人工智能技术正在改变人与信息的连接方式,也大大提高了内容创作、审核、分发、消费、互动的效率和质量。

微博本身的信息流推荐从自身特点来说,传统的机器学习已经不能满足海量用户,复杂场景以及更加强烈的个性化消费需求。因此,新浪微博团队的注意力也逐渐从传统机器学习转到深度学习领域。在深度学习比较擅长的图像、视频和语音等领域,新浪微博已经有成型的产品或者已经在默默地在为广大微博用户提供优质服务。同时,在深度学习应用相对较少的领域,新浪微博也投入很大的研发精力,深挖高维度微博产品特征,相应的推荐产品相信已经应用到微博用户的日常生活中了。

目前,基于深度学习的微博信息流推荐系统主要用于推荐,例如主Feed推荐、热门微博推荐、Push推荐等。其特点有:

1. 大样本量,单次训练样本量可以达到5000亿以上规模。

2. 大特征维度特征维度,可以达到10亿维度以上。

3. 特征类别复杂,有微博特征、用户特征、关系特征、转评赞特征、互动特征、曝光特征、图片特征、视频特征等等。

深度学习的本质就是学习特征。深度学习通过逐层学习,自动从原始数据中学习到一些不易变化的潜在的高层特征,然后基于这些高层特征,进行分类等学习任务。传统机器学习需要大量的特征工程工作,有时候机器学习的效果跟抽取的特征好坏密切相关,很多时候由于一些潜在的特征很难抽取,导致学习效果不佳。

胡南炜

宽度和深度模型

CNN就是一个例子,如下图所示,它通过卷积和池化,可以从原生像素中抽取某类图像通用的高层特征(比如鸟喙、翅膀、鸟爪等),然后根据这些特征去识别一张图像是不是一只鸟。总之,深度学习通过特征学习,使学习更容易达到较好的效果。

胡南炜

虽然理论上浅层的神经网络也可以模拟任何复杂的函数,但是对于很多复杂的问题,深度学习的效率更高,深度学习可以以更少的参数表示更复杂的函数。

易于业务快速训练和迭代的CTR训练套件

新浪微博团队参考Wide & Deep Learning模型,并结合微博场景下相关推荐业务的需求与特点,将连续、离散、文本和标签等特征的处理,以及网络结构参数、模型导出和预测进行标准化,开发了易于业务快速训练和迭代的深度学习CTR训练套件。

此套件有以下三大特点:

1.配置化:不用写程序,只需写xml配置文件即可进行模型训练。

2.集成化:主要体现在数据端、运行环境和在线预测三方面的集成。

数据端集成为微博特有特征(如标签)订制各种网络结构。运行环境集成的目的是与微博内部的多个训练集群打通,隐藏各调度系统的差异性。在线预测集成则是和在线预测系统和模型存储系统打通,无缝对接离线训练和在线预测。

3.可视化:利用tensor board特性,订制微博特有数据的可视化功能。

通过应用深度学习,新浪微博信息流推荐系统的特征维度达到亿级+维度以上,样本规模达到数千亿以上规模。已经在离线训练和评估中采用了深度学习模型,实现了分布式和大规模的深度学习模型训练。现在正在评估小流量在线测试的效果并打算大规模的应用。

【讲师简介】

[[209956]]

胡南炜,资深架构师,微博机器学习计算和服务平台负责人。博士毕业于北京航空航天大学计算机科学和工程系,多年软件工程研发和互联网从业经验,个人技术专长为大数据,云计算技术和机器学习。2014年加入微博,负责微博机器学习计算和服务平台开发。在此之前,曾经在IBM,Yahoo等公司工作。

WOT

使用双十一特别优惠码[B310BD20D337F914] 立减200元,和我一起去WOTD全球软件开发技术峰会!详情点击wot.51cto.com

【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】

责任编辑:赵立京 来源: 51CTO
相关推荐

2015-09-24 18:08:50

微博架构架构演进架构

2017-04-15 21:36:05

微服务新浪微博WOT

2013-07-10 14:15:38

php新浪微博

2017-10-13 13:13:14

人工智能深度学习微博

2015-12-21 09:39:31

2011-12-08 16:31:43

新浪微博开放平台

2017-04-27 11:15:05

新浪微博LNMP架构侯青龙

2011-12-08 16:51:55

新浪微博开放平台

2018-05-16 14:04:05

人工智能新浪微博实时流计算

2018-08-06 10:50:02

新浪微博短视频

2013-07-01 18:34:47

个推案例新浪微博

2011-12-08 16:10:18

2015-01-21 15:28:16

Android源码新浪微博

2012-07-12 15:00:26

漏洞账号错乱新浪微博

2011-12-20 09:54:43

微博

2020-09-07 14:00:23

腾讯微博微信互联网

2013-07-16 15:21:53

微微博新浪微博AndroidAndroid开发学习

2017-04-27 14:43:53

新浪微博LNMP架构侯青龙

2013-03-20 10:09:22

微博风云大数据社会化数据分析

2011-08-30 14:48:02

点赞
收藏

51CTO技术栈公众号