当消费者在电商网站搜索喜好商品时,会看到在页面周边的一些推荐。这些推荐商品中可能是消费者现在需要的,也可能是曾经搜索过的。这一现象背后如果没有强大技术支持,就不会在精准推送的同时还能够保证消费者的体验度。在51CTO举办的WOT2015互联网开发者大会上京东推荐搜索部技术总监刘尚堃给分享了《京东数据驱动下的个性化推荐系统》,51CTO记者也在大会现场对其进行了专访。接下来就来领略身为国内最大自营B2C平台京东是通过哪些技术对消费者进行精准的个性化推荐的?
【受访者简介】
刘尚堃·京东推荐搜索部技术总监
刘尚堃,京东推荐搜索部技术总监,有七年B2C行业搜索经验。目前负责搜索引擎、推荐方面的产品研发和团队管理工作。他领导团队将推荐搜索技术应用于京东各个品牌的支持当中,包括移动端的平台、以及PC端平台、以及微信平台全部的推荐业务和场景。
个性化推荐简述
个性化推荐就是通过全方位的数据精准刻画用户的购买意图,然后有针对性给用户推荐用户购买意愿高的商品,为用户提供极致的产品体验,提升下单转化率,增强用户粘性。个性化推荐模型分为召回和排序两大类,刘尚堃在采访中,通过举例详细的讲解了这两大类模型。
召回模型
召回模型就是选举推荐的侯选,京东主要用到基于行为的召回模型,其分为近期和长期两种,其他还有基于偏好、基于地域等。
基于行为
基于近期行为的召回模型:例如一个用户喜欢最近浏览一些炒股类的书籍,那么就会给这个用户推荐一些他可能感兴趣的其他炒股书籍。像这样就尤其是最近发生的行为,这样的情况就叫做近期行为的相似商品推荐。例如一个用户买了一本《秘密花园》,这时候就会马上给用户推荐彩色笔。像这样的情况就叫做近期行为的商品购买搭配推荐。刘尚堃表示:“基于近期行为的在线算法是最基础最好用同时也是转化率最高的”。
长尾商品的搭配
基于中长期行为的召回模型:中长期的行为通常在半年左右,可以用浏览相似、离线购买搭配和离线的SVD。当在做搭配的时会有一些小Trick。因为京东的商品比较丰富,其中有些新商品没有用户行为。针对这样的情况,利用购物篮分析,建立产品和产品之间的关系。把这些关系应用到个性化推荐中去,提升长尾商品的搭配覆盖率。
基于偏好
基于偏好也就是用户画像:比如女孩又比较喜欢化妆品买衣服,那么就会根据她在京东过去的一些行为,针对兴趣爱好进行推荐。当然在推荐的时候,还要考虑到用户的购买力,敏感度等问题。如果用户特别钟爱户外用品,这就是用户的偏好。喜欢韩版衣服,这是用户的修饰的偏好。当不知道用户喜欢什么产品,也不知道什么兴趣爱好甚至偏好时,就会通过一些算法来预测你感兴趣的产品。基于大数据从海量的其他用户中挖掘最接近的一个用户,看看他喜欢什么样的东西,他的兴趣是什么,他的品牌是什么,然后再传递给用户。
基于地域:京东有很多配送地,可以把一些区域做一些建模,比如说三里屯地区扑克牌、色子买的人比较多,因为有人需要它们给女孩变魔术。还有一些别的地区,也可能有类似这样的偏向于某一种消费品。通过区域划分可以获得很多的信息,比如购买力,就拿万国城和史个庄相比,万国城的消费程度比较高,就推荐一些高价位的商品。地域模型主要还可以用在没有任何消费行为的新用户上,就拿一名从来没有在京东上购买过商品的学来说,如果他是清华大学这个区域,就推荐一些比较有难度的考研题目,或四六级书籍。如果是北京联合大学的学生,就相对应简单一些。
排序模型
当积累一定的用户和流量,有一定点击和购买之后,就需用到排序算法。
排序学习
标记:Point、pair、wise。第一步是做模型选取,因为模型有不同的特征和特性需要选取模型。第二是根据选取的模型进行标注,如果是Point标注,是选取正例和负例,如果是pair wise标注方法是,比如用ABCD四个商品,A没有任何操作,B点击了,C购买了,D没有任何操作,那么就是点击了BA,那么BA就是一个正例。CA因为是实际购买的,是正例,还有CB由于C是购买,B是点击,购买比点击更重要一些,CB也是正例,CD也是一个正例。后面的Tao是比较重要的程度。
特征计算:召回模型标记特征,在线相似、在线相关、离线相似、离线相关,基于用户画像的召回和基于地域的召回,从哪个模型召回,这是我们重要的内容。商业模型,比如某一个商品是大品牌还是小品牌等。用户特征,实际上是对用户画像的维度,用户的性别和购买力,还有用户之前点击的商品以及之前购买的商品是什么等。商品特征,,商品的销量数,价格区间等。、上下文特征,指的是用户之前和之后一系列的操作等。时间特征,什么时间点对这个商品进行了点击和购买等。地域特征、季节特征等。
离线计算和在线计算
离线计算,数据存在Data Mart,通过Hadoop上面运行Map Reduce,另外大量通过Mahout和Spark,通过分布式任务调度系统将输送的结果存入HBase当中。
在线计算计算流程,通过Kafka接收消息存入HBase当中,在线计算主要基于Storm,实时消息基于Kafka是150亿+消息的处理。
未来突破点
当问及未来针对个性化推荐系统从哪个角度去突破时候,刘尚堃这样说:“个性化推荐会达到一定瓶颈是肯定的,不敢说在机器学习、推荐搜索算法上,已经达到了一个什么样的高度。因为在前面有很多巨头,包括国外也有不断地出现一些新的技术。京东推荐部门经过了几年的发展不断的趋向完美,在资深团队成长的同时还有来自新浪谷歌的科学家加入。在过去,京东关更多关注的是推荐系统怎么去带动京东的销售,怎么帮助网站提高转化率。在未来,需要更多考虑的是体验类的指标,就是怎么去提升用户体验度。”
个性化推荐助力618大促
当提及今年的618大促,刘尚堃说:“在过去,618是对京东系统的一次考验或者压力测试。但现在随着京东系统的技术成熟,从2014年开始,618更像是一次Party。可以从中结识新朋友、新人可从中学到知识。在个性化推荐方面,今年针对618设立了特别的场景并进行优化和提升,达到千人千面“。
写在最后:
一路走来京东个性化推荐有着突飞猛进的发展,后续还会从用户体验度出发,研发一些有惊喜度或者吸引人的产品。采访最后,刘尚堃表示“京东下半年准备直接在用户没有下单情况下,利用大数据技术直接将商品给到用户,当然用户也可以拒收,这开始会在小范围实施”。可以设想一下,你需要的商品不用通过下单,就会送上门来。那时候是怎样一番情景?