文本推荐作为推荐系统的一个应用场景,有着成功的商业化落地实践。最为大家熟知的文本推荐系统是今日头条的新闻推荐。其他的新闻门户网站例如腾迅新闻和网易新闻,也都将文本推荐作为自己产品不可分割的一部分。
文本推荐不仅可以用来进行新闻推荐,也可以用来支持其他产品例如问答推荐。国外有一些公司的主要业务甚至就是文本推荐,比如有一家名为 Outbrain 的公司,专门为各大网站提供文本推荐服务。
下面我们按照时间发展脉络来看五个文本推荐的成功应用案例。
一、Google 新闻推荐系统
2010 年 Jiahui Liu 等人发表的论文 Personalized News Recommendation based on Click Behavior 是文本推荐领域的经典之作。作者用非常简单的方式设计了 Google 新闻推荐系统。该系统采用的方法是简单的协同过滤和 SVD 分解,外加对于用户个人和群体喜好的历史统计信息。这种方式一方面解决了推荐本身这个问题,另一方面解决了新闻中存在的马太效应问题。
二、纽约时报推荐系统
纽约时报的推荐系统源于普林斯顿大学和微软的研究人员对于文本推荐的研究工作。2011 年 Chong Wang 等人在论文 Collaborative Topic Modeling for Recommending Scientific Articles提出了 Collaborative Topic Regression 模型。该模型结合了协同过滤和主题模型,概率图模型如图1所示。
图 1. Collaborative Topic Regression 概率图模型
Collaborative Topic Regression 及其后续的研发工作成就了纽约时报的新闻推荐系统。
三、百度知道问答推荐系统
2012 年和 2014 年百度分别在 ACM RecSys 和 ACM SAC 上发表了两篇论文,描述了百度知道问答推荐系统是如何构建的。百度知道的推荐系统采用了混合模型,结合了线性模型和非线性模型,利用了自然语言处理中关键词提取等技术。
图2. 百度知道问答推荐系统架构
百度知道问答推荐系统的关键是线性模型的特征工程以及自然语言处理的相关技术。
四、协同深度学习
2015 年 Hao Wang 等人在数据挖掘的顶级会议 KDD 上发表了文章 Collaborative Deep Learning for Recommender Systems。作者结合了协同过滤和 stacked denoising autoencoder 设计了文本推荐的混合模型。混合模型的概率图模型如图2所示。
图2. 协同深度学习的概率图模型
五、基于 GRU 的深度文本模型
2016 年 Trapit Bansal 等人在 ACM RecSys 会议上发表论文 Ask the GRU: Multi-task Learning for Deep Text Recommendations,提出了基于 GRU 的文本推荐模型(如图3所示)。
图3. 基于 GRU文本推荐模型的深度神经网络结构
文本推荐是推荐系统的一个重要分支,采用了丰富的机器学习和自然语言处理技术,被广泛应用于新闻和问答等领域。近年来随着深度学习的崛起,人工智能的新技术也对文本推荐的发展起到了推波助澜的作用。
随着今日头条的发展壮大,许多新闻媒体网站也意识到了文本推荐的重要性,百度、腾讯、网易等公司都在相关领域加大了人力物力的投入。随着产品的创新和技术的进步,文本推荐将会给我们的生活带来更多的惊喜和便利。
汪昊,恒昌利通大数据部负责人,美国犹他大学硕士,在百度,新浪,网易,豆瓣等公司有多年的研发和技术管理经验,擅长机器学习,大数据,推荐系统,社交网络分析,计算机图形学,可视化等技术。在 TVCG 和 ASONAM 等国际会议和期刊发表论文 5 篇。本科毕业论文获国际会议 IEEE SMI 2008 最佳论文奖。