6月21日,WOT2019全球技术峰会暨全球人工智能技术峰会在北京粤财JW万豪酒店隆重举行。本次峰会围绕人工智能领域的通用技术、应用领域以及企业赋能三大主题展开,每个主题设置四大专场,涵盖机器学习实践、知识图谱技术、AI智造、智能安防、智能金融、智能商业创新、智能行业赋能等,共计12大专场,42个话题的分享与讨论。6月21日下午,通用技术主题峰会正式拉开帷幕,机器学习实践、搜索推荐算法、知识图谱技术、NLP和语音识别四大专场同时进行,十几位讲师为与会嘉宾带来精彩的技术分享。
当前,基于人工智能的搜索推荐算法逐渐占据上风。如何结合自身业务数据的特点,设计合适的深度推荐与搜索算法,同时设计合理的架构保证算法的稳定运行,是搜索推荐算法专场的主要关注点。在6月21日下午的搜索推荐算法分论坛上,来自第四范式推荐业务算法团队负责人程晓澄、荔枝FM推荐系统架构师庄正中和金山西山居游戏AI技术专家黄鸿波,从不同的应用场景出发,详细解读了搜索推荐算法在不同领域的实践应用与落地案例。
程晓澄:搭建现代推荐系统需要迈过哪些难关
作为本场论坛的首位演讲嘉宾,第四范式推荐业务算法团队负责人程晓澄带来了《搭建现代推荐系统需要迈过哪些难关》的主题分享,介绍了当前推荐系统如何同时服务于用户增长、商业变现、用户体验等多元化的目标,阐述了推荐系统各模块的发展现状,以及各个环节工程落地的难点。
推荐系统对商业效率的提升已有诸多验证,在内容阅读场景中,通过推荐系统让产品流量和收入大幅提升的案例不乏少数。随着推荐系统的发展和成熟,商业应用对推荐系统提出了更高的要求。
程晓澄表示,推荐是门槛相对较高的技术,从头开始起步难度较高,而通过云服务的推荐系统,可以帮助其他企业快速布局推荐业务,提升他们的转化和收入。他认为,要把推荐做成一个比较先进的系统,需要分成三个维度:一是从业务维度看核心算法;二是从算法维度看怎样服务好目标;三是从工程落地维度看最核心的内容是什么。
在接下来的时间里,程晓澄从业务语言讲起,详细介绍了推荐系统的搭建过程。
程晓澄表示,大部分需要推荐的场景、推荐的产品,追根溯源到商业模式上就是流量变现,流量变现又分为流量和商业目标两个部分。从流量角度来讲,就是指产品有多少人使用,使用时间是多长;从商业目标来讲,就是在流量基础上实现了多少收入。程晓澄强调,可以把流量变现看成一个漏斗,上层要有大量数据,有了数据量才能更快的出效果。接下来,必须要做好产品,并根据用户的行为进行精准的内容推送,提高产品体验,关注产品增长。完成这两步之后,就需要考虑产品变现了,这就需要对付费项目进行优化,把算法能力输出到广告场景上,以此来提高点击率、转化率等等。
从算法角度来讲,召回、模型、干预是最基本的三步推荐流程。推荐就是指选出适合用户的时段进行推荐,占满一屏内容;模型是指算法工程师根据业务去建立一套算法模型,并根据不同业务采用不同的算法模型。最后,要在业务的各个环节中实施干预。
程晓澄表示,一个成功的推荐系统一要对目标的设定足够清晰,且目标要衡量、要量化;二是推荐的物料要足够丰富;三是对产品的指标和优化要有一定层次的理解。他强调,从方法论来讲,推荐应该尊重经验进行优化,因为算法是一个实验科学,对好的项目来讲每个idea来自于观察提出的假设,基于假设想出的一个优化方案策略,而这个策略是否真的生效,最终还需要验证。所以,一个理想的、高效的场合,能够同时进行几个或者十几个实验同时在线上跑。
庄正中:荔枝APP的UGC推荐系统探索与实践
接下来,荔枝FM推荐系统架构师庄正中带来了《荔枝APP的UGC推荐系统探索与实践》的主题演讲。他首先介绍了荔枝的推荐理念,以及内容理解、用户理解、算法模型和交互设计四大关注点;随后介绍了荔枝推荐系统的主要架构,在音频推荐系统建设中遇到的难点和应对策略,以及提取音频内容特征和新声音发现机制。
庄正中表示,作为一家以音频为媒介传播的UGC平台,公司对于平台推荐的理念有三个方面的理解:一是带用户听见世界;二是发现用户声音的才华;三是让用户更轻松的表达自己的声音。以带用户听见世界为例,其实就是建立用户到内容的连接,可以把推荐系统看成点到点的图模,把用户看成一个结点,推荐系统要做的事情就是把更多的用户结点,连接上更多的内容结点,同时让用户结点产生观众,增加结点之间的数量和长度。在这个过程中,推荐算法是推荐系统中间的一个环节。
而关于发现声音的才华,就是让用户利用平台来展现自己,表现自己的才华。由于每天都会产生很多新用户,就要解决资源与用户需求分配的问题,所以推荐算法怎样最合理的去分配固定资源,使得平台整体收益最大化,这就是算法所做的工作。
在接下来的时间里,庄正中结合荔枝的一些实践,从音频处理、探索新应用、发现声音的价值三个方面深入解读了荔枝推荐的一些做法和经验。他表示,在算法上荔枝更加关注怎样帮助长尾新内容的发掘更加公平,因为很多推荐算法的长尾能力很差,热度效应很重,会不断的强化系统的马太效应,会非常依赖头部主播,因此对内容提出了动态权重。在内容理解和新内容发现上,首先通过不同的算法进行语音识别,然后对内容进行分类处理,再次设定不同的关健词以方便搜索,最后是对内容进行重新定义,适合什么样的场景、什么样的人群听。
据庄正中介绍,荔枝会通过二个体系来分析新内容的好坏,一是主播的价值体系,所有用户的行为反馈都会反向到主播身上,用来评价主播好坏;二是塑造漏斗模型,不断把粉丝的内容和用户吸引过来。
据了解,荔枝的发现系统(即推荐系统)首先会进行内容分析和流量测试,通过配制不同的流量测试通道在不同的引擎曝光,每个引擎用算法同时提供。对于算法的好坏,会有两个判断指标,一是CTR有没有达到平均值,二是对内容进行评估。当然,这些都是由数据分析来支撑的,因此能否保证数据的实时性,能否收集到想要的数据,数据的正确性是否能够保证,都是基于内容的推荐算法。
最后,庄正中从一个新节目的制作过程,详细介绍了推荐算法的实施过程,并着重介绍了一些典型的推荐策略,例如用强化学习应对用户兴趣探索的Explore&Exploit算法,采用DSSM做长尾召回的尝试,参数降维的FFM排序算法,产品运营策略+机器学习的融合模型排序等。庄正中表示,推荐系统的最终目标是让主播觉得有希望,让用户发现新内容,最后衡量内容的好坏,衡量系统的多样性,这即是荔枝推荐系统的一个公平性的指标。
黄鸿波:推荐系统在“剑网3推栏”项目中的落地
作为压轴分享嘉宾,金山西山居游戏AI技术专家黄鸿波分享了推荐系统在“剑网3推栏”项目中的落地经验。他表示,游戏娱乐也是推荐系统的重要应用场景之一, “剑网3推栏”是《剑网3》玩家首选的娱乐聚集地,集官方资讯、趣味内容、玩家社交、创作分析、专业工具、游戏视频和辅助工具于一体,提供实时专业的竞技数据,游戏互通的社交服务APP。
黄鸿波围绕特征选取、离线计算和在线预测三大阶段,分享了如何进行千人千面、个性化的消息推荐,并结合“剑网3推栏”项目的落地经验,详细讲解了推荐系统的架构、流程,总结了常见的各种问题和破解方法。
“剑网3推栏”的推荐系统架构流程是用户进入AI交互界面之后,每次点击或者评论,都会记录用户的行为,并把用户行为放到数据中台中,进行数据存储和整合,包括在线行为和离线行为;之后,通过一套专业算法对在线和离线数据进行计算;最后,将计算结果进行排序。黄鸿波表示,推栏推荐系统架构会遵循多模型联合分数归一化策略。据介绍,所谓归一化就是指把所有值压缩到一个相同的区间内,保证数据在同一个可以被比较的区间中进行比较,进行倒叙排序,并得到最终结果。
通过推栏推荐系统架构流程,剑网3的点击率提高了53%,阅读率提高了11%,定赞数达到了15%,评论数达到了4%,收藏量达到了22%。
在演讲最后,黄鸿波重点分享了召回结果不均衡的问题及解决策略。他表示,召回结果不均衡主要是召回数量过多和召回数量过少,“剑网3推栏”的解决策略是使用多模型联合,由于每种模型都有一个数据级结果,且数据级结果的交集点击率会相对较高,因此可以通过多模型联合分数归一化策略进行排序和补充。如果召回数量过多,可以按照分数从后到前删除。如果召回数量过少,根本原因是由于模型质量导致,这时可以通过增加召回算法和扩大参数,用增量纬度等方式使召回算法由少变多,对召回数量进行补充之后,再使用排序策略进行排序,得到想要的结果。