2. 用户体系
2.1 搭建流程
首先应该先确定用户动机,因为从用户的根本动机,我们才好做相应的推荐处理。
那么我们应该如何获取用户动机?只有一种方法,就是通过用户行为。所以我们应该优先建立用户行为体系,依据用户行为,分析用户动机;不管是主动动机还是被动动机,之后提取这些动机特征,结合用户物理属性,再进行后处理。
再有要将特征值加以过滤,分配权重,结合衰减因子进行最终输出。最终输出的结果应该分为基本属性、用户兴趣、用户关系及用户行为,结合所有综合分析用户动机,在适时的时候推荐合适的内容从而形成推荐最佳化的最终目的,让用户最小成本的获取信息。
所以在分析的时候,依据用户动机分析,推断我们应该注意的哪些环节点的哪些事情。
2.2 动机经典理论
在建立行为体系之前,一定要介绍动机和行为的关系。而又不得不介绍行为科学界一直以来的一个经典理论:“使用与满足”理论,该理论是1974年E·卡茨在其著作《个人对大众传播的使用》中被首先提出。
使用与满足理论是站在受众的立场上,通过分析受众对媒介的使用动机和获得需求满足来考察大众传播给人类带来的心理和行为上的效用。但同传统的讯息如何作用受众的思路不同:它强调受众的作用,突出受众的地位。该理论认为受众通过对媒介的积极使用,从而制约着媒介传播的过程,并指出使用媒介完全基于个人的需求和愿望。
E·卡茨将媒介接触行为概括为一个“社会因素+心理因素→媒介期待→媒介接触→需求满足”的因果连锁过程,提出了“使用与满足”过程的基本模式。经后人的补充和发展,综合提出“使用与满足”的过程:
- 人们接触使用传媒的目的都是为了满足自己的需要这种需求和社会因素、个人的心理因素有关。
- 人们接触和使用传媒的两个条件:接触媒介的可能性;媒介印象即受众对媒介满足需求的评价,这种媒介印象或成为评价是在过去媒介接触使用经验基础上形成的。
受众选择特定的媒介和内容并开始使用。
接触使用后的结果有两种:一种是满足需求,一种是未满足。
无论满足与否,都将影响到以后的媒介选择使用行为,人们根据满足结果来修正既有的媒介印象,不同程度上改变着对媒介的期待。
总结了使用与满足理论的要素,包括:
- 受众是主动的,对于大众媒介的使用是有目标的。
- 受众需要的满足和对媒介的选择间的联系中,受众拥有主动权。
- 媒介相互竞争以满足受众需要。
所以最终映射到网络,不难分析出用户使用网络一般是是为了:(1)人际交往;(2)打发时间;(3)搜寻信息;(4)方便快速;(5)信息分享;(6)自我表达;(7)娱乐放松。
社会心理学的理性行为理论和建立在该理论基础上的技术接受模型(Technology Acceptance Model,简称TAM)最早探究了哪些因素对人们有意识的行为产生影响。1989年,Davis在理性行为理论的基础上,针对技术接受和使用行为提出了技术接受模型:
TAM认为系统使用行为是由行为意向决定的,而行为意向由想用的态度和感知的有用性共同决定,想用的态度由感知的有用性和感知易用性共同决定,感知的有用性是由感知的易用性和外部变量共同决定,感知的易用性由外部变量决定的。
外部变量包括系统设计特征、用户特征(包括感知形式和其他个性特征)等,为技术接受模型中存在的内部信念、态度、意向和不同的个人之间的差异、环境约束、可控制的干扰因素之间建立起一种联系。
2.3 今日头条动机分析
理论介绍完毕,也应该从理论切入分析当前最厉害的内容推荐平台,也就是不得不提的今日头条了。那么从有限的研究论述当中,可以从已经成功的产品中获取到用户使用头条产品的相关动机大致是什么,以指导我们日后的产品方向。
头条相关的研究论文里的方法,也注明与附录3中,以供查看,下面将直接节选结论部分,以供参考。
今日头条流行的主要原因是抓住了受众对个性化需求的心理。对用户需求的研究结果表明,“个性化推荐”(60.79%)、“更新速度快”(60%)、“推送内容多(45.26%)是用户最为强烈的三种动机。
个性化主要体现在三个方面:
1. 频道定制:用户可以订阅自己感兴趣的频道(“今日头条”提供了社会、娱乐、政治、热点等48个频道),同时提供位置信息享受本地化新闻服务(还包含同城活动信息),而且“今日头条”也和微信一样开辟了自媒体平台,用户可关注自己感兴趣自媒体账号。
2. 个性化推荐:“今日头条”若在新闻标题最左方标注一个蓝色的“荐”字,则表示为是根据用户兴趣专门推荐的内容。“今日头条”的信息分发完全基于智能推荐,用户浏览、收藏、转发、评论每一条新闻的行为都会被记录,用户的阅读习惯、阅读时间、阅读位置也会被分析,两者结合形成“用户模型”。通过绑定社交媒体账号和大数据挖掘,后续还会根据用户使用产品的信息反馈(用户在“今日头条”上的“顶”、“踩”、“转发”、“收藏”等行为),不断进行算法的演进,用户分析越精准,推荐内容越来越精确。
3.个性化体验:服务性功能如“离线阅读”“同步收藏”“我的话题”“摘要模式”“阅读模式”“字体设置”都可以根据自己需求定制,体现了良好的用户体验。
更新方法主要分为以下三种:
1. 自动更新:手动更新以及推送更新。自动更新一般几分钟到几十分钟不等;
2. 手动更新的设置是为了满足用户实时对信息的需求,每一次刷新都会有8-12 条不等的信息;
3. 推送更新是将信息发送到用户手机通知上,一天大约 6-10条不等,主要为社会要闻。
并且头条为了满足碎片化阅读的需求,在新闻类型方面,新闻主要以消息和图片为主,鲜少特写、通讯和深度报道等传统意义上报纸的新闻体材,字数控制在1000字左右。
根据《今日头条年度数据报告》,衡量读者阅读习惯的有两个指标:第一个是平均停留时长,第二个是跳出率。1000字的文章跳出率是22.1%,平均停留时长是48.3秒。4000字的文章则刚好相反,跳出率高达65.8%,超过一半以上的人打开一篇文章发现太长后会选择跳出。可见1000字以内的文章的传播率会更高。
同时,头条还加入视频新闻;但并未像搜狐或是新浪客户端那样做成一个单独的功能,而是将其嵌入频道中。视频内容长度在1分钟以内,以减少流量的消耗,主要以轻松、搞笑的内容为主。
所以结合研究结论不难看出,头条用户的最大使用动机仍是精准的个性化推荐,也就是仍需要以精准的推荐为吸引用户打开的核心来源。
2.4 分析模型
由上图可知,我们应该依据已经成熟的用户行为,推断用户的动机因子,再推断至心里因素。实际来说是用户其实已经是带动机才打开APP,先依据有限的数据进行分析推荐,等有相关的行为之后,反推回去用户的动机,根据用户动机调整推荐内容,达到核心目的。
这么做的好处是什么呢?头条类产品全都是依托于用户行为,进行调整,但是用户行为实际是不准确的。心情好与不好看的内容,操作的流程细节,很可能都不一样;如果一味的只记录行为,只会不准确偏离。所以当我们记录了用户在任何情况之下的行为之后,反推回用户动机,进一步推回用户心里因素,依据心里结合喜好和行为,完成完美推荐。
前文理论中同样表明,是社会因素与心里因素决定动机,所以当行为习惯模型建立,社会因素已经量化的时候,只有心理因素是变量,那么我们也能分析出不同的心理因素,依据不同心理因素改变本次的推荐内容,我想应该会大大提升转化率,并且可能是目前头条产品所不具备的一个点。
结合常规的用户画像的相关属性,我们可以看到如下图(增加了购买):
所以两者,也就可以合并成为两条大的脉络,一条是实际,一条是内心,而我们是要依据实际行为猜测内心。两张图结合,将会无比清晰的阐述用户脉络和之间的关系:
用户的浏览行为反映了用户的兴趣,两者之间的关系具有如下特点:
不同年龄、性别、职业的用户偏好反映在用户对商品的浏览行为上;
用户偏好具有动态转移性,将其反映在用户兴趣度上,即若用户偏好发生转移,则原来的兴趣度值减少;
用户对感兴趣的商品会高频度地点击和浏览,假设用户对某种/某类商品的浏览时间越长、频率越高,顾客对该种/类商品越感兴趣,反映用户偏好的兴趣度值也会随之增加。
所以最终,我们会确定需要收集的量化数字,以代表行为的部分,反推分析,达到最终目标。
2.5 行为收集
一般情况下,动机拆分为媒介、社交和体验需求,分别代表的可能原因有:
- 媒介需求一般有:更新速度快、推送内容多;
- 社交需求一般有:社交性强、互动性强;
- 体验需求一般有:个性化推荐精准、智能搜索快速全面、操作方便、离线下载。
依据两种形式,主动行为和被动行为进行分类,主动行为就是用户主动自然操作,被动行为也就是APP人为增加拦截、问题、问卷等收集,所以整理一下我们通过不同动作需要收集的相关动作应该是,主动行为:
- 媒介:PUSH消息、打开时间;
- 社交:PUSH通知、分享、攒、回复、收藏、举报、等级;
- 体验:打开内容类型、内容载体、内容长度、历史搜索行为、历史打开偏好、间隔点击时间、滑动内容位置、阅读设置、下载缓存;
- 人口属性:年龄、性别、地区、收入、签名等;
- 周边场景:地理位置、网络环境、端、信号强度、耳机扬声器、高度等;
- 被动行为:增加拦截、询问兴趣区域、反馈、小问题、问卷、×、卸载等。
通过已经非常成熟的广告领域,可以参考到某些重要的信息,仍是我们的获取重要参考。例如用户来源追踪,以及跨域追踪,所谓跨域追踪是利用指的是比如你在百度上跳转到新浪,同样可以追踪到。利用的手段一般是cookie和缓存,前者一般是自带key,与用户关系不大。
2.6 后处理
后处理一般有三个环节,过滤、权重、衰减因素。过滤一般指过滤提取的无效特征或干扰数据,权重一般根据不同的行为偏好等因素综合考量后进行调整,衰减一般要考虑到用户某个兴趣会随时间延长而降低,相关变量是用户点击频率和浏览时长,依据相关变量进行调整遗忘因子系数。
还有一点是利用自然范数梯度下降算法,来进行准确度的修正。从技术方面来说都已经相对成熟,也有成熟算法,不多做阐述。
2.7 模型输出
所谓输出,实际是可依据上方分析后建模完成的相关体现。其作用是辅助我们发现问题,定位并解决。我们要考虑到时效性、便捷性、准确性等问题。
从效果来看是数据,从特征来看是标签。所以数据的展现要求的是可视化,以及灵活性,并且要准确,最小时间间隔维度不能过大。所以选定如:折线图、漏斗图、饼图、柱形图等常见格式,结合不同的区域位置和目的,实现最优展示方式选择。最小时间间隔可以有实时报表或半点报表,每日会汇总报表进行输出,设置相应阀值,波动过阀值后进行相应报警等机制处理。
那么用户标签,其实就是行为标签,依据行为进行计算贴合。是根据标签体系中的标签建设,在标签体系中所有标签二维化平铺,但是在用户体系中贴合的具体标签将有层级划分。其实两者不难发现是包含与被包含的关系,既整个标签体系给用户标签体系提供“素材”,而用户体系是直接拿来用,所以既然是使用者,就要有详细的层级以及权重计算,这个是非常重要,这与我们的终极目标有关。
我们希望知道用户被打上这个标签的背后动机是什么,不同内容之间一定存在某种弱关联,弱关联的发现是通过内容标签背后的二维化体系支撑;但是关联侧重和确定选择,是通过用户层级标签来做到的,最终借此我们就可以相应的给一部分猜测,并给予惊喜推荐,完成超越用户所想的目的。通过弱关联,我们还可以完成用户之间的相互推荐,或者用户聚类等工作,建立用户之间的关系网络,为搭建社交氛围做好铺垫。
上面是通过用户行为获取的标签,还有一部分是用户物理属性,也就是如性别、地区、客户端、网络环境等属性,尽量收集全,并且每日收集,记录维度以登陆时间为维度。最终行为标签与物理标签相结合,综合展示于内容标签及用户标签系统中。之后,需要根据用户的标签体系,通过算法分析用户性格,性格会帮我们在之后的个性化产品中不去招惹用户,让每个用户获有满足感。
至此,应输出的用户标签实际为四类,属性、兴趣、关系、行为,属性包含物理属性和性格属性,以上四个维度,有助于我们全方位分析用户,最终输出的应是用户动机的最大可能性猜测,猜测用户这次想看什么类型的内容,结合内容体系,进行推荐。
2.8 小结总结
本节阐述的是整个用户体系的搭建思路,包括之前的经典理论引用和搭建分析模型,最终到用户分析和输出展示形式,下面将阐述项目体系的搭建思路。
3. 项目体系
项目体系分为许多种,有商品、用户、内容、广告等,本文仅以内容作为搭建思路叙述。
3.1 内容特征
内容向量通常存在维数大的问题,即使去掉低频词和高报词等停用词后,仍然会有数万维的特征留下。为了提高机器学习的效率和精度,有必要降低文本向量的维数。特征选择是内容降维的有效方法。
具体做法是构造一个评估函数对特征向量中的所有特征逐一评分,选取分值高于设定阑值的特征。常用的评估函数有:文档频数、词频函数、TIFDF、期望交叉摘、CHI、信息增益、互信息等。虽然实验表明IG和CHI等基于信息熵的方法的可以取得较好的特征选择效果,但是计算费用高,系统开销大,使用起来浪费时间和资源。因此实际应用中,计算量较小、评估效果较好的TIFDF方法是非常可取的。
并且内容不仅是文字,仍会有图片、视频、语音等,对于这三者,因为维度完全不同,所以使用手段与方法也完全不同。
3.2 图片特征
将二维平面降维手段仍是标签,一般称为图片标注;标注方法可以简单分为基于模型学习的方法和基于实例检索的方法。
基于模型学习的方法具有较高的标注性能,但是模型训练的计算复杂性较高,不具备实战意义。基于实例检索的方法将图像标注问题看作图像检索问题,是基于数据驱动的模型方法。所以一般选择后者,其中算法也是层出不穷;提升准确性和过滤垃圾标签是共同目标,需要择优选择,方法和技术已经同样有许多种,不多做赘述。
3.3 视频特征
视频为三维载体,又增加了时间性质;常规手段有:将视频逐一降维成二维平面,也就是等分切割,转化为图片标注,即可。但是该方法成本巨大,在大量数据当中应用不现实。更加较为新兴手段有视频弹幕,弹幕是直接在视频上用户编辑的文字内容,类似字幕,将每时刻弹幕内容提取,直接把视频变为标签,按权重划分删除垃圾标签即可,较为简单高效。
3.4 音频特征
常见音频一般以脱口秀、音乐为主,其中标题提供的信息标签权重会非常大,但仍是有限的。所以对于脱口秀,衍生出了语音识别技术:将语音转化为文字信息进行标记。对于音乐,我们只能从其它手段进行补充。比如波形识别,一般音乐含有曲风、风格等属性,利用音频的波形识别技术可顺利获取相关标签。
3.5 评论特征
评论虽然是文字类型,但是由于评论都不可能过长,所以问题就会出现语义不完全,严重的数据稀疏问题。这里非常像微博,微博只有140个字,相对较少。所以针对微博的这种情况,也有许多新技术来进行改进。例如:通过拓展微博文本的特征,通过分析微博数据中的某些现象或特性等手段来改善数据稀疏问题;所以充分借鉴在微博领域中的研究成果利用,结合实际使用。
3.6 垃圾标签抵御
对于以上载体,不可避免的都会有垃圾标签的出现,不管是主动还是被动,所谓主动是由于识别率或技术局限性等问题,导致的垃圾标签的产生,对于被动更多的场景比如说是图片的水印,视频的广告或是由于恶意攻击、恶意添加等行为的产生,那么对于垃圾标签同样有许多手段进行相关抵御:
基于检测的垃圾标签抵御,通常分为两个阶段:首先,系统管理员可以手动标注垃圾标签或其对应的恶意用户,也可以由系统根据统计分析和机器学习的相关理论来自动识别出垃圾标签或其对应的恶意用户;然后,由系统做出响应,这种响应可以是在垃圾标签上做出标识,也可以是直接删除垃圾标签并调整搜索结果或者限制恶意用户的权限。
基于降级的抵御,是通过降低受垃圾标签污染的资源在用户搜索结果列表中排列的位置来实现对垃圾标签的抵御.利用特定的算法将那些受垃圾标签污染的资源排在结果列表中尽可能靠后的位置,这样用户就不会看到这些受污染资源。相关会有Coincidence—based模型、SpamClean模型、DSpam模型等对这种形式进行处理。
基于预防的垃圾标签抵御,统计表明,很大一部分的垃圾标签来自于僵尸网络中被控制的主机或者可以标注标签的自动化程序,这些主机或者程序可以根据攻击者的需要来产生大量垃圾标签,从而对社交网站中正常用户的标签服务构成威胁。
所以该手段主要是通过对产生标签的用户的权限进行隐藏或者限制从而抑制垃圾标签的出现,即确保每个标签的产生都来自于自然人而不是僵尸网络等.需要指出,目前基于预防的垃圾标签抵御方法的效果尚无法通过量化指标来衡量,这主要是因为无法统计因采用了此类方法而预防成功的垃圾标签的数量。
最终,标签的抵御效果可以由如下两个属性进行评价:服务执行效率与服务可用性。
3.7 模型输出
对于内容标签,综上有许多种方法,但是还有一条标签线是载体标签。所谓载体,纯文字、纯视频、纯图片相册、图文、视频文字、视频图片文字,主流常见的只有这三种。需要详细的进行展示,例如文字以千字为一档进行划分,比如1000字以下、1001-2000字等,图片以十张图为一档,视频以一分钟为一档,可以辅助我们进行内容效果评估。并且进一步结合用户实际场景,实际情况来进行推荐提供了又一维度。
所以最终输出应为内容类型、内容载体、内容分类以及内容适配场景,最终计算内容的核心亮点,以供于贴合用户群,结合用户动机,实现用户这次想看什么内容的需求供给,达到转化率最大化的目的。
3.8 小结总结
本节阐述了对于内容标签的搭建体系,针对不同的元素有不同的获取方式,其中对于垃圾标签的抵御也阐述相关手段和方法,最终的展现上仍要求可视化,对于了解某种内容的详细受众用户群,是有极大好处的,下一节将会阐述推荐流程中的核心流程,推荐环节。
附录3 今日头条心理动机研究
研究模型
“今日头条”用户的年龄,性别等人口统计特征和用户媒介偏好,自变量为“今日头条”用户的使用动机,中介变量为“今日头条”用户的使用态度,因变量为“今日头条”用户的使用行为。本研究的主要研究方向是利用使用态度这个中介变量研究使用动机(需求)对使用行为的影响。
控制变量
控制变量主要包括性别、年龄、教育程度、职业等人口统计学特征。
自变量——动机(需求)
根据“使用与满足”理论,用户是被看作有特定“需求”的个人,而他们接触媒介的活动被看作是基于某种特定的需求动机来“使用媒介”,最终使这些需求得到满足的过程。而这种特定的需求的产生,主要有两个方面:一个是社会因素,另一个是个人心理因素。
本研究从个人因素和社会因素出发,兼顾“今日头条”的用户体验(易用性、有用性)等方面,总结了用户使用“今日头条”的若干动机。本调查将用户使用今日头条的需求分为三个维度:媒介需求,社交需求,体验需求。
中介变量
本研究以用户对“今日头条”的使用态度(满意度)为中介变量。在理性行为理论和技术接受模型(TAM)中,中介变量包括两个方面:使用态度和行为意向。使用态度包含个人对某种使用行为所持的正面或负面的看法;行为意向反映个人从事某项行为的意愿。
但在社会心理学中,“态度”界定为个体对事物的反应方式,已经涵盖了行为意向的层面,通常体现在个体的信念,感觉或者行为倾向中。可见,“态度”已经涵盖了行为意向层面。所以本研究只以使用态度为中介变量,这里的“使用态度”是用户根据对“今日头条”的认知和使用经历对“今日头条”持有的正面或负面的看法。
因变量
因变量是“今日头条”用户的“使用行为”。这里的行为包括使用时长、使用频率、使用时间等问题。
统计分析
- 通过以下统计方法进行描述和分析:
- 统计描述分析(Descriptive Statistics):统计各变量的频数、比例、标准差和频率,来描述被测用户对的使用情况、使用动机、态度和行为等。
- 信度分析(Reliability Analysis):验证研究模型中的变量的信度分析,以衡量问卷的可靠性、一致性和稳定性。
- 相关分析(Correlation Analysis):用于分析两个或两组随机变量的关系,可以检测变量之间密切程度的一种统计方法。
- 交叉列表分析(Crosstabs):将两个或两个以上有一定联系的变量及其变量值按照一定的顺序交叉排列在一张统计表内,使各变量值成为不同变量的结点,从中分析变量之间的相关关系。
结论
整体来说用户使用动机为新闻推送的实时性,时效性,把握了当下的“短平快”的碎片化阅读趋势,信息类型以短消息、图片、视频为主。
从个人心理因素的角度来看,今日头条流行的主要原因是抓住了受众对个性化需求的心理。对用户需求的研究结果表明,“个性化推荐”(60.79%)、“更新速度快”(60%)、“推送内容多(45.26%)是用户最为强烈的三种动机。而“互动性强,评论转发收藏活跃”“操作方便阅读舒适”“离线下载,节省流量”占比较少,说明大部分用户不倾向于同意这是他们使用“今日头条”的动机。
这个结论也与“今日头条”的“个性化新闻推荐”的宣传理念和定位相符合。“今日头条”与其他新闻客户端相比,最大的优势就是它能够精确分析用户的阅读兴趣,并针对用户兴趣和需求对内容做更精细的传播,进行个性化推荐新闻。本研究结果也正说明,用户是基于个性化、实时性等方面的需求而选择“今日头条”。
本研究对“今日头条”用户的使用态度进行了均值比较。用户对“今日头条”积极态度的认同度均值为 3.77。从数据中看,“今日头条”的“更新速度快”“推送内容丰富”和“操作方便,阅读舒适”三项特性是最被用户所认可的。
其中,“更新速度快”为全表最高均值项3.87 分,证明“今日头条”注重新闻时效性,满足了用户第一时间看到新闻事件的需求。作为用户使用动机最强烈“个性化推荐精准”的均值仅为 3.69,低于3.77 的水平分,可见用户对“个性化推荐精准”的认同度不高。而此项也与动机的考察结果并不一致。
因为个性化推荐存在冷启动的弊端,即新用户刚开始没有可以利用的行为信息,无法了解用户的特点和需求,很难给出精确的推荐。所以不排除是用户在使用初期个性化推荐并不精准,但随着使用时间增加,系统有了用户的行为数据,个性化推荐会越来越精准的假设。
为了验证这个假设,本研究设计了使用态度与使用时间的交叉分析,探究是否随着使用时间的增加,对个性化推荐的满意度会有所提高。根据实验数据,使用今日头条一周以内的用户,对“个性化推荐精确”的满意度均值为3.64,使用三到六个月的用户满意度均值为3.73,而使用一年以上的用户满意度均值为 3.87,满意度均值随着使用时间的增长而整体呈上升趋势。
可见,使用时间越长,用户对“个性化推荐精准”的满意度越高。而且不只是“个性化推荐精准”这一项,“智能搜索快速全面”“操作方便,阅读舒适”两项都存在随着使用时间的增长,用户满意度增长的现象, 用户对“今日头条”消极态度的认同度为3.21。其中,“推广、广告太多”“标题党现象严重”“推送内容同质化严重,信息渠道变窄”三项是最被用户所认同的。
用户最不认同的三项分别是“图片过于血腥”“吐槽言辞过于激烈”“栏目划分缺乏个性”都低于 3.21的平均水平。可见,“今日头条”在监管黄色、暴力、血腥新闻方面卓有成效。
其中“推广、广告太多”为全表最高均值3.47,可见用户对“今日头条”的“推广、广告太多”感受颇为明显。根据笔者亲身试验,在“今日头条”的信息流中每六七条新闻中会参杂一条广告,感受还是比较强烈的。
同样,本研究也将消极态度与使用时间做了交叉分析。分析得出对“推广、广告太多”的认同度均值均随着使用时间的增长而整体呈下降趋势。可见,使用时间越长,越不觉得推广、广告太多。不排除是个性化推荐了解用户所需,调整了广告数量。不只是“推广、广告太多”这一项,其余“标题党现象严重”
“推送内容同质化严重,信息渠道变窄”“栏目划分缺乏个性”“吐槽言辞过于激烈”“订阅内容更新不及时”“图片过于血腥”都存在随着使用时间的增长,用户的认同度整体下降的趋势。
附录4 推荐系统中的常用方法
1. 基于内容推荐
基于内容的推荐是信息过滤技术的延续与发展,它是建立在项目的内容信息上作出推荐的,而不需要依据用户对项目的评价意见,更多地需要用机 器学习的方法从关于内容的特征描述的事例中得到用户的兴趣资料。
在基于内容的推荐系统中,项目或对象是通过相关的特征的属性来定义,系统基于用户评价对象 的特征,学习用户的兴趣,考察用户资料与待预测项目的相匹配程度。用户的资料模型取决于所用学习方法,常用的有决策树、神经网络和基于向量的表示方法等。 基于内容的用户资料是需要有用户的历史数据,用户资料模型可能随着用户的偏好改变而发生变化。
基于内容推荐方法的优点是:
- 不需要其它用户的数据,没有冷开始问题和稀疏问题。
- 能为具有特殊兴趣爱好的用户进行推荐。
- 能推荐新的或不是很流行的项目,没有新项目问题。
- 通过列出推荐项目的内容特征,可以解释为什么推荐那些项目。
- 已有比较好的技术,如关于分类学习方面的技术已相当成熟。
缺点是要求内容能容易抽取成有意义的特征,要求特征内容有良好的结构性,并且用户的口味必须能够用内容特征形式来表达,不能显式地得到其它用户的判断情况。
2. 协同过滤推荐
协同过滤推荐技术是推荐系统中应用最早和最为成功的技术之一。它一般采用最近邻技术,利用用户的历史喜好信息计算用户之间的距离,然后 利用目标用户的最近邻居用户对商品评价的加权评价值来预测目标用户对特定商品的喜好程度,系统从而根据这一喜好程度来对目标用户进行推荐。协同过滤最大优 点是对推荐对象没有特殊的要求,能处理非结构化的复杂对象,如音乐、电影。
协同过滤是基于这样的假设:为一用户找到他真正感兴趣的内容的好方法是首先找到与此用户有相似兴趣的其他用户,然后将他们感兴趣的内容推荐给此用户。其基本 思想非常易于理解,在日常生活中,我们往往会利用好朋友的推荐来进行一些选择。协同过滤正是把这一思想运用到电子商务推荐系统中来,基于其他用户对某一内 容的评价来向目标用户进行推荐。
基于协同过滤的推荐系统可以说是从用户的角度来进行相应推荐的,而且是自动的,即用户获得的推荐是系统从购买模式或浏览行为等隐式获得的,不需要用户努力地找到适合自己兴趣的推荐信息,如填写一些调查表格等。
和基于内容的过滤方法相比,协同过滤具有如下的优点:
能够过滤难以进行机器自动内容分析的信息,如艺术品,音乐等。
共享其他人的经验,避免了内容分析的不完全和不精确,并且能够基于一些复杂的,难以表述的概念(如信息质量、个人品味)进行过滤。
有推荐新信息的能力。可以发现内容上完全不相似的信息,用户对推荐信息的内容事先是预料不到的。这也是协同过滤和基于内容的过滤一个较大的差别,基于内容的过滤推荐很多都是用户本来就熟悉的内容,而协同过滤可以发现用户潜在的但自己尚未发现的兴趣偏好。
能够有效的使用其他相似用户的反馈信息,较少用户的反馈量,加快个性化学习的速度。
虽然协同过滤作为一种典型的推荐技术有其相当的应用,但协同过滤仍有许多的问题需要解决。最典型的问题有稀疏问题和可扩展问题。
3. 基于关联规则推荐
基于关联规则的推荐是以关联规则为基础,把已购商品作为规则头,规则体为推荐对象。关联规则挖掘可以发现不同商品在销售过程中的相关性,在零 售业中已经得到了成功的应用。管理规则就是在一个交易数据库中统计购买了商品集X的交易中有多大比例的交易同时购买了商品集Y,其直观的意义就是用户在购 买某些商品的时候有多大倾向去购买另外一些商品。比如购买牛奶的同时很多人会同时购买面包。
算法的第一步关联规则的发现最为关键且最耗时,是算法的瓶颈,但可以离线进行。其次,商品名称的同义性问题也是关联规则的一个难点。
4. 基于效用推荐
基于效用的推荐是建立在对用户使用项目的效用情况上计算的,其核心问题是怎么样为每一个用户去创建一个效用函数,因此,用户资料模型很大 程度上是由系统所采用的效用函数决定的。基于效用推荐的好处是它能把非产品的属性,如提供商的可靠性和产品的可得性等考虑到效用计算中。
5. 基于知识推荐
基于知识的推荐在某种程度是可以看成是一种推理技术,它不是建立在用户需要和偏好基础上推荐的。基于知识的方法因 它们所用的功能知识不同而有明显区别。效用知识是一种关于一个项目如何满足某一特定用户的知识,因此能解释需要和推荐的关系,所以用户资料可以是任何能支持推理的知识结构,它可以 是用户已经规范化的查询,也可以是一个更详细的用户需要的表示。
6. 组合推荐
由于各种推荐方法都有优缺点,所以在实际中,组合推荐经常被采用。研究和应用最多的是内容推荐和协同过滤推荐的组合。最简单的做法就是分别用基于内容的方法和协同过滤推荐方法 去产生一个推荐预测结果,然后用某方法组合其结果。尽管从理论上有很多种推荐组合方法,但在某一具体问题中并不见得都有效,组合推荐一个最重要原则就是通 过组合后要能避免或弥补各自推荐技术的弱点。
在组合方式上,有研究人员提出了七种组合思路:
- 加权:加权多种推荐技术结果。
- 变换:根据问题背景和实际情况或要求决定变换采用不同的推荐技术。
- 混合:同时采用多种推荐技术给出多种推荐结果为用户提供参考。
- 特征组合:组合来自不同推荐数据源的特征被另一种推荐算法所采用。
- 层叠:先用一种推荐技术产生一种粗糙的推荐结果,第二种推荐技术在此推荐结果的基础上进一步作出更精确的推荐。
- 特征扩充:一种技术产生附加的特征信息嵌入到另一种推荐技术的特征输入中。
- 元级别:用一种推荐方法产生的模型作为另一种推荐方法的输入。