【51CTO特约报道】2013年7月13-14日, 由阿里巴巴集团主办的ADC•阿里技术嘉年华将在杭州海外海国际会展中心举行,2011年举办首届,今年是第三届,已发展为互联网行业最开放、最实战派的技术交流盛会之一。被大家视为码农典范的技术大神MySQl的创始人Michael Widenius,将作为嘉宾现场分享。
本届嘉年华设置了大数据技术与应用、无线技术、业务架构&后端技术、前端技术、搜索、广告、体验设计、互联网测试、系统开发和运维等九大分场,共有80多个主题,其中包括了阿里巴巴、腾讯、百度及更多知名的互联网公司的在实践中积累起来的技术经验。比如阿里巴巴的去IOE、新浪微博的系统稳定性等主题都反映了业界的主流的工程技术方向。
这次是来自于一淘的技术专家陈曦(公达)给我们带来的课题:个性化搜索和应用,主要是挖掘用户的群体特性和购物倾向。建立一整套以数据驱动,合理的个性化特征体系和优化目标的个性化模型。解决个性化搜索中面临的一些重要问题:搜索结果的多样性,防止过度个性化。介绍个性化模型的算法、系统和可视化数据分析工具。
在演讲过程中,公达给大家介绍了为什么要做个性化搜索。首先是解决长尾需求,实现搜索结果多样性,再者就是满足用户隐含购物需求,缩短购物路径。所以,在我们购买T恤通过——T恤 女——T恤 女 甜美——T恤 女 甜美[50~100]这样的一个过程。
那么在什么时候我们才需要个性化呢?公达给我们一个用户意图分析模型来说明这个问题。
个性化搜索会针对用户的行为推荐,比如对于高档购买力的人和低档购买力的人推荐展示结构是不一样的。
个性化搜索系统主要是通过搜索基础数据,比如商品,用户以及Query来通过离线计算,这里又包括了全量数据处理,实时数据处理通过用户数据引擎和Query处理引擎发送到前端,当然也可以通过商品搜索引擎直接推送到前端。
公达还给出了一个购买力模型,主要是包括:类目价格分档、根据用户(购买,收藏,点击)宝贝的架构来计算用户+类目的购买力;利用;还有一个是利用协同过滤的思想,补充没行为的用户+类目的购买力。下面给出一个小编看不懂的模型:
个性化搜索还有个关键词偏好,一淘通过用户点击,购买,成交,收藏的商品标题挖掘用户所关注的语意单元的信息。这里公达给大家提供了官方思路:基于历史商品标题分词粒度的TF-IDF统计模式。那么这样问题在哪里呢?第一,粒度太细,用户在单个词上难有长期偏好,第二,词太多,存储空间大;第三,页面展示效果较凌乱。还有一个思路就是建立基于<user-商品>原始统计为基础的topic model的解决方案。
下面淘宝还分析了用户数据,主要是购买力和年龄的分布情况。