51CTO 网+第八期线下公开课干货分享:移动时代的数据挖掘和行为分析

原创
新闻
作为今年的收官之作,本次51CTO 网+线下公开课邀请到TalkingData、微软、友盟等专注于移动领域数据挖掘和行为分析的三位一线专家,为大家全面解读移动方向的自定义模块化功能的设计思路、数据挖掘清洗、用户行为分析的关键。

 12月26日,逼走了圣诞老人的雾霾依然猖狂。然而,它却阻挡不了百位移动开发者参加51CTO 网+第八期线下公开课的热情。

2015年,得移动者得天下的态势愈加明显。对海量用户数据实现有效的挖掘和行为分析,对实现移动端业务的迅速增长至关重要。作为今年的收官之作,本次51CTO 网+线下公开课邀请到TalkingData、微软、友盟等专注于移动领域数据挖掘和行为分析的三位一线专家,为大家全面解读移动方向的自定义模块化功能的设计思路、数据挖掘清洗、用户行为分析的关键。

首先进行分享的是来自友盟的高级数据挖掘工程师王琪,与大家分享友盟在移动端进行多维度用户数据分析的实践经验和思考。

友盟高级数据挖掘工程师 王琪

王琪讲到,数据分析通过抽样统计的方式实现。只有当数据量足够大时,我们对用户的刻画才能更准确,更全面。那我们应该依靠哪些维度建立模型,才能从数据沙漠中找到绿洲呢?

用户分析的几个维度

用户的唯一标识

在许多现实问题下,移动互联网用户唯一标示的工作非常困难:

  • 安卓山寨多,多种ROM,各种安卓系统的设备泛滥,同寨机共用IMEI,刷机ROM导致MAC一样
  • 苹果系统封闭,可用的设备标识一直在变

对此,王琪提出了改进设备标识的两个思路:

性别预测

性别预测是最为常见的问题。用户会在移动端安装各种和各样的APP,我们如何识别使用安装了这些应用的设备的用户,是妹子还是猛男?

性别预测思考:

  1. 数据>算法,数据假设;
  2. 数据预处理70%+模型,算法,评估30%;
  3. 生产工具的发展 =》生产力的提高

兴趣识别

兴趣的识别直接关系着广告的精准推送问题。王琪分享了友盟的兴趣标签架构、兴趣标签场景,为大家提供借鉴和参考。

图:用户分析----兴趣标签架构

在建立兴趣标签时,王琪建议大家在这些层面上思考:

  • 长期兴趣和短期兴趣
  • 标签体系的可扩展性
  • 标签效果的评估

低质量用户的识别(刷量分析)

快速且低成本实现用户增长的利益驱动下,业界不断有通过刷新增、刷活跃、刷留存来骗投资人、骗老板、骗广告的黑色产业链存在。确实,只要有利益,就会有作弊;但只要有作弊,就会有反作弊。

对于识别低质量的用户,友盟设计出设备评级的方案,对APP的渠道质量进行评估,对用户设备进行评级。

图:低质量用户的识别----设备评级

第二位出场的是微软(中国)有限公司开发者体验和平台合作事业部 高级技术平台顾问梁健与大家分享在万众创新、万物互联的时代,微软如何创新技术助力IoT发展。

微软(中国)有限公司开发者体验和平台合作事业部 高级技术平台顾问 梁健

如今,智能硬件、穿戴设备对于我们来说不再陌生。随着物联网技术的发展,生活中更多的不可能变成可能。梁健认为,在未来5至10年,物联网将会实现更加快速的发展。究竟什么是IoT?只是简单的终端设备联网吗?

为了让大家更全面、清晰地认识物联网,梁健分享了一张最普遍的参考架构图。

参考架构

为了顺应移动互联网时代新的发展趋势,微软以“移动优先,云优先”作为战略方向,打造业界***的平台和生产力服务,为企业提供从设备到云端的多种解决方案。

除了面向大众消费者的Win10家庭版和专业版以及面向企业的Windows10企业版之外,微软还发布了面向物联网领域的Win10 IoT正式版本.Windows 10 为具有到设备和云的企业级和本地连接的设备提供了一个通用的平台来启用物联网。这样一来,开发一个物联网应用就可以适配所有的设备,打破物联网应用开发的界限。

具体来说,Win10对物联网应用开发提供更好的支持体现在以下几个方面:

***出场的是TalkingData***数据科学家张夏天,他为大家带来了一种实现用户增长的新思想:Lookalike over Mobile.

TalkingData***数据科学家 张夏天 

目前,用户在使用移动应用时表现出非常重的头部效应。排名靠前的应用覆盖非常集中。这带来的后果是,对同一类型的两组用户进行行为差异分析和行为趋势预测时非常困难,无法有效发现潜在用户。

Lookalike是什么?张夏天解释说,这是一种通过种子用户寻找类似人群的技术。它通过提高人群定向的效率,寻找到潜在用户,达到实现用户增长的目标。它通过建立主样本进行机器学习,建立预测性模型,建立对应用的重新排序的过程,与目标APP进行用户相似人群的匹配分析。基于设备和应用的Lookalike训练过程分别是:

目前,Lookalike面临的主要挑战包括

  • Billion级别的训练数据:
  • Million级别的应用
  • 数据稀疏
  • 样本平衡

对此,TalkingData进行了有针对性的优化实践:

通过TalkingData优化过的Lookalike***特点是:只需要一次迭代。在并读很大集群之上,做到十分钟内完成一次十亿级别数据的机器学习训练,而且对样本平衡的要求不敏感。

通过实例,张夏天向我们直观地展示出通过Lookalike得出的人群特征APP对比,对同一类型的两种应用得出的应用组合结果看出在一定程度上细分出某一人群类型的区域、性别、用户黏度等特征。

在每位老师的演讲结束后,在场同学都踊跃地与专家就演讲内容中的问题交流互动。

活动结束前,各位专家从现场抽出了多位幸运同学,获得由51CTO提供的精美纪念品。

2015年,51CTO 网+线下公开课得到用户大力的支持。未来一年,网+将继续坚持每月推出一期围绕移动开发者切实需求为主题的线下公开课,为广大移动开发者提供交流和学习的平台。

 

责任编辑:Ophira 来源: 51CTO
相关推荐

2016-02-01 14:54:33

51CTO 网+公开课UI设计

2011-06-20 17:08:10

安全

2011-06-27 19:43:12

51CTO技术沙龙网络运维

2015-12-31 17:47:54

2016-04-24 11:40:41

51CTO网+APP产品设计

2017-08-11 16:20:36

技术坐诊

2015-01-05 12:44:36

MDSA线下沙龙线下公开课

2011-03-22 10:45:50

HTML5

2014-12-30 11:26:28

MDSA线下公开课app质量

2017-04-21 13:31:19

CIO 论坛

2011-12-19 12:48:53

PhoneClubWindows Pho

2013-08-02 16:11:07

IT半小时

2015-03-05 17:42:34

MDSA线下公开课

2011-11-09 15:41:10

Windows Pho

2011-05-20 12:34:05

大话IT云服务中断亚马逊

2011-12-12 15:48:40

Windows Pho51CTO移动开发技术Phone Club

2015-06-27 18:48:52

2016-12-05 20:20:15

CTO训练营公开课

2015-05-31 19:51:39

APPMDSA

2013-08-16 11:24:31

开源Hello!Geek
点赞
收藏

51CTO技术栈公众号