每一个企业建设大数据平台时都希望建设的大而全,但是实践证明可持续的大数据平台都通过精益化数据分析理论逐步建立而成的。精益化数据分析的理论就是通过建立最小的商业闭环,逐步验证和扩大数据分析平台最终实现与BAT一样的数据分析能力。其中,核心技术、业务分析目标在不断成长都会遇到各种挑战。今天,易观CTO郭炜老师分享了企业建设大数据平台中精益化建设思路以及建设月活5.2亿大数据分析平台成长历程。
主要分享内容如下
一、精益化数据分析
二、常见的精益化数据分析场景
三、大数据技术框架迭代与扩展
四、用户精益化分析到大数据平台
各位好,我是易观CTO郭炜,非常高兴今天能够在这里和大家做一个分享。希望能让大家有所收获。 我今天演讲的题目是精益化数据分析——如何让你的企业具有BAT一样的分析能力。
先简单介绍一下我自己:
郭炜先生2016年加入易观,担任易观CTO,构建易观技术团队完成易观大数据采集、平台、数据挖掘等技术架构与体系,从无到有完成易观混合云搭建、易观SDK升级并发布易观秒算实时计算平台,目前易观大数据平台日处理数据量30T,252亿条,月活用户5.2亿。
郭炜先生毕业于北京大学,加入易观之前,曾任联想研究院大数据总监,万达电商数据部总经理,并曾在中金、IBM、Teradata公司担任大数据方向重要岗位,对大数据前沿领域研究,包括视频、智能WIFI等大数据软硬数据一体技术有独特的见解。
一、精益化数据分析
先说说,精益化数据分析思路的由来——精益创业
精益创业(Lean Startup)由硅谷创业家Eric Rise2012年8月在其著精益创业作《精益创业》一书中首度提出。
三个重点:最小可用品(MVP)、客户反馈、快速迭代。
精益化数据分析是什么呢?
精益化分析的核心就是以业务最小闭环开始,每次形成业务效果的闭环,达到业务目标,再扩展下一步的大数据分析内容,或者建立相关的系统,或者建立相关的平台。
• 最小化可行产品进行优化,而不是对其设定硬指标 v.s. 决策层说“我们要建设大数据项目“
• 与最终客户与业务保持同步 v.s. “先有平台再加业务”
• 业务闭环,并形成针对大数据的数据分析 v.s. “管理层看到了Dashboard”
• 增速/转型/创新 ——***的挑战,在于企业文化的改变
这几点,一定是优先选择前者,我10几年的数据从业经历而言,不要漫无目的为了大数据而大数据,这样大数据平台即使建立起来了也不能长久,一定是有策略的建立精益化化大数据平台。
重要事情重复三遍,不要漫无目的为了大数据而大数据,这样大数据平台即使建立起来了也不能长久,一定是有策略的建立精益化化大数据平台。
不要漫无目的为了大数据二大数据,这样大数据平台即使建立起来了也不能长久,一定是有策略的建立精益化化大数据平台。
不要漫无目的为了大数据而大数据,这样大数据平台即使建立起来了也不能长久,一定是有策略的建立精益化化大数据平台。那么怎么建设呢,我个人建议先从互联网/移动互联网用户运营开始,因为这块在近些年来痛点比较明显,业务闭环也比较容易寻找。
大家知道,互联网进入下半场以后,我们过去做一个APP不用做什么活动就能心大量新增用户的日子一去不复返了,现在哪怕精准拉新的效果也不一定好,所以,目前对现有的这些用户如何进一步运营成为现在主要的业务需求。
大家可以看到,中国人口的增长,已经不是像每年百分之几的增长,而是被每年零点几在增长,同样移动互联网的用户的增长也日渐趋缓,所以现在不是看怎么去拿新,而是看我们怎样对留住用户提高用户的收入。
获客难、留不住用户、挖不到价值是现在互联网运营人员身上的三座大山。
精益化数据分析下的用户全生命周期管理就是一个重要的抓手:在获客的时候精准营销,提高渠道的ROI,在成熟用户里提高ARPU,在用户离开的时候,去用各种各样的条件挽留他。这就需要对用户的行为、属性、渠道特征、忠诚度分析做各种各样的分析。
其中、获客、留存、转化就是精益化数据运营的主要需求,图中列举了各种需要做的数据分析的指标供大家参考。
大数据驱动业务增长节奏怎样把控?我建议分四步走,先对用户、会员做内部的统一(这部分建议是企业自己来梳理完成,各种各样的数据只有企业自己最清晰);第二部,自己建立/外部采购互联网用户生命周期管理的平台——这块可以最快的看到效果,符合精益化思路;第三部,建立企业大数据平台,将互联网与内部系统打通;第四部,可以利用自己的数字资产建立数据服务或者进一步升级企业的人工智能平台。
二、常见的精益化数据分析场景
下面分享一下常用的精益化数据分析的场景。
精益化数据分析,面对用户这方面,用户全生命周期管理的核心方法论是AARCE模型,每一个步骤都会有很多的分析可以做,下面我举个比较常见的场景:
寻找优质渠道,提升关键路径转化,找回流失用户,提升用户留存和活跃度是几个最常见的精益化分析模型。
对于每个企业的运营和市场部来讲,如果找到合适的渠道,发展用户是每天都要面临的问题,衡量每一个渠道的质量情况,转化情况,留存情况就是一个典型的精益化数据分析场景。
衡量渠道的时候,可以从新增、留存、防刷量几个角度来做数据分析。大部分的渠道都会存在一些水分,无论是自建还是外购,帮助企业节约渠道费用,找到更合适的渠道会直接让管理层感受到大数据的作用,我个人经验是,数据分析的业务闭环,距离钱越近的分析越容易获得公司的认可。光有渠道发展还是不够的,还需要提高用户的转化,这里也有一些常用的指标和方法给大家参考
这是每一个产品经理会遇到的问题
每一个关键路径,都需要下转化分析,看究竟那些用户留下来了,那些用户离开了。更重要的是,要看离开的这些用户是否到竞争对手哪里去了,或者留下来的用户是不是我们的目标客群。
这需要每个公司建立自己的用户画像系统,对流失的客户做全景的用户行为洞察。说到流失,每个公司在建立精益化大数据分析平台的时候,都会有一个很典型的功能,就是召回流失用户,一般说来,都要先定义流失用户-->流失原因分析-->流失营销活动-->营销活动效果评估这几步
每次活动,是不是有效的触达了你的定义的人群,是不是有效形成了挽留,都是需要仔细评估的。前面简单讲了一些场景,其实这样的里例子还有很多,每个从业者需要根据自己企业的场景来做自己的一些场景设计。
三、大数据技术框架迭代与扩展
下面我讲讲精益化大数据分析时技术上有哪些坑需要填。每一个数据分析其实都是从采集-->接受-->计算-->查询-->挖掘-->服务来做的。
我说说我在易观的经验,目前公有云和私有云非常火爆。不过我选择的是供应商提供的混合云,它既有公有云可扩展的特点、也有私有云的性能保证。现在易观SDK的月活在5.2亿,日活7800万。这套混合云架构,支撑了这样大的一个数据规模,每天运转,提供给易观内部分析师、外部的产品正常运作,到现在已经2年了,所以我很推荐做底层架构的小伙伴尝试混合云这种模式。
这里简单列举了混合云的一些优势。光有底层架构还不行,这样大的数据,接收的方法需要特殊优化,云+端的控制策略就尤为重要了,如果没有做好,每天数亿的设备就会形成一个ddos,把你的服务器集群冲垮。
这里列举了,在数据采集和数据接收时的一些策略选择,以及通用的数据采集应该具有那些技术框架和模块给大家参考。这些框架可以支持到月活数亿级别,所以大家可以放心使用。时间不太多了哈,我挑两个大数据处理和查询中比较大的坑再说一下。
一个是我们内部的需求,需要选择具有一部分标签特性用户,看他们的用户行为特征是什么:例如,看95后,爱看视频的女性,晚上10:00-11:00经常打开APP的Top5。数据存储逻辑结构很简单,一个是用户标签表,用户ID,标签ID;另一个是用户ID,时间戳,APP名称。简单的想法就是join一下,where一下orderby。但是大家要知道,易观有21.9亿的用户画像了,用户行为每天252亿条,一个月就有数千亿条了,怎么能简单的join就解决了呢?每个企业也会遇到类似的情况,我的建议就是,去Join!在大数据环境下不要用join来解决任何问题,先用ES做用户过滤,然后将用户行为筛选纵转横变成bitmap,再通过与或关系来计算***结果,感兴趣的小伙伴可以另外讨论,今天不能深入讲了。
另一个就是有序转化漏斗的问题,就是我前面举的具体的例子,每个人都想知道到底多少用户从浏览商品-->下单-->付款,是要按照顺序来的,不能先付款,再浏览,使用大数据解决这个问题就难了,因为用户行为会非常大,如何找到有序的转化组合,而且要秒级别返回,是一个很有挑战的问题,前段时间,我也组织了一个OLAP大赛,很多牛人、牛公司来参加这个问题的比赛,开源组的***名也获得了10万元奖金。这里我给出一个简单思路,供大家参考研习,2018年7月开始我还会举办这样的比赛,也欢迎大家来玩。
当然技术是无止境的,还有个重要样的技术我们会要逐步去迭代。
四、用户精益化分析到大数据平台
***时间不多了,我简单把易观内部的大数据平台和大家分享一下,希望对大家有启发。
数据存储部分,易观用了HDFS、Spark和Hive,也用了presto和greenplum,这块几个开源大数据存储的对比如下。
这里需要强调的是,大家不要把眼睛都放在大数据存储平台上,资源的调度平台,数据治理的服务也同样重要。这块时间不多了,大家可以线下或者搜我过去的文章来进一步了解。
***也欢迎大家访问ark.analysys.cn。体验易观的大数据服务,还是强调那一点,大数据分析只是过程,不是结果。只有形成业务闭环的精益化分析才是可持续发展之路。图里是我的微信和微博,欢迎大家关注。
以下问题是来自51CTO开发者社群小伙伴们的提问和分享
Q:东营日报-志道:郭老师,现在很多单位要求做大数据,概念比较空,有什么好的思路不管是从技术还是产品方面,去给领导或者同事讲清楚吗?
A:易观CTO郭炜老师:我觉得大数据的确容易很***半部分的精益化思路给你借鉴,一定要找到业务闭环,做大数据你为了解决什么业务问题。前面两部分讲的精益化给你参考,也推荐你2本书,一个是《精益化创业》,一个是《精益化数据分析》。包括今天PPT中很多的思路也得益于Eric给我的启发。
Q:东营日报-志道:很感谢。我们是报业单位,现在领导对大数据这块比较感兴趣,让我们拿方案,束手无策,其实这也是行业的需求,每个行业都有自己的数据,如果挖掘加以利用就是很好的数据分析,但是作为我们自己做这样的方案比较难,咱们易观有这样的方案吗?
A:易观CTO郭炜老师:具体需求我们互加一下私聊。
Q:数据-unicorn-北京:私有部署的化,是否会授权二次开发?
A:易观CTO郭炜老师:当然。
Q:王军-北京-hadoop:我现在使用hbase+phoenix做oltp查询,现在join一张kw级别的表和一张10w级别的表很慢,需要30秒,这个怎么优化?我是用hbase+phoenix做oltp,用hive on spark 做olap。olap的数据处理完后放到hbase做查询,现在问题是oltp查询很慢。维度不固定,我想问问怎么优化hbase+phoenix,现在问题是通过phoenix查询hbase数据比较慢,kw表join一张10w的表时间需要40秒。这个肯定接受不了。key基本就是几个字段的组合。现在是分析出来的数据放到hbase,需要在hbase进行查询。
A:易观CTO郭炜老师:你用hadoop做?我建议你试用一下Greenplum。
A:数据-unicorn-北京:建议分析一下应用场景,再选取数据库。如果维度不固定,又要查询快,mongodb是不错的选择。如果是数据处理,比如join之类,hive的优势比较明显,或者存储用hive,调用使用Presto(暂时不是很成熟隐藏问题较多,比如数据类型等)。
A:半个开发-小星星-广州:这个不能完全赖在数据库上,首先索引、sql优化什么的这些先排除掉。印象中,mysql数据瓶颈应该在3kw左右,pg多一点。当然,还得看where条件的写法,像 or、<>、表达式左边有计算等等,会使索引失效。
【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】