车品觉在加盟阿里集团前曾在汇丰银行、电信盈科、微软、eBay等多家MNC担任总监职务,积累大量中小企业在互联网发展的经验,论坛上讨论的主题为《数据,你准备好了没有?》。
分享主题有十点,我们节选了部分的主要内容:
一切从问题开始
提到数据中表现明智,不是要增加更多东西,而是要去除过份复杂和装饰性的东西。理解了问题 ,就能化解问题,问题本身就是答案。
车品觉列举一个亲身经历:有不少做电商的从业者向其提出疑问,B2C企业里大数据使用几年了,真的有效么?车会反问道,你知道你的老板在过去六个月里的困难是什么?分析师往往5-10分钟都无法回答,这表明从业者自己都不了解应该把数据用在哪里,这样如何能使用好数据?。“懂问问题的本身,便找到了答案。”
如果分析师能把问题拆分成三个问题:公司现面对的头三个问题是什么?未来三个月要解决的是什么?过去一个月作对了什么?事情便好办多了。车再次举出了一个在面试中自己常问的问题:“今天早上九点,我是淘宝的CEO,你是我的分析师,请给我三个指标,让我对上周的业绩安心。”
面试者常常不假思索的回答:“流量”,“交易量”,碰到第三个问题,才需要思考。这表明面试者并不了解问题:问题的核心在于对象是淘宝,不是所有的电商,目标是CEO,而不是产品总监,第三问题表明这是一个周敏感的数据(参考答案会在后文解答)。
“数据的力度是无穷的,你可以在不同维度里一直拆分下去,分析师只需要知道哪些数据对自己有用即可。”而数据收集的难度在于,你的起步应该有多宽,如何预判哪些数据是可以为将来所用,这个问题困难了车半年的时间。
在实践中提炼数据的敏捷性
在动态中试验,找出数据的规律性规律性就是不仅我会用,只要你知道了,你也会用。数据必须不停的时候,若仅凭借记录的数据,是难以还原当时的场景:有一个人在下雨天买了面包,如果不再当时去考虑,是无法推断出影响此行为的决定性因素。背景数据无法还原当时情况。
航海日志是一个很好的例子,收集数据后定位——进而做出决策——发现差异——回馈从新定位收集数据的范围。这个过程中需要不断的反馈,最后做成一个表格,数据便是这么提炼出来。
让数据——获取、使用、分享、协同、连接、组合
由于现在的数据统计得极不规范,使用数据的人很难有效的获取信息,让用户轻松感受到数据的价值,过去在做数据时,很少会有人考虑用户体验,这恰恰是最重要的。比如数据里面出现了SQL,便使得很多技术以外人士无法读懂,美国现在已经有企业提倡去除SQL,便是为了减低交流成本。
上面说的是使用。如何获取同样也是十分重要的问题。Google Glass这款产品为何如此重要?因为它能收集的数据与传统渠道的区隔是天翻地覆的:从一个人早上起来遇到的每一个场景、每一个回馈所得的数据都收集起来,一个人50%-60%的数据都能收集到。让数据尽可能简单的收集起来。
颠覆创新来自分裂或重组
一个人注册网站的时候,可能性别会是男。但仔细调查可以发现,或许早上的性别是男,晚上是女。或者70%是男,30%是女。过去是0与1的关系,现在是0-1的关系,这是一个立体的数据,年龄也是同样的情况。
车品觉在这里举了一个鲜活的例子:“现购物人群趋势里,出现了diaos高帅富化与高帅富diaos化,三四十岁的人群,去买颜色很鲜艳的手机;而工薪族会去以数个月的工资来买一个LV包,这些都是很常见的。”分析的时候需要具体进行分裂。
以假设数据都能获取去思考问题
大数据是众多事物的数据化,获取数据的成本越来越低。阿里数据科学部的杨滔先生举出了四个特点:
量变到质变:小样本下,模型无法达到满意精度,大众就觉得模型不行,但当样本达到一定量,模型精度会显著提升,从而使模型具备以前不具备的功能。
片段到全局:大数据能从多个角度判断一个对象,许多模型都是对象的片段信息,但将这些片段组合在一起时,就会在整体判断有爆发提升。
应用到资源:小数据下,数据是为了具体场景的效果提升,但当大数据模型能够辨识全局,数据得出的信息就会成为许多创新及应用的源泉。
大数据包括多个数据处理和挖掘的环节,每一个环节都是科学+艺术,建模能力需要非常强,才可能深度挖掘其价值。
数据开放是硬道理
清华大学科学学院经济学教授、清华大学华商研究中心副主任刘鹰在谈到“从数据、信息到知识的演变”,他的逻辑是:从数据中获取信息,从信息中提炼知识(见图)。
我的问题是如何完成这个从数据到知识的提炼过程?谁来来完成这个过程?我的理解是,任何个人是不能在大数据时代做成一件事的。如果说在农业时代是“三个和尚没水喝”的话,在大数据时代则是“只有三个和尚在一起才有水喝”。
同时,这三个和尚还不能是同一个师傅教出来的,第一个和尚要会statistics and machine learning;第二个和尚要有专业知识,例如经济学、社会学和心理学等;第三个和尚要懂计算机的硬件和软件。
三角鼎力方可百战百胜!阿里研究中心将各部门打散,不同部门的人组成若干项目小组,大量动用各方专家进行合作研究,可见他们Boss的洞察力和领导力了!
利用数据拿到更多数据
电子科技大学计算机学院教授尚明生指出:数据“大小”自然是不重要的,或者说“数据”本身就不重要,重要的是数据中隐含的“信息”。比较麻烦或者复杂的是,这个“信息”的效用没有一般的准则,因为它通常是为了解决不同的具体问题而言的,而问题又可能是多种多样的,甚至无法预知。
我们无法直接抓住所有可能的信息,只好去抓信息的来源,也就是数据。从这个角度出发,这个数据就需要越大越好,这实际上是我们事先不确定其中可能有用的信息,又不想失去某个部分,再加上想偷懒,就想用同一份数据,来满足不同(的人对于他们自己感兴趣)的问题需求。
在实际应用中,如果问题比较固定,从抽样理论出发,数据规模是可以限定大小的;如果问题本身发展变化,数据还会越来越大。
数据化营运是一种对待数据的态度
大数据的核心是以数据作为决策的依据,而不是拍脑袋。大数据时候需要改变的是管理的模式,而数据量的增加仅仅是使得这种改变更加紧迫、更有基础。这件事在10年前我开始给学生讲商务智能课的时候就是这样,再回去20年这种思路就有。
从这个角度来说,数据的大小确实不重要,重要的是管理的模式和文化。今天之所以提出大数据管理,对于许多企业讲其实是补10年(甚至更多年前)前管理理念上的课。
但是,电商在这方面占据了先机,现有的人员、技术和管理理念基本上可以支持大数据管理,这是一些线下企业,或者数据基础、管理基础比较差的企业望尘莫及的。数据量的积累对于这个企业而言还是重要的。