做大数据项目最头痛的是什么

大数据
启动项目前至少要落实五个问题。其实我个人并不是正儿八经的大数据开发,然而这些年太多项目都挂个“大数据”的头衔,以至于我也被拖下水了。所以处理具体需求时会格外谨慎。这两年大数据淡了,人工智能又开始喧嚣了,各位同仁继续打起精神警惕起来哇。

[[226061]]

必须祭上甲方看了沉默,乙方看了流泪的诗集:《项目五怕》

相当多的“大数据”“数据挖掘”“人工智能”项目,是因为甲方某部门老板迎合上意,追赶潮流才上线的。反正大老板喜欢,管他有什么业务场景,管他有什么商业价值先干起来。这种项目如果运气好,赶上公司业绩高涨,可能负责人可以平步青云,把屁股留给下一任擦。如果运气不好,赶上公司业绩下降,就会连负责人带项目一起扫进垃圾堆。

这就是所谓的吉祥物项目。作为乙方,如果脑子一热跟着当吉祥物,很有可能连尾款都收不回来。因为本质上讲,数据类项目很难直接产生价值,需要结合到某个业务场景。所以上项目之前,为项目找个出路是必须的功课。

[[226063]]

过气网红变垃圾,没有实际应用场景,应用不够刚需,场景不够重要,最后项目下场都好不到哪去

一个搞笑的说法是:业务部门眼中excel透视表处理不了的问题都算大数据。加之这几年营销号猛烈鼓吹,造成了很多业务部门对“大数据”“数据挖掘”“人工智能”产生了不切实际的幻想。如果需求是业务部门提的,就得特别思考:他们提的到底是个什么需求?这个需求有没有条件去做?数据能帮到多大程度?

如何梳理需求,展开写一本书都够了,这里只提示一些常见问题:

  1. 心口不一,口头问题和实际数据是两码事。
  2. 好高骛远,期望值远超过IT实际能力,又不舍得投钱。
  3. 期望过高,指望数据能创造奇迹。来个“大数据”一搞,库存就不积压了,客户就接电话了,风险就没了,业绩就有啦。

这些问题,来自业务部门被各路营销号洗脑太深,自己又不懂技术。在谈需求的时候,业务部门写在纸上的一个标点符号都得确认一下。从一开始就控制期望值,找到合理的落地方式,才是跳坑正解。

提到数据清洗,有意思的是:相当多的脏数据是人为弄出来的。最典型的,比如在超市购物,收银员问句:“有会员卡吗?”你说:“没有”,他就不管了……这看似一点点疏忽,导致很多商超数据关联到顾客ID的不足10%,这么差的数据基础,除了订单分析以外还能整什么分析?丢掉90%数据建出来的响应模型又有啥用?

更不要说什么渠道操纵业绩,假卡、鬼卡、幽灵卡,羊毛客等等问题。我就遇到过某银行业务员教我:“这里您就填年薪10w不要多也不要少!”的事。实际上,数据化管理做得好的公司,本身管控力与执行力都很强。如果一个公司管控力不足,那做数据项目的同仁们,在许诺数据项目质量的时候,就得嘴下留情了。

最终,数据项目想推动业绩增长,是需要业务部门配合的。如果是营销类项目,需要产品、广告、促销费用;如果是生产类项目,需要操作手册、工作流程、作业培训、执行规范。这是个很浅显的道理:再好的狙击镜也得射手扣扳机才能打死敌人。

然而很多业务部,不是太过迷信数据,就是太过轻视数据。迷信数据的,诸如:“都有精准推送了为什么还要好产品?都有定向营销了为什么还要投促销?”轻视数据的,诸如:“总部懂个屁,我们自己干!”如此这般,空有数据,没有落地,数据的价值如何体现?

综上,启动项目前至少要落实五个问题。其实我个人并不是正儿八经的大数据开发,然而这些年太多项目都挂个“大数据”的头衔,以至于我也被拖下水了。所以处理具体需求时会格外谨慎。这两年大数据淡了,人工智能又开始喧嚣了,各位同仁继续打起精神警惕起来哇。

然而,现在大量的新人也在助长这种风气。做模型不考虑业务场景,找一个清洗过的数据包,不合适的数据直接丢掉,然后一味追求在测试集跑出来的准确率。似乎不需要了解业务给个数据包就能有95%了,于是就有了第五怕:

是滴,老兵们都知道做项目水很深。如果需求是IT部提的,那还相对靠谱,至少有懂技术的人帮我们过滤了一次。但如果是业务部门,就真的得打起12分精神。然鹅,新人们往往脑子一热就上了,还喜欢什么复杂上什么。结果吗, 要么被虐的服气,要么被虐的离职。正所谓:新鬼烦冤旧鬼哭。刚入行的同学们不被虐过几次,是很难体会到个中滋味的。

我常举得一个例子,即使通过简单的描述性统计,也能对所谓精准营销的前景进行初步估算。不要小看描述性统计哦,除了做个直方图算个频数,它是快速接近业务,发掘坑点的重要手段

吐槽归吐槽,说到底,还是想提醒大家做项目时贴近业务的重要性。因为本质上,数据工作是个专业人士服务业余人士的工种。正如同医生给病人看病,医生都是博士以上饱读诗书,可病人却是三教九流各式各色。大部分病人,就是进门只会哼哼:诶呦,诶呦,难受,难受。这时候就得耐心诊断病情,而不是说我有个阿尔法素,一针下去药到病除不是。

 

责任编辑:武晓燕 来源: CIO之家
相关推荐

2023-05-10 16:04:38

大数据架构

2019-05-23 09:50:46

大数据IT人工智能

2012-07-17 10:54:21

大数据

2018-04-11 09:50:04

大数据

2018-04-02 10:58:28

大数据sqoop大数据项目

2014-08-15 09:09:32

大数据

2022-06-30 21:08:25

大数据数据湖数据仓库

2013-07-26 10:24:32

大数据项目大数据IT

2017-03-14 15:43:39

大数据项目Hadoop

2013-04-22 10:00:53

云计算大数据

2023-10-13 13:11:26

大数据技术开源

2016-03-21 18:56:54

物联网IoTIT基础架构

2014-12-10 10:51:54

OpenStackSahara云计算

2016-12-13 19:40:00

大数据

2016-01-26 10:02:18

GitHub大数据开源

2015-05-25 11:10:49

2017-02-23 08:12:35

科技新闻早报新闻解读

2013-09-24 10:53:39

Gartner大数据项目

2019-07-04 14:22:56

大数据数据挖掘数量级

2017-04-05 15:32:42

大数据项目问题
点赞
收藏

51CTO技术栈公众号