挨踢部落故事汇(33):“小白”带你分分钟玩转数据分析

原创
移动开发
数据小白从最初的职场菜鸟,到“表姐”,到大数据产品,直到现在仍然在数据领域翻山越岭。是什么力量使她对数据如此着迷?数据分析高级工程师又是怎么炼就的?且听下文分晓。

【51CTO.com原创稿件】数据小白从最初的职场菜鸟,到“表姐”,到大数据产品,直到现在仍然在数据领域翻山越岭。是什么力量使她对数据如此着迷?数据分析高级工程师又是怎么炼就的?且听下文分晓。

小白是个85后的姑娘,坦率、乐观、好奇。因为姓白,朋友都叫她小白。就是因为有一颗好奇心所以开启了数据小白之路。

[[213353]]

小白·数据分析高级工程师

小白毕业于二流院校的应用数学统计专业,在校阶段学了一些统计相关知识,读了一些统计周边书籍,轻松的写了两篇论文发表在统计领域期刊上。毕业后抱着一颗数据心投入职场,加入了北漂行列。第一份工作在一家教育公司,做科研氛围比较浓的教育行业数据分析,之后依次在电子商务、教育、咨询、传统制造业企业里摸爬滚打,从最初的职场菜鸟,到“表姐”,到大数据产品,直到现在仍然在数据领域翻山越岭。

初入职场,小白如何才能变强大

有一次,数据小白接到猎头电话推荐一家互联网金融公司的算法攻城狮职位,小白的那颗不安定的心开始蠢蠢欲动,于是约了时间走进了那家互联网金融公司,遇见了一位不修边幅、带着不羁的面试官。小白被面试官的一通发问,问的晕头转向,不过其中有一个问题让小白很感兴趣(补充一下:小白的算法能力弱弱的,仅限于可以熟练调用R开源软件中的算法包)。那就是大家一直都很纠结的模型的简单与复杂,模型的精度提高及造成的过拟合问题如何解决。借此机会,跟大家一起分享一点她的粗浅认知。

模型复杂度和过拟合

模型简单与复杂的认知:模型过于简单可能会造成分类不准或者预测不精的后果,在目前大的数据质量普遍较低的环境下,会造成一些人对模型的复杂度的追求以弥补数据质量的缺陷,最终使算法模型的复杂度不断提高。但是复杂程度高的模型一定是好模型吗?

来看一张图(有图有真相哈)

此图来源于统计之都论坛

上图横坐标是模型复杂度,纵坐标是预测误差;明确表示了随着模型复杂度的提高,训练集的预测误差逐步减小直至接近于0(拟合的很棒啊,误差无线接近于0,此处有撒花,此处有掌声),等等……测试集的误差好像不太完美啊,怎么翘尾巴了呢?这就是常说的“过拟合”现象。所以模型的选择不是越复杂越好,而是选择最好的模型(当然是某一个模型集中),最好的模型就是在新的数据上预测误差等指标表现好的。

模型出现“过拟合”现象应该如何解决呢?正则化!正则化!!正则化!!!(重要的事儿说三遍)还有一句废话就是:拥有更多更广维度的高质量数据胜过一个好模型,大数据时代数据为王哈!!!

常见坑:数据定义和数据理解

数据理解是每个数据分析必备的能力,但是数据定义在过往的一些粗放型管理中却是缺失的,这时候如果一个分析师沿用经验认知来理解数据的话,不论后期的分析和算法模型多么严谨多么高端都会大打折扣,甚至是徒劳无功的。

给大家安利一下:1998年NASA发射火星气象探测器,1999年探测器失联。究其原因是人为因素,火星气候探测者号上的飞行系统软件使用公制单位牛顿计算推进器动力,而地面人员输入的方向校正量和推进器参数则使用英制单位磅力,导致探测器进入大气层的高度有误,最终瓦解破裂。

举一个工作经历的案例:业务场景是需要做一些业务指标的可视化,在数据流计算过程中突然领导发现不对啊,我的业绩指标怎么少了?这个锅谁背呢?做数据的!!!之后就可想而知了,所有冠以“数据”tittle的全部开始打鸡血查,逻辑,没问题!存储任务,没问题!数据同步时间点,没问题!领导翻白眼,肯定错了,没问题怎么会数据不对?心里没准儿已经开始问候你的情商、智商都是重伤了。最后的最后什么原因呢?生产库一个业务字段的长度变长了,你可以理解成类似于15位的身份证号码突然开始慢慢变成18位了。

这种坑怎么破?高端的叫法现在有一个领域正在发展起来:数据治理,还有DAMA的认证,含金量蛮高;Low点的玩法一个小小数据分析师那就追着业务人员,厚着脸皮请教吧,不要赶脚你的问题弱智啊,没准儿以前就是这么弱弱的玩法。

数据群体性结论预测个体

刚才的坑是分析人员对业务理解的认知误区,下面的坑是业务人员对分析结论的认知误区。

同样举个栗子,大概两年前大数据是一个神一般的存在,目前大家的认识开始有些分歧,一部分人低估大数据的力量,为啥呢?很多人砸了钱没听见响动。一部分人仍然执迷于大数据研究,一部分人开始客观的认识到大数据威力不是一蹴而就的,不是你挂了个大数据XXX的部门,请几个工程师就能驾驭大数据这个利器的。今天不去纠结大数据,只是举个数据分析的例子,也是小白的一次项目经历。

项目目的:做在线教育学员的二次消费行为分析(电商的二次营销辣么成功,老客户开发成本比新客户开发成本低辣么多),很有意义的项目啊,但是请注意:是学历在线教育。

项目过程:项目中各路数据大侠拿出华山论剑的本事儿,清洗数据,建立模型,模型检验,模型精度评估,看着这一连串的招式舞的行文流水,最终结论:模型检验准确率90%以上(历史数据显示不再报名的学生达90%以上),但是已有的数据特征指标对模型的解释度只有10%,言外之意是啥呢?要补指标,需要补啥样的呢?方向不清晰,牵涉也比较大,所以作罢。

项目后期:领导又出场了,项目有结论了,来预测一下吧,哪个学生可以再来学一次?只告诉我是谁能来就好了。数据分析师是不是有点无语凝噎的赶脚了?做不做都是背锅侠。这种坑怎么破?让时间的洪流带走一切吧!!!

【写在最后】

以上是小白个人的一些粗浅认知,数据探知的过程中有时候是枯燥无聊的,有时候透过数据看清客观存在又是激动人心、成就感十足的;愿能与各位在数据和技术领域孜孜不倦探索的小伙伴们一同成长,也祝51CTO越办越好。

如果你也愿意分享你的故事,请加51CTO开发者QQ交流群 669593076联系群主小官,期待你精彩的故事!

51CTO开发者交流群⑦群 669593076

【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】

责任编辑:何星 来源: 51CTO
相关推荐

2017-01-18 16:37:43

开发者故事

2017-03-21 11:19:57

开发者故事

2017-11-28 14:15:38

开发者故事

2016-12-30 16:43:53

开发者故事

2017-01-10 14:59:03

开发者故事

2017-09-15 11:39:47

2017-03-01 15:57:48

开发者故事

2017-01-11 17:25:23

开发者故事

2017-07-06 14:59:27

2017-01-19 13:40:56

开发者故事

2017-03-10 11:32:49

开发者故事

2017-01-16 17:24:08

开发者故事

2017-01-18 11:07:20

开发者故事

2017-10-23 13:15:51

2017-04-21 15:50:52

开发者故事

2017-01-05 15:30:59

开发者故事

2018-07-04 17:42:58

开发者故事

2017-03-24 16:43:09

开发者故事

2017-04-25 15:39:30

开发者故事

2017-06-09 16:27:40

开发者故事
点赞
收藏

51CTO技术栈公众号