到底穿T恤、正装还是道袍?数据挖掘师的定位

大数据
心态不够平静,晚上在小区里面逛了一圈又一圈、一圈又一圈、一圈又一圈。

[[154516]]

(图为:剑网3 玩家Cosplay)

心态不够平静,晚上在小区里面逛了一圈又一圈、一圈又一圈、一圈又一圈。

最近看了《再次出发》,大意是讲两个失意的音乐人重振旗鼓再次出发,挺不错。但是,总觉得在电影院里面看剧情片,节奏太慢受不了,个人偏好。倒是里面所有的音乐都很好听。它会给你平静、简单、自然、祥和、空灵和穿透的感觉。适合写这篇文章的时候循环播放。

大数据是什么?其实我也不太清楚。但是人们常常用四个关键词去刻画和描述它。即Volume、Variety、Value和Velocity。

什么样的人在从事数据挖掘的工作?别人说:“T恤、正装和道袍”。

做挖掘采用什么工具?开源、“众人堆柴火焰高”。

(一)大数据的本质(4V)

(1)Volume(容量)

就是说数据规模和容量非常庞大。简单来说,传统的银行数据仓库中大概有小几万张表,记录着各个系统的数据。拿其中一张表举例(零售客户金融资产表),一般而言,零售客户都是非常海量的。股份制银行至少有***的零售客户。基本上,每天的零售客户金融资产表,其产生的数据量就有几个G。

银行哪里来的大数据。有些人不太理解银行里面记录的都是什么数据,还是比较抽象,不够具体清晰。假设你有一张借记卡。你转账、存款、取现、贷款、购买理财、基金、保险、刷卡、交易数据、你开户时填写的个人资料、办理业务时填写的个人资料,都会被记录下来。简而言之,你和银行的每一次交互,在后台系统都会存在记录,这就是数据仓库的原始数据来源。

(2)Variety(多样性)

就是说数据类型非常多样。但是,天下数据,基本上也就包括三种类型。

***种,结构化数据。就是常见的二维表。一条记录代表一个客户(行维度),列维度代表属性和特征。例如,张三的定期余额、活期、理财、保险、国债余额等。

第二种,半结构化数据。需要通过一定的技术抽取关键的特征和变量。

例如简历,一般来说,都能够从简历里面抽取一些通用的特征,如年龄、性别、工作单位、工作年限、教育背景等。例如,网络日志分析,互联网公司常常从用户的浏览日志中抓取一些特征和变量,例如IP地址、浏览器类型、系统类型、登陆时间、登陆市场、登陆次数等等。有些做风控的公司,通过抓取全国所有法院的判决文书,抓取企业是否涉诉,涉诉金额,作为判断还款能力的重要标准和依据。

第三种,非结构化数据。非结构化数据处理起来就比较复杂,这也是当前数据处理的一个前沿方向。例如图像识别、人脸识别、视频识别、音频识别等。

(3)Value(价值)

就是说,海量数据意味着挖掘后产生的价值也是非常高的。通过数据挖掘去探索数据背后的规律和模式。

例如,通过挖掘,大致可以判断客户购买理财产品的概率有多大。如果比较大的话,就会向该客户推荐该理财产品。例如,通过挖掘,可以识别客户的交易图谱,客户关系网络。

(4)Velocity(速度)

其实说实话,大数据之所以会为大众所知,还是因为数据存储和加工技术的进步,运算不再成为一个瓶颈。

(二)数据挖掘工种:T恤、正装和道袍

因为业务的关系,最近听一个人做介绍和分享,有个观点还是挺有趣的。他说做大数据的,大概有三类人群。在此借用一下观点。

***种是穿T恤的,这种人一般都在互联网公司。

第二种人穿正装,这种人一般在金融机构(例如银行、证券)、金融相关的咨询公司(SAS、FICO)。

第三种人是穿道袍的,到处忽悠,向非专业的layman倾销观点。例如一些第三方数据公司、或者一些动辄就扯大数据概念,从来不落地的公司等。其实银行里面更多,很多时候呼喊大数据口号的都是做战略管理和规划的,估计压根没接触过海量数据。

前两种人都较为偏技术一些。他们的差别更多的来自行业形态的差异。比方说,互联网是较为充分竞争的领域,因此,穿T恤的,一般都挺有几把刷子的。银行和金融领域,还是处于政策管制的领域,竞争不是特别充分,投入产出和效率意识并不强。数据挖掘更像是锦上添花、花拳绣腿的产物。由此表现出来非常明显的差别就是,银行永远都是花最贵的钱,买最贵的技术、产品和外包服务,例如SAS。互联网一般都是,怎么免费怎么来,数据库和挖掘的软件基本上都是开源的,例如R语言、python。

第三种穿道袍的人。虽然有些忽悠成分,但是,很多时候,也正是他们教育了普罗大众,培育了整个市场,启蒙了大环境。其实,想一想,T恤、正装、道袍各自有各自的定位和受众。广义一点,其实穿道袍的人多了去了,任何行业,任何领域,夸夸其谈扯不到一点专业实质的,都可以称之为“道袍先生”。但是,存在,就是合理的。

(三)挖掘工具:开源的力量

接着上面的话题。

互联网公司一般用免费开源的挖掘软件,例如Mysql、R语言、Python。高大上的银行一般花了数千万采购TD、SAS,常常采购的都是各种阉割的版本。毕竟SAS是封闭的商业软件。

我自己使用最为熟练是SAS和R。简单进行比较一下。其他一些统计类软件,例如SPSS、Eviews、AMOS、STATA,比较适合小样本数据分析,适合高校科研环境,不展开。

(1)SAS的封闭

SAS base。侧重大样本数据分析,可以做千万和上亿样本级别的数据分析。Base最擅长数据的加工、整理、汇总。然后,统计模块部分,基本上能实现SPSS所有的功能。

SAS EM。和Modeler基本上一模一样。傻瓜式的、拖拽风格的挖掘工具。它之所以能够贴上挖掘的称号,是因为其嵌入了很多成熟的统计和机器学习算法(聚类、贝叶斯、神经网络、决策树、SVM、随机森林、集成学习、逻辑回归等)。但是,他们却是非常傻瓜式的挖掘工具,因为他们是基于图标、节点和流程的。入手很快,结果较为粗糙,难以进行个性化、定制化的数据分析和挖掘,难以进行批量化的参数优化和调整。

初期入手还行,后期处处受限。

(2)R的开放

R语言。是目前遇到的最自由式的数据挖掘工具。因为是采用内存加工处理数据,限制了数据分析的体量,有时候样本或者算法较复杂,内存会溢出报错。但是,说实话,这是我非常喜欢的挖掘工具。

一方面,它有很多算法包,我可以很容易找到最前沿的算法和模块。例如,做社会网络分析igraph、例如做文本分析tm等。而这些对于SAS来说,都是收费模块,很难获取。

另一方面,你可以定制自己的算法和包。EM***的一个局限就是不能定制化自己的玩法,没办法修改模型算法,没办法对数据进行遍历和加工。但是,R可以做到。

例如,做kmeans聚类时,R可以批量跑很多分组,但是EM每次只能run一个。例如,你可以用R同时循环50棵决策树,从而找出***的决策树。但是EM就做不到。

换言之,EM傻瓜操作的同时,就难以满足熟练工的更高阶的需求。鱼和熊掌,难以兼得。

我的一个感受。常常有人说,统计软件,你只要精通一个就行了。其实,我是比较不认同这种说法的。很多时候,你的挖掘能力完全受制于你的工具。做挖掘,你的想象空间与你的工具完全是相关的。每个工具之所以能存在,必然是因为,它能够完成其他软件不能够完成的部分。这也是我当时熟练SAS后,接触R语言的一个最基本的理由和出发点。

责任编辑:李英杰 来源: 36大数据
相关推荐

2009-12-07 10:42:04

开发者T恤

2011-04-06 10:06:13

数据不删

2012-12-27 11:11:54

华为任正非

2017-05-23 22:16:16

IT数据

2015-09-10 04:58:18

2018-09-20 21:39:00

2009-06-22 08:57:54

T恤无线网络

2016-08-18 01:26:22

数据挖掘

2015-11-27 10:51:40

WiFiWiFi技术

2019-08-15 09:28:32

SQLNoSQLCPU

2019-08-14 14:54:19

MySQLPostgreSQL数据库

2015-04-21 09:20:40

SwfitObject—C

2021-11-11 08:48:09

数据分析数据分析师数据挖掘

2021-09-06 09:27:19

程序员技能开发

2016-11-08 13:11:46

大数据数据挖掘

2021-03-19 07:40:22

缓存数据库日志

2015-07-03 11:25:31

央视WiFi

2017-06-30 09:29:00

Hadoop数据仓库

2016-02-22 09:41:16

数据挖掘算法大数据

2012-06-27 09:45:41

ibmdw
点赞
收藏

51CTO技术栈公众号