引子
【51CTO专稿】在刚刚过去的四月份里,我们51CTO传媒在京举办了《2013大数据全球技术峰会》,相信关注大数据、关注51CTO的朋友们,在这次大规模的技术盛宴里,更多地了解了大数据的奥秘。如果没有赶上参加这场峰会的朋友,也不要心急,因为有关此次峰会概况的的视频已经出炉,感兴趣的网友可以去我们的官网查看相关信息。本次峰会我们邀请了30多位来自国内外的资深技术专家,能和这些专家近距离接触,面对面交流,小编深感荣幸。为了深入挖掘大数据分析系统这方面信息,小编力邀到了某上市互联网公司高级工程师马先生,来共同探讨了这一话题。
(图片来自百度)
大数据分析前期要做的事
其实,每一个数据都有一个ETL,就是抽取、转化,然后去加载,包括做数据的清洗。如果数据大批量进来的话,有些数据可能是有问题的,马先生举了个例子:比如说,好多地址会写得比较模糊,如果要搜索北京这个词的时候,数据仓库里可能只有一个京字,这些都要统一整理成一个,比如说北京,这样后面分析就会简单,比如山东,有人会输入“鲁”字来进行搜索,而不是山东,这就需要在大数据分析前期做好数据清理工作,做规范化,这样后面的数据分析起来就方便很多。
搭建大数据分析系统的注意事项
在搭建大数据分析系统时,有哪些需要注意的事项?马老师提到:首先要弄明白你所在企业需要什么样的数据,或者你想得到什么价值,想明白了再去做。因为做数据不像做别的东西,一定明确知道要知道你要干什么,不然这个系统搭的时候会有很多困难,不知道该怎么搭,不知道用什么技术,也不知道数据进去是否在浪费。而目前的情况是:很多企业可能会先把架构搭出来,实际上这数据每天在算,但是不知道这数据带来什么价值,所以更多是一个业务驱动的。再举个例子:比如说中国移动就想挖一挖,到底是哪一个用户老欠费,哪一个用户用得多,用的多的就给他优惠多一点……如果他有这个需求,你再把这个需求下转给下面的人,按照这个需求去开发;
其次,需要选择适当的技术。比如说你一台机器够用的,不要用两台机器,能够进来报表就不要用交互报表,因为那个都是有技术成本的,并且上线的速度会慢很多。所以建议任何一个企业在搭建数据分析以前,要特别清晰地知道其搭建的需求和目的,选择什么方案,搭它来解决什么问题,针对需求你去做一个数据分析;
再次,在没有时时性要求时,你不要自作主张,向老大提这个。因为大公司的批量已经做得非常完美了,可能批量已经带来35%的收入增加了,他要再做时时,再增加5%,而你现在什么都没有。如果说先要做时时,或者先要全部搞出来的话,可能要先一步一部把35%做好,把那个批量先做出来,然后再做时时,这样效果会更好。
不要滥搭大数据分析系统
技术这个东西都是相通的,没有一项改进都是说完全是重新造出来的,都是在改的,但是它带来的价值不一样,它带来的人的思考,就跟人从零售店买东西和网商这种不一样,但是技术,零售店也会用一些数据库,网上也可能用,要在这个上面做一些转变。马老师谈到,好多国企(这里就不点名),就是为了上项目去上项目,称自己有海量数据。当问他需要搭建的大数据系统是用来干什么,他们的答案很出乎意料:先给搭起来,先存起来,需要的时候再用,就这种思想。其实这个是没有必要的。
总结
虽然大数据现在炙手可热,大数据分析越来越火爆,很多企业都在试图拥抱大数据技术。但还是应该具体问题具体分析,因为大数据分析系统并非适合所有的企业,一些小型规模的企业在旧系统能满足需求的时候,就不要盲目地去追随潮流,舍弃旧的系统重新搭建,也可能解决了这个小缺口,但是可能会滋生其它更大的问题,这就得不偿失了。