大数据分析系统应规避的问题

原创
系统
随着互联网技术的不断发展,数据本身是资产,这一点在业界已经形成共识。越来越多的企业涉足到大数据,但是大数据没有想象中的那么简单,所有大数据的属性,包括数量,速度,多样性等反映了数据库不断增长的复杂性。本文从安装、搭建等方面展示了大数据分析系统的应该规避的系列问题。

引子

  【51CTO专稿】在刚刚过去的四月份里,我们51CTO传媒在京举办了《2013大数据全球技术峰会》,相信关注大数据、关注51CTO的朋友们,在这次大规模的技术盛宴里,更多地了解了大数据的奥秘。如果没有赶上参加这场峰会的朋友,也不要心急,因为有关此次峰会概况的的视频已经出炉,感兴趣的网友可以去我们的官网查看相关信息。本次峰会我们邀请了30多位来自国内外的资深技术专家,能和这些专家近距离接触,面对面交流,小编深感荣幸。为了深入挖掘大数据分析系统这方面信息,小编力邀到了某上市互联网公司高级工程师马先生,来共同探讨了这一话题。

[[72900]]

(图片来自百度)

  大数据分析前期要做的事

  其实,每一个数据都有一个ETL,就是抽取、转化,然后去加载,包括做数据的清洗。如果数据大批量进来的话,有些数据可能是有问题的,马先生举了个例子:比如说,好多地址会写得比较模糊,如果要搜索北京这个词的时候,数据仓库里可能只有一个京字,这些都要统一整理成一个,比如说北京,这样后面分析就会简单,比如山东,有人会输入“鲁”字来进行搜索,而不是山东,这就需要在大数据分析前期做好数据清理工作,做规范化,这样后面的数据分析起来就方便很多。

搭建大数据分析系统的注意事项

  在搭建大数据分析系统时,有哪些需要注意的事项?马老师提到:首先要弄明白你所在企业需要什么样的数据,或者你想得到什么价值,想明白了再去做。因为做数据不像做别的东西,一定明确知道要知道你要干什么,不然这个系统搭的时候会有很多困难,不知道该怎么搭,不知道用什么技术,也不知道数据进去是否在浪费。而目前的情况是:很多企业可能会先把架构搭出来,实际上这数据每天在算,但是不知道这数据带来什么价值,所以更多是一个业务驱动的。再举个例子:比如说中国移动就想挖一挖,到底是哪一个用户老欠费,哪一个用户用得多,用的多的就给他优惠多一点……如果他有这个需求,你再把这个需求下转给下面的人,按照这个需求去开发;

  其次,需要选择适当的技术。比如说你一台机器够用的,不要用两台机器,能够进来报表就不要用交互报表,因为那个都是有技术成本的,并且上线的速度会慢很多。所以建议任何一个企业在搭建数据分析以前,要特别清晰地知道其搭建的需求和目的,选择什么方案,搭它来解决什么问题,针对需求你去做一个数据分析;

  再次,在没有时时性要求时,你不要自作主张,向老大提这个。因为大公司的批量已经做得非常完美了,可能批量已经带来35%的收入增加了,他要再做时时,再增加5%,而你现在什么都没有。如果说先要做时时,或者先要全部搞出来的话,可能要先一步一部把35%做好,把那个批量先做出来,然后再做时时,这样效果会更好。

  不要滥搭大数据分析系统

  技术这个东西都是相通的,没有一项改进都是说完全是重新造出来的,都是在改的,但是它带来的价值不一样,它带来的人的思考,就跟人从零售店买东西和网商这种不一样,但是技术,零售店也会用一些数据库,网上也可能用,要在这个上面做一些转变。马老师谈到,好多国企(这里就不点名),就是为了上项目去上项目,称自己有海量数据。当问他需要搭建的大数据系统是用来干什么,他们的答案很出乎意料:先给搭起来,先存起来,需要的时候再用,就这种思想。其实这个是没有必要的。

  总结

  虽然大数据现在炙手可热,大数据分析越来越火爆,很多企业都在试图拥抱大数据技术。但还是应该具体问题具体分析,因为大数据分析系统并非适合所有的企业,一些小型规模的企业在旧系统能满足需求的时候,就不要盲目地去追随潮流,舍弃旧的系统重新搭建,也可能解决了这个小缺口,但是可能会滋生其它更大的问题,这就得不偿失了。

责任编辑:黄丹 来源: 51CTO.com
相关推荐

2011-08-16 09:13:33

2013-03-07 10:18:55

大数据大数据分析隐私安全

2013-03-11 17:37:36

大数据

2015-08-14 10:28:09

大数据

2021-08-06 11:01:23

大数据数据分析技术

2017-07-22 00:41:27

大数据数据存储

2019-07-31 14:16:35

大数据人工智能算法

2015-08-11 15:52:52

大数据数据分析

2018-06-05 12:06:20

Hadoop开源工具

2022-03-29 14:49:14

大数据数据分析

2021-10-12 15:25:08

大数据数据分析

2013-04-09 09:28:20

大数据大数据全球技术峰会

2015-07-23 09:34:57

大数据数据分析

2012-08-21 16:32:41

IBM大数据数据分析

2024-03-04 11:10:01

2023-12-22 15:49:02

大数据科学家Python数据分析师

2021-11-08 14:03:44

大数据数据分析技术

2021-01-27 09:18:50

大数据数据收集大数据分析

2020-07-16 17:26:05

数据分析转化用户

2018-10-24 14:32:15

数据分析数据科学算法
点赞
收藏

51CTO技术栈公众号