数据的爆炸式增长为企业带来了机遇与挑战。社交计算、移动计算、云计算等新型计算模式的出现让数据的产生方式跟传统相比有了很大的不同。一方面数据的总量在变大,产生数据的来源也更加分散,不再像以往仅仅是产生自企业内部的IT系统;另一方面非结构化数据在增多,这些数据不同于拥有一定关系的可以在数据表中逐行记录的结构化数据,非结构化数据通常存在于影像、邮件、文档、社交平台中,他们的体积庞大,而使有价值的信息不易被发现。
了解大数据来自何处,能够帮助我们更好的进行数据集成和抓取,用以分析出结论后优化业务决策。在今天举办的第二届大数据论坛上,Forrester的分析师曹宇钦认为大数据来源于企业内部、外部、产业生态链的上下游客户、社交媒体、移动终端等等地方。
大数据来自企业内部/外部/客户/社交媒体
Oracle全球副总裁喻思成认为,“大数据来自于泛互联网数据,机器产生的数据,以及行业内容的数据。这些数据可以用4个‘V’表示,即巨大的数据量、多结构化数据、增长速度很快、价值很大但是密度低。处理这些大数据最核心的两项技术便是Hadoop、NoSQL。”
管理和处理大数据有难度
本届大会上,Intel公司行业合作与解决方案中国区总监凌琦对大数据进行了比较形象的解读,他通过两个维度来描述数据,一条维度是数据类型,另一条维度是数据规模。通过维度交叉的区间可以看出相应的数据特点。
大数据的时代正在到来
如图所示。小规模的非关系型数据集仅可以为我们提供有限的分析价值;小规模的关系型数据也仅能作为传统商业智能的分析对象;大规模的关系型数据提供的扩展性和参考性非常有限。而大规模的非关系型数据集将是真正为企业带来价值的数据信息,这便是大数据。凌琦先生表示,“根据IDC的预测,全球的数据使用量到2020年会增长44倍,达到35.2ZB(1ZB=10亿TB)。”爆炸式的数据增长趋势证明了大数据的时代正在到来。
凌琦列举了大数据来源的一些场景:
•社交网络
•移动网络和各种智能终端
•商业数据与信息
•传感器、RFID阅读器、导航终端等非传统IT设备
•视频(医疗影像、地理信息、监控等)
通过上面大数据来源场景的描述,我们发现这些数据内容正是来自我们身边的信息系统和网络平台。但是有了这些大数据应该怎么来使用和分析?怎样通过计算出的结论来优化业务决策,这些是我们在实现了大数据的捕获和收集后更需要集中注意力来做的事情。