估计大家听大数据听得太多,耳朵都快起茧了吧?谁要IT界不如娱乐界那么精彩热闹,几年才憋出一个流行词,自然大家只要提到数据,都说“大”;提到服务,都说“云”。
言归正传,你弄明白大数据分析要分析什么数据了吗?(弄明白的高手可以直接飘过;没弄明白的,看下面的内容能不能涨姿势)
我们先来简单聊几句有关大数据分析工具的背景。无需置疑,现在大数据平台和大数据分析工具日益普及,作用是可以帮助企业收集和分析数据,好处是可以寻找有价值的商业信息和洞察,以改进产品与服务。大数据分析工具用于分析数据,可以开发预测模型(predictive model)和规范模型(prescriptive model)。在现代化的业务流程应用中,嵌入这些模型能够提高企业的生产力和价值。同时,使用大数据分析工具可以轻松进行扩展,获取通常在大数据平台才有的可用资源。
其实,大数据分析工具经常提供的技术,一般而言,都不算什么新鲜事物。只是到最近这几年,数据挖掘算法的强大功能才被主流商业用户采用,它可以结合海量数据、多种数据类型和不同的数据结构,对数据集进行预测性分析(predictive analyses)和规范性分析(prescriptive analyses)。
但在用户看来,大数据分析仍然是一种新兴的企业级功能,要像靠它达到预期收益,一定存在风险,还要投入很大的时间成本。所以,在决定投身之前,一定要弄清楚怎样判断什么样的大数据分析适合你的企业?
有一个概念可以很清楚地区分大数据分析和其他形式的分析:要分析的数据有多大的数据量、数据规模如何和数据是否呈多样性。在过去,通常是从非常大的数据库中提取样本数据集,建立分析模型,然后通过测试再调整的过程加以改进。而现在,随着计算平台能够提供可扩展的存储和计算能力,可分析的数据量几乎不再受任何限制。这意味着,实时预测性分析和访问大量正确的数据可以帮助企业改善业绩。这样的机会取决于企业能否整合和分析不同类型大数据。以下四大类数据就是大数据要分析的数据类型:
交易数据(Transaction data)
大数据平台能够获取时间跨度更大、更海量的结构化交易数据,这样就可以对更广泛的交易数据类型进行分析,不仅仅包括POS或电子商务购物数据,还包括行为交易数据,例如Web服务器记录的互联网点击流数据日志。
人为数据(Human-generated data)
非结构数据广泛存在于电子邮件、文档、图片、音频、视频,以及通过博客、维基,尤其是社交媒体产生的数据流。这些数据为使用文本分析功能进行分析提供了丰富的数据源泉。
移动数据(Mobile data)
能够上网的智能手机和平板越来越普遍。这些移动设备上的App都能够追踪和沟通无数事件,从App内的交易数据(如搜索产品的记录事件)到个人信息资料或状态报告事件(如地点变更即报告一个新的地理编码)。
机器和传感器数据(Machine and sensor data)
这包括功能设备创建或生成的数据,例如智能电表、智能温度控制器、工厂机器和连接互联网的家用电器。这些设备可以配置为与互联网络中的其他节点通信,还可以自动向中央服务器传输数据,这样就可以对数据进行分析。机器和传感器数据是来自新兴的物联网(IoT)所产生的主要例子。来自物联网的数据可以用于构建分析模型,连续监测预测性行为(如当传感器值表示有问题时进行识别),提供规定的指令(如警示技术人员在真正出问题之前检查设备)。