大数据所宣称的重大承诺:能够通过显著增加的信息库推动更深入的分析并获得有价值的见解。虽然这些都有可能帮助企业实现真正的商业价值,并改变企业的运作方式,但企业想要实现这些目标,还需要使企业的数据更易于审查,并清晰的显示出相关的洞察力。
而这便促成了数据可视化工具的应运而生。这通常能够提供:新的数据集的迅速整合能力;去除限制性的元数据层;一项业务,而不是一项技术或工具(即直观的最小编码要求);以及高性能。
这些特性都为较大的供应商所提供的更传统的可视化工具带来了挑战。因此,在过去的四到五年,他们已经开始逐步获得一定的市场份额了。他们的成功都来自他们能够帮助企业在短短一个星期的时间内就能够提供很强的业务洞察能力。
由于这些工具的灵活性,这些工具现在也正在为企业提供一个直接与大数据整合的平台,如Hadoop和Cassandra(一个混合型的非关系的数据库)。然而,现在我们看到,老的供应商也开始在以新产品打入市场的堆栈来解决这一差距,并希望在未来一两年内再次洗牌,重新巩固市场。
在大数据领域,高性能是一项特别的挑战。大数据量的特质和查询速度使得数据将通过仓库工具Hive进行整合,这意味着直接针对数据的查询将抑制工具的动态性能。
这些工具的关键用例是快速的发现而非创造标准的报告。这意味着所需的数据在本质上是暂时性的——需要支持一种假设,然后丢弃。这导致了实现高性能的领先方案是创建特定的数据集,例如,通过引导图减少工作量,以及捕捉可视化工具中的内存。
可视化工具的一个关键性的好处是,他们改变了项目交付的方法。因为他们允许通过原型快速实现价值可视化,他们能够在被纳入一个工业化的平台之前,在低成本点证明价值。作为这一进程的一部分,可视化工具提供了一个共同的语言,通过它,企业的IT部门和业务部门可以进行沟通。这就创造了一个对于需求的清晰的认识,有助于设置什么能够被交付的期望。
虽然能够实现数据的快速可视化有很多好处,我们也看到创建Excel电子表格或者Access数据库进行数据库访问所存在的一些老的内在危险问题。鉴于此,支持大数据可视化必须采用一个强大的数据管理方法已经是一个不争的事实。
这将创建一个混合环境的需要。在实践中,这意味着数据首先是在大数据环境下进行探索;然后,如果这些探索揭示了某些数据报道所需要的价值,此时数据才被推广到传统的关系型数据库,无论是MPP或内存中的。
不容忽视的最后一个方面是,这些工具对于业务部门和IT部门之间的关系所产生的影响。可视化工具将授权业务,从而帮助企业业务部门实现快速的见解,并驱动更高价值的数据资产。因此,IT部门将需要以一套更加灵活的方式来提供数据。
这将创建一个二分法。一方面,必须迅速提供信息,在更传统的过程以外驱动价值。另一方面,一旦解决方案需要工业化,还需要通过更传统的项目进行刚性的治理。未能达到适当的平衡,会导致挫折和价值的明显减少。
两个部门都有其自己的责任:业务部门需要建立适当的洞察见解,并确保以企业正常的运作方式驱动变革,而IT部门需要提供一套适当治理水平的数据服务。
鉴于整个行业仍在不断发展,我们可以期待看到更高的智能可视化工具将如何能够索引结果。这些工具将在用户开始发出请求之前预测用户的数据需求,并创建个性化的内存缓存,从而有助于解决性能挑战。
当前趋势指向出现了一个自助服务分析环境,使企业用户可以从几乎无穷无尽的信息来源设置参数,调查范围只受他们创造力的限制。但是传统上,更结构化的方法和强大的数据治理将始终发挥着至关重要的作用。他们不应该是使用可视化和大数据的一个障碍,而应该是众多的解决方案的一部分。