在关于大数据的交流对话中,缺少对支持其运行的必要基础设施的关注—特别是实时应用方面。
对于很多企业来说,大数据意味着有权使用它们一直用的数据仓库。数据仓库已经并将继续作为企业级组织的关键组成部分。
这样的系统通过组织提供数据集合并且可以将数据分解并打包,使业务分析师能够对业务状况进行深入分析。
正是这种数据形式(经分析处理转化为可操作的信息),将被集成到数据中心,用于应用程序和基础设施,作为输入信息进入无数的系统和程序来进行近实时决策。
但是,数据仓库的设计并不是为了这些形式的大量的集成和访问量,也不是为了各种各样的协助处理数据的商业智能系统。
有时候大量的输入数据会使支持系统崩溃,加上那些大量的试图访问精确数据的系统,这样的应用程序不大可能支撑住如此大的压力。
如果企业中的大数据成为用来发展业务和操作的成功平台,那么必须将它视为一个更重要的数据中心资产。这一途径需要长时间艰苦的努力进行基础设施和体系结构的建设,以保证对该系统的访问并且可以扩展以满足更多需要。
与用在面向公众的应用程序一样的体系结构,我们几乎肯定会用于实现模型中,该模型中大数据可以像传统使用一样(每天甚至每周)以及接近实时。这是我们期待的下一代数据中心模型的发展方向,也是最有价值的地方。
数据检索堵塞
可靠性是最重要的,尤其是涉及基础设施的地方。基础设施和应用服务的整合经常会出现障碍,这会导致系统在实时检索数据时需要进行等待。它就是不能连续处理,直到该进程完成或者以其他方式成功。
当服务运行良好的时候,堵塞不再是什么问题。数据几乎可以立即重新获取,并继续进行处理。但是当服务不堪重负时,对此依赖的系统将陷入等待响应。
这种延迟会影响数据供应链,从服务本身到相依系统以及最终的用户,这些用户不明白为什么系统会反应迟钝,因为它深深隐藏在几个体系架构层下,还没有办法通过系统及时通知他们。
因此,大数据系统的可靠性和性能是必须保证的。一个适当的设计架构,要聚焦可扩展性和内部关联性,这是大数据驱动组织的特点。
今天所关注的投入体系结构的建设以实现可扩展性的路肯定需要很长的时间,才能使整个数据中心能够广泛的使用大数据。