其实,“大数据”概念第一次被提出,可以追溯到1998年,一家美国高性能计算公司的科学家,在一次国际会议报告中,用“Big Data”(大数据)来描述数据量增长带来的挑战。
到了2013年,开始有越来越多的企业看到大数据的价值,发现大数据能够为企业业务赋能,通过对海量数据量的有效存储、管理和分析,可以获得更实时的市场洞察力。并且,人们还发现,大数据不是一个单一的技术,而是一系列数据管理技术的集合体,它对整个社会及人类带来的影响,将有别于以往任何技术变革。
那么,十几年时间过去了,今天的大数据发展到何种状态?我们需要做些什么,才能让大数据应用变得更加成熟?
从各种应用分析和调查来看,虽然企业的数据量呈爆发趋势增长,也更重视信息的来源和使用价值,但在实际的商业价值推动上,并没有带来显著成果。虽然大数据概念炒得很火热,但应用上仍停留在如何将正确的信息在正确的时间发送给正确的人。
数据仓库vs数据湖vs数据管理架构
为了收集、获取海量数据,各种数据存储和管理系统如雨后春笋般诞生,包括数据仓库、数据湖和数据管理架构等,开始加快走向企业应用场景中。
只是,当企业的解决方案以及平台架构开始增多,业务的复杂性也随之增加,企业需要一个标准的数据管理架构,去整合所有的数据以及多样的应用工具,包括能实现跨环境以及混合应用的管理。以往集中式架构,已经不能满足企业的业务需求了。或者说,企业需要更强大的数据分析能力,能对不同的数据源进行访问。这也是以Data Fabric为核心的数据管理架构,变得越来越流行的最根本原因。
理论上讲,企业需要一个核心数据库,能确保所有的数据都是最新、易管理,并且是干净数据;但之前的数据架构模式不可能实现,而Data Fabric则能帮助企业实现不同数据的管理,并且能把各种数据之间的关系关联起来,而不是将所有的数据倾倒在一个数据湖中。
所以,在数据的整个治理过程中,所有相关的应用都很重要。比如:我们可以通过数据仓库实现高性能、可重复的分析;而数据湖可以存储用于开发和测试的数据;Data Mesh 这种基于领域驱动和自服务的数据架构设计模式,可以用来管理分布式数据,因为该服务本身借鉴了微服务和 Service Mesh 分布式架构思想。提到Data Mesh,有人可能要问Data Mesh和Data Fabric是什么关系?其实,Data Mesh和Data Fabric在概念上都差不多,都是一种新型的数据管理架构,都致力于让数据互联互通。
一站式大数据平台构建
当企业业务上升到一定量,构建大数据平台成为必须品。问题是,大数据平台如何构建?不同企业有不同选择!
有专家建议,最好采用两种策略构建企业大数据平台,即一个用于生产,另一个用于分析。但笔者认为,基于一个标准的数据架构构建大数据平台,更有利于数据管理。如果每个业务部门都建自己的平台,需要支持多个数据库,还得需要一个ETL平台完成数据之间的转换。这时,数据的真实性、实时性都会出现挑战。构建大数据平台,最终的目标是为了整合数据,让所有的数据实现可视化管理,并且无论数据在企业内部还是云端,都能实现统一管理。多一个数据平台,就意味着企业在进行数据整合时,会增加额外的成本,并且容易出现数据安全隐患。
当然,构建一个能覆盖所有环境的大数据平台,也不是一件容易的事。大多数时候,一个供应商的解决方案也没那么全面,比如:有的提供了查询功能,但治理方面差了一些;有的虽然解决了大数据的规模化处理,但后期的数据迁移成为一大挑战。所以,企业拥有多个企业提供的数据管理解决方案,可能是一种常态。
如果企业选型选对,基于标准的数据架构来打造打造大数据平台,那意味企业拥有了先天的一站式大数据平台管理能力,后期可以通过各种工具和手段进行数据的标准化管理。
比如:基于Data Fabric,企业从设计之初开始,就拥有了一个可灵活扩展、多次复用和持续优化的数据管道,技术开发人员可以根据服务和语义,支持复杂环境部署,通过资源的灵活调度,交付各种应用。