支撑电信、金融、医疗、安全、电力等关键行业大数据应用的基础软件平台将呈一体化形态,它以数据为中心,将操作系统、分布式存储、数据库等产品融合起来,对结构化、半结构化和非结构化等全数据进行高效存储与管理,并对应用提供统一的数据服务支撑接口。大数据环境下的基础软件平台很像一个“泛OS”,将传统操作系统、存储、数据库等等产品和组件有机融合,做到存储资源、计算资源等有效管理和调度,同时为上层数据应用提供统一、易用接口,实现数据采集、存储、计算、应用等全周期的高效易用、安全可靠和易管理。
图 1 行业大数据处理基础软件平台“一体化”框架图
国际上一体化融合的大数据处理平台已经成为主流趋势。国际IT巨头们在积极发展以平台为核心、面向新型应用模式的一体化行业解决方案和生态系统。2013年,EMC公司发布了自身的Apache Hadoop发行版—Pivotal HD,它将大规模并行数据库技术与Apache Hadoop框架集成,同时发布了一个名为HAWQ的技术,将Greenplum分析型数据库与Hadoop分布式架构进行紧密地融合,实现了HDFS上SQL并行数据库处理,提高了性能并使Hadoop平台与SQL开发者实现了接轨。惠普则发布了大数据解决方案HAVEn分析平台,该平台是惠普大数据产品的组合,它整合了Hadoop/HDFS、HP Autonomy语义处理引擎、HP Vertica列存数据库、EntERPrise Security安全技术等形成大数据处理方案。
图 2 Pivotal HD架构图
图 3 HAVEn Platform结构图
围绕行业大数据应用构建大数据处理基础软件平台的关键问题是如何解决结构化和非/半结构化不同类型的数据融合,以及实现不同类型数据处理模式的整合。单一的MPP数据库或Hadoop产品一般很难满足行业用户对结构化和非/半结构化数据融合的业务需求,这两种方式的界限正在实际应用部署被打破,市场上正逐步形成以全数据处理为核心,垂直整合操作系统、MPP数据库、Hadoop、统一数据服务的基础软件平台产品。
在国内,业界的主流思路是:用基于MPP架构的新型数据库集群(如EMC GreenPlum、南大通用GBase 8a、HP Vertica等)管理结构化大数据,侧重于行业大数据分析型应用场景;用基于Hadoop的技术扩展和封装(如HBase数据库)管理非/半结构化大数据,侧重于互联网大数据应用场景。MPP集群与Hadoop产品混搭部署、相互融合,共同支撑大数据应用。
MPP与Hadoop的应用融合是大数据处理基础软件平台需要解决的一个核心技术问题。为了让平台能够更好地支撑行业大数据应用,不改变用户习惯的SQL这种更易于理解的、交互性更好的访问接口,架构需要以MPP数据库及计算框架为核心,将MPP运算调度引擎完全融入非关系型运算调度框架,实现可以同时调度关系运算和非关系运算的调度引擎,构建统一的结构化信息提取和数据类型转换框架,将非/半结构化数据映射为关系模型,实现面向关系模型的全数据统一视图,从而平滑的实现MPP数据库和Hadoop的统一调度和处理,为新型的基础软件平台和上层应用提供数据服务。
当前,国家的大数据战略、信息安全战略,以及大数据行业应用引发了对国产大数据处理基础软件平台的强劲需求。国产基础软件厂商应协同作战,抓紧市场与技术的双重时机,发展国产化大数据处理基础软件平台,并在国计民生的大数据应用系统中成为重要支撑。与此同时,在关键发展时间窗,国家应及时给予大力支持和帮助,避免大数据领域基础软件平台几年后再次走上“国产化”替代的老路。