在大数据领域,无人不知随着 2019年 Cloudera 与 Hortonworks 的合并,两家公司也进行了能力整合,并且合并了两家公司的代表产品CDH和HDP,推出新的数据平台 CDP (Cloudera Data Platform)。据 Cloudera 大中华区区域副总裁王刚透露,目前,83% 的中国客户已经完成或者部分完成 CDP 的升级。“客户的关键任务对于 CDP 平台还是相对比较依赖的,因此客户的付费意愿也比较强,也是源于客户认可 CDP 平台的价值,认可 CDP 的产品路线图,从而选择升级。”
如今,数据量越来越大,产生的速度也越来越快,企业希望可以实时进行数据分析,快速为业务做出辅助决策。为此,Cloudera 也从产品功能方面进行创新,帮助企业客户可以在多个公有云、私有云以及本地数据中心访问和分析数据,使企业能够做出由数据驱动的明智决策,帮助企业建立由数据驱动的未来。
Cloudera 大中华区区域副总裁王刚
动态数据处理让数据管道更强大
众所周知,数据分为两类,一类是静态数据(Data at Rest),指驻留在存储设备上的数据,这些文件没有打开,也没有传输到任何地方。另一类是动态数据(Data in motion),是指在两台设备之间移动的数据。
数据的价值随着时间的流逝而降低,所以企业希望可以实时访问数据,并进行加工处理,而不是缓存后再进行批处理。因此,Cloudera推出动态数据管理产品Cloudera Data-in-Motion,通过 DataFlow & Stream Processing 让数据管道变得更加强大。DataFlow 通过 Apache NiFi 支持的云原生服务,可以连接位于任何地方的任何数据源,处理并交付到任何目的地。Cloudera Stream Processing (CSP) 通过提供分析流数据复杂模式的能力,并获得可行动的情报,使客户能够将流转化为数据产品。CSP 由 Apache Flink 和 Kafka 提供支持,提供完整的企业级流管理和有状态处理解决方案。
Cloudera 大中华区技术总监刘隶放详细介绍了 Cloudera Data-in-Motion 的开源三大组件,并强调了基于开源组件进行了企业级产品的管理和支持增强。
Cloudera 大中华区技术总监刘隶放
一是 Apache Nifi,支撑数据的接入到接出,并且针对一些特定的要求完成了标准接口,保证数据在流转过程中,特别是在复杂的多对多或多对一的情况下进行数据流转的长期支持。让开发人员可以连接任何地方,任何数据源,任何结构类型的数据,处理加工并交付到任何地方。
二是 Apache Kafka,Cloudera 在 Kafka 开源标准产品组件之上进行了能力增强。包括Streams Messaging Manager 用于监控/操作集群、Streams Replication Manager 用于高可用性/灾难恢复部署、Schema Registry 用于集中模式管理,以及Kafka Connect 用于简洁的数据移动和变更数据捕获,巡航控制用于智能重新平衡和自我修复。
三是 Apache Flink,支持低延迟流处理能力,使用户能够通过 REST 端点使用行业标准 SQL 和 API 编写流应用程序,从而简化开发步骤,并且支持多云和混合云模式。
此外,借助 Cloudera SDX 的 Apache Ranger & Apache Atlas 工具,可以保障企业的数据流安全可控,监控和得到有效治理。
据了解,Cloudera Data-in-Motion 动态数据管理产品具有三大优势,一是可以获得更快的速度,包括数据摄取、数据处理、全量数据分析洞察等方面的速度都可以得到有效提升;二是该平台可以打破数据摄取的竖井,简化开发、测试和部署,降低运营复杂性;最后,一个解决方案就可以消除数据移动的复制,让团队工作效率更高。
三大新产品,满足企业多种数据需求
为了满足企业多种数据需求,Cloudera 基于 推出三个新的产品,包括私有云数据服务PVC DS、湖仓一体的关键组成部分 Iceberg,以及对象存储组件 Ozone。
PVC DS(Private Cloud Data Service)是一个私有云数据服务,基于 K8s 的对外服务组件,可以实现数据加工、数据仓库和机器学习的处理,并且通过统一的安全管理让企业的权限管理变得更加简单。此外,K8s 具有伸缩性特点,并且可以实现集群之间的绝对隔离,保障了业务的可用性和安全性。
Iceberg 是开放的湖仓一体架构的关键组成部分,集成并统一了数据仓库和数据湖的功能,单一平台即可支持当数据仓库扩展到一定程度时,SQL 调优就很难处理,此外,数据仓库无法支撑更高的机器查询需求。因此,Cloudera 基于 Iceberg 进行了企业级的支持和数据安全性的保障,包括安全体系的搭建,安全用户的检查以及事后溯源等工作,并且提供了各种各样丰富的功能,例如时间行程、快照隔离、模式演化、隐藏分区等。
随着客户系统数据的快速增长,传统存储组件存在大量存储问题,例如小文件存储、数据总量等问题。为此,Cloudera 提供了新的对象存储组件 Ozone,解决了 HDFS 相对于小文件的规模限制,并且支持原生
刘隶放表示,未来 Cloudera 会专注在三个方面。首先是私有云和公有云层面对云原生服务的支持;二是在湖仓一体方面,在引入 Iceberg 后,会持续进行投入,从而引领社区发展;三是在存储方面,在 CDP 平台支持更多小文件、更大的数据量存储。