Cloudera Lakehouse Optimizer助力企业轻松交付高性能Iceberg表

大数据
为进一步简化数据湖仓一体架构的管理,Cloudera推出了Cloudera Lakehouse Optimizer。该服务可智能化自动处理Iceberg表,使得许多维护作业能够在后台自动运行。

IDC调研中国数据显示,在落地GenAI应用时,68%的企业认为需要梳理内部数据资产,66%的企业希望搭建数据湖等数据底座。开放数据湖仓一体架构正迅速成为海量数据进行统一、多功能分析的标准架构。这种架构既融合了数据湖的灵活性和可扩展性,又具备数据仓库的数据分析、治理和管理功能,为企业提供了强大的数据处理能力。开放表格式是这一架构的关键组成部分,它直接在数据湖存储上提供了大量传统数据仓库的功能。目前,Apache Iceberg正迅速成为厂商和客户的标准格式。

尽管Iceberg的诸多特性可大幅降低实现高性能数据视图所需的工作量,但这些特性也带来了额外的开销,并且需要手动执行作业以优化性能和成本。为进一步简化数据湖仓一体架构的管理,Cloudera推出了Cloudera Lakehouse Optimizer。该服务可智能化自动处理Iceberg表,使得许多维护作业能够在后台自动运行。下面,我们将详细介绍Cloudera Lakehouse Optimizer的功能、优势以及未来的发展方向。

Cloudera Lakehouse Optimizer的功能

Cloudera Lakehouse Optimizer根据用户配置和Iceberg表统计数据,自动运行基于策略的Iceberg表优化任务。自动优化任务包括:

压缩Compaction企业通常会通过微批处理(Micro Batching或流式摄取(Streaming Ingestion等方式接收大量小文件,而读取这些小文件会严重影响查询性能。压缩是将小文件合并为大文件以提升性能的过程。Cloudera Lakehouse Optimizer能够自主判断自动压缩数据文件的最佳时机,确保用户的表始终保持最佳性能。该服务还会根据使用模式优先优化高价值的表,确保每次优化都能带来实际的投资回报。

表清理Table Cleanup):随着表的增长,往往会积累大量不再使用的数据文件、清单文件和快照。用户通常需要执行表维护功能,例如清除过期快照、移除旧元数据文件以及清理孤立文件,以优化存储利用率并提升性能。Cloudera Lakehouse Optimizer能够判断维护任务的最佳时机,确保存储利用率最大化

除了优化措施和基于策略的控制措施,Cloudera Lakehouse Optimizer还提供了优化任务的可观测,以帮助数据团队清晰了解策略对表和存储健康状况及性能的影响。

Cloudera Lakehouse Optimizer的优势

Cloudera Lakehouse Optimizer为使用Iceberg表的企业带来了诸多优势

  1. 通过优化存储占用空间和减少查询运行时间,降低总体拥有成本(TCO)。
  2. 通过减少查询中需要读取的文件数量,提供高性能的数据视图
  3. 通过自动执行一些繁琐的湖仓维护任务,减少数据管理工作和开销。

Cloudera内部基准测试表明,使用Cloudera Lakehouse Optimizer维护ICloudera内部基准测试表明,使用Cloudera Lakehouse Optimizer维护I

未来方向

对于想要转向开放数据湖仓一体架构的企业,Cloudera Lakehouse Optimizer当前推出的功能为他们解决了个重要难题。Cloudera的愿景是提供高性能的数据视图变得更加容易,而这仅仅是实现这一愿景所迈出的第一步。未来,我们计划增加对更多优化功能的支持,包括通过分区重组解决影响查询性能的数据分布问题查询优化。

我们的目标是确保Cloudera成为管理和访问Iceberg表的最佳平台之一,同时让企业更轻松地采用开放数据湖仓一体架构。

责任编辑:鸢玮 来源: Cloudera
相关推荐

2023-04-24 14:18:54

Cloudera动态数据大数据

2009-03-10 19:16:17

IT虚拟化SUN

2012-02-22 16:35:01

浪潮高性能计算

2017-11-28 17:14:16

华为云

2021-09-26 18:02:17

JSJavaScript交付

2011-10-13 15:46:47

F5应用交付

2012-05-23 14:10:33

深信服应用交付

2024-10-16 11:03:30

Linux高性能编程

2009-04-22 18:26:55

高性能计算多核服务器

2014-12-01 09:51:44

Radware应用交付

2022-12-07 13:58:56

Cloudera

2010-04-14 20:00:42

广域网负载均衡Radware

2019-10-12 11:12:37

云计算高性能计算系统

2009-06-25 18:07:03

刀片高性能计算曙光

2013-10-08 17:01:29

华为LTE华为

2022-09-16 13:53:14

ClouderaApache湖仓

2017-12-18 16:39:27

华为云

2009-06-03 14:24:12

ibmdwWebSphere
点赞
收藏

51CTO技术栈公众号