(文/Cloudera数据仓库产品管理高级总监Bill Zhang)IDC调研中国数据显示,在落地GenAI应用时,68%的企业认为需要梳理内部数据资产,66%的企业希望搭建数据湖等数据底座。开放式数据湖仓一体架构正迅速成为海量数据进行统一、多功能分析的标准架构。这种架构既融合了数据湖的灵活性和可扩展性,又具备数据仓库的数据分析、治理和管理功能,为企业提供了强大的数据处理能力。开放表格式是这一架构的关键组成部分,它直接在数据湖存储上提供了大量传统数据仓库的功能。目前,Apache Iceberg正迅速成为厂商和客户的标准格式。
尽管Iceberg的诸多特性可大幅降低实现高性能数据视图所需的工作量,但这些特性也带来了额外的开销,并且需要手动执行作业以优化性能和成本。为进一步简化数据湖仓一体架构的管理,Cloudera推出了Cloudera Lakehouse Optimizer。该服务可智能化自动处理Iceberg表,使得许多维护作业能够在后台自动运行。下面,我们将详细介绍Cloudera Lakehouse Optimizer的功能、优势以及未来的发展方向。
Cloudera Lakehouse Optimizer的功能
Cloudera Lakehouse Optimizer根据用户配置和Iceberg表统计数据,自动运行基于策略的Iceberg表优化任务。自动优化任务包括:
压缩(Compaction):企业通常会通过微批处理(Micro Batching)或流式摄取(Streaming Ingestion)等方式接收大量小文件,而读取这些小文件会严重影响查询性能。压缩是将小文件合并为大文件以提升性能的过程。Cloudera Lakehouse Optimizer能够自主判断自动压缩数据文件的最佳时机,确保用户的表始终保持最佳性能。该服务还会根据使用模式优先优化高价值的表,确保每次优化都能带来实际的投资回报。
表清理(Table Cleanup):随着表的增长,往往会积累大量不再使用的数据文件、清单文件和快照。用户通常需要执行表维护功能,例如清除过期快照、移除旧元数据文件以及清理孤立文件,以优化存储利用率并提升性能。Cloudera Lakehouse Optimizer能够自主判断维护任务的最佳时机,确保表的存储利用率最大化。
除了优化措施和基于策略的控制措施,Cloudera Lakehouse Optimizer还提供了优化任务的可观测性,以帮助数据团队清晰了解策略对表和存储健康状况及性能的影响。
Cloudera Lakehouse Optimizer的优势
Cloudera Lakehouse Optimizer为使用Iceberg表的企业带来了诸多优势:
· 通过优化存储占用空间和减少查询运行时间,降低总体拥有成本(TCO)。
· 通过减少查询中需要读取的文件数量,提供高性能的数据视图。
· 通过自动执行一些繁琐的湖仓维护任务,减少数据管理工作和开销。

Cloudera内部基准测试表明,使用Cloudera Lakehouse Optimizer维护Iceberg表可显著节约成本。实际效果因使用场景不同可能有所差异。
未来方向
对于想要转向开放式数据湖仓一体架构的企业,Cloudera Lakehouse Optimizer当前推出的功能为他们解决了两个重要难题。Cloudera的愿景是让提供高性能的数据视图变得更加容易,而这仅仅是实现这一愿景所迈出的第一步。未来,我们计划增加对更多优化功能的支持,包括通过分区重组解决影响查询性能的数据分布问题和查询优化。
我们的目标是确保Cloudera成为管理和访问Iceberg表的最佳平台之一,同时让企业更轻松地采用开放式数据湖仓一体架构。

罗德与施瓦茨在 EuMW 2024 上展示基于光子技术的6G超稳定可调太赫兹系统
2024-10-08

2023-08-03

班轮巨头股价重挫!美国港口短暂罢工馀波未平:至少需要3周处理积压集装箱
2024-10-14

承诺式交付,所设即所得 | 维谛技术(Vertiv)成功化解“设计PUE≠交付PUE”痛点
2023-08-18

铠侠领先推出面向企业与数据中心的CD8P系列PCIe 5.0 SSD
2023-08-08

威立雅中国2025世界环境日特别活动“星星的绿笔迹”:以童真之眼,绘就循环未来
2025-06-05

2022-12-17

2025-08-19

移远通信发布两款Wi-Fi 6模组新品:率先采用亚马逊ACK SDK for Matter方案实现互联互通
2024-06-27

菲亚特动力科技与BIMOTOR携手助力HIGH TECH MARINE为摩纳哥公国打造新款消防船
2024-09-24