导读 物化视图(Materialized View,以下简称 MV)是将查询结果预先计算并存储的一种特殊的物理表,当执行相关查询时,可以自动复用预计算结果,提高查询性能。物化视图作为一种查询加速器,在云计算和大数据时代有着广泛的用途。今天和大家分享物化视图在 MaxCompute 的实践。
本次介绍将围绕下面四点展开:
1. MaxCompute 和物化视图
2. 功能设计和具体实现
3. 智能推荐及自动物化视图
4. 总结和展望
分享嘉宾|雷春蔚 阿里云 MaxCompute SQL引擎技术专家,Apache Calcite PMC
编辑整理|李笑宇
内容校对|李瑶
出品社区|DataFun
01
MaxCompute 和物化视图
MaxCompute 是一个多功能、高性能、易使用的企业级的数据仓库服务,已经为阿里巴巴集团提供服务达 14 年。目前每日 DML 的任务数超过了 2,600 万,单日的数据量规模达到 EB 级,服务集团内用户 4W 。在如此大的体量之下,也暴露出几个问题:随着业务的规模越来越大,重复计算越来越多,消耗了大量资源;对于计算结果的产出时效有了更高要求;通过大批量改造脚本来进行数据治理的成本高,难度大。最终物化视图成为解决以上问题的最佳方案。
与普通视图(Virtual View)不同,物化视图存储的是查询结果的物理副本,而普通视图仅仅是一个虚拟的表,它在查询时才动态地生成结果。物化视图的发展历史与数据库技术的进步紧密相关。以下是物化视图发展的一些关键阶段。
- 早期数据库阶段:早期的数据库系统中,并没有物化视图的概念。数据库主要关注于数据的存储和基本的查询操作。
- RDBMS 视图阶段:视图允许用户通过 SQL 语句定义一个虚拟表,这个虚拟表是基于一个或多个实际表的查询结果。然而,早期的视图通常是非物化的,即它们在查询时才计算结果。
- RDBMS 物化视图阶段:物化视图的概念在 20 世纪 90 年代初期被提出。物化视图将查询结果实际存储在数据库中,这样用户就可以像访问普通表一样访问物化视图,而不需要每次都执行复杂的查询。随着数据库技术的发展,物化视图的性能优化和自动化管理成为研究的重点。数据库管理系统(DBMS)提供了更多的功能来优化物化视图的性能,如增量更新、自动更新、并行处理等。
- 云原生大数据物化视图阶段:在云计算和大数据时代,物化视图的作用变得更加重要和普遍。基于云计算几乎无限的可扩展性,物化视图可以适应更大的数据集;实时计算引擎提高了物化视图的更新频率和更新效率;自动化和编排工具使得物化视图的创建、管理和刷新变得简单;云计算通常是按需付费模式,物化视图节约了计算资源,实现降本增效;物化视图可以作为数据质量的检查点,监控数据质量。
物化视图的优点如下:
- 提高查询性能:对于复杂的查询,由于物化视图存储了查询结果,对于频繁执行的查询,可以直接从物化视图中读取数据,而不需要每次都执行完整的查询,从而提高了查询效率。
- 保持数据一致性:物化视图可以定期刷新,以确保数据的一致性。在数据变化不频繁的情况下,这可以减少数据同步的开销。
- 应急查询:物化视图允许用户在数据库服务器关闭或网络连接中断时,仍然可以访问和分析数据。
物化视图也有一些缺点:
- 存储空间:物化视图需要额外的存储空间来保存查询结果。
- 数据更新:如果底层数据频繁变动,物化视图需要定期刷新,这可能会增加维护成本。
- 复杂性:对于某些复杂的查询,物化视图可能难以实现或者维护。
02
物化视图的设计和实现
在物化视图的设计阶段,我们关注物化视图的创建、维护和应用。
1. 如何创建物化视图
MaxCompute 支持创建普通物化视图、分区物化视图、聚簇物化视图和穿透物化视图,具体的创建方式体现在建表语句中,PARTITIONED BY (col_name) 语句指定创建物化视图表为分区表,CLUSTERED BY (col_name) SORTED BY (col_name [ASC | DESC])INTO number_of_buckets BUCKETS 语句指定创建物化视图为聚簇表。
在物化视图创建的过程中有两个关键点,第一个是需要建立一个基表到物化视图的索引,这样在查询时就能快速地获取到相关的物化视图。第二个是基表数据版本保存,在物化视图的元数据中需要保存对应基表的数据版本;另外对于分区物化视图,要求分区物化视图的分区列和基表保持一致,这样的话,可以实现分区级的增量更新。