视图的作用与功能（基本视图的主要作用） - 原点资讯

导读物化视图（Materialized View，以下简称 MV）是将查询结果预先计算并存储的一种特殊的物理表，当执行相关查询时，可以自动复用预计算结果，提高查询性能。物化视图作为一种查询加速器，在云计算和大数据时代有着广泛的用途。今天和大家分享物化视图在 MaxCompute 的实践。

本次介绍将围绕下面四点展开：

1. MaxCompute 和物化视图

2. 功能设计和具体实现

3. 智能推荐及自动物化视图

4. 总结和展望

分享嘉宾｜雷春蔚阿里云 MaxCompute SQL引擎技术专家，Apache Calcite PMC

编辑整理｜李笑宇

内容校对｜李瑶

出品社区｜DataFun

MaxCompute 和物化视图

MaxCompute 是一个多功能、高性能、易使用的企业级的数据仓库服务，已经为阿里巴巴集团提供服务达 14 年。目前每日 DML 的任务数超过了 2,600 万，单日的数据量规模达到 EB 级，服务集团内用户 4W 。在如此大的体量之下，也暴露出几个问题：随着业务的规模越来越大，重复计算越来越多，消耗了大量资源；对于计算结果的产出时效有了更高要求；通过大批量改造脚本来进行数据治理的成本高，难度大。最终物化视图成为解决以上问题的最佳方案。

与普通视图（Virtual View）不同，物化视图存储的是查询结果的物理副本，而普通视图仅仅是一个虚拟的表，它在查询时才动态地生成结果。物化视图的发展历史与数据库技术的进步紧密相关。以下是物化视图发展的一些关键阶段。

视图的作用与功能,基本视图的主要作用(1)

早期数据库阶段：早期的数据库系统中，并没有物化视图的概念。数据库主要关注于数据的存储和基本的查询操作。
RDBMS 视图阶段：视图允许用户通过 SQL 语句定义一个虚拟表，这个虚拟表是基于一个或多个实际表的查询结果。然而，早期的视图通常是非物化的，即它们在查询时才计算结果。
RDBMS 物化视图阶段：物化视图的概念在 20 世纪 90 年代初期被提出。物化视图将查询结果实际存储在数据库中，这样用户就可以像访问普通表一样访问物化视图，而不需要每次都执行复杂的查询。随着数据库技术的发展，物化视图的性能优化和自动化管理成为研究的重点。数据库管理系统（DBMS）提供了更多的功能来优化物化视图的性能，如增量更新、自动更新、并行处理等。
云原生大数据物化视图阶段：在云计算和大数据时代，物化视图的作用变得更加重要和普遍。基于云计算几乎无限的可扩展性，物化视图可以适应更大的数据集；实时计算引擎提高了物化视图的更新频率和更新效率；自动化和编排工具使得物化视图的创建、管理和刷新变得简单；云计算通常是按需付费模式，物化视图节约了计算资源，实现降本增效；物化视图可以作为数据质量的检查点，监控数据质量。

物化视图的优点如下：

提高查询性能：对于复杂的查询，由于物化视图存储了查询结果，对于频繁执行的查询，可以直接从物化视图中读取数据，而不需要每次都执行完整的查询，从而提高了查询效率。
保持数据一致性：物化视图可以定期刷新，以确保数据的一致性。在数据变化不频繁的情况下，这可以减少数据同步的开销。
应急查询：物化视图允许用户在数据库服务器关闭或网络连接中断时，仍然可以访问和分析数据。

物化视图也有一些缺点：

存储空间：物化视图需要额外的存储空间来保存查询结果。
数据更新：如果底层数据频繁变动，物化视图需要定期刷新，这可能会增加维护成本。
复杂性：对于某些复杂的查询，物化视图可能难以实现或者维护。

物化视图的设计和实现

视图的作用与功能,基本视图的主要作用(2)

在物化视图的设计阶段，我们关注物化视图的创建、维护和应用。

1. 如何创建物化视图

MaxCompute 支持创建普通物化视图、分区物化视图、聚簇物化视图和穿透物化视图，具体的创建方式体现在建表语句中，PARTITIONED BY (col_name) 语句指定创建物化视图表为分区表，CLUSTERED BY (col_name) SORTED BY (col_name [ASC | DESC]）INTO number_of_buckets BUCKETS 语句指定创建物化视图为聚簇表。

视图的作用与功能,基本视图的主要作用(3)