- 数据稳定性与质量治理:解决数据产出及时性和准确性问题
- 数据规范治理:解决数据口径一致性问题
- 数据安全治理:解决数据权限控制与数据共享交换问题
- 数据成本治理:解决数据计算和存储成本高昂问题
① 数据稳定性
阿里巴巴每天有千万级大数据计算任务产生海量数据,千万级任务的调度情况下,调度依赖关系复杂程度远超过人工处理程度,阿里推出了智能基线监控机制确保高优先任务高保障产出。
- 智能识别(DAG)关键路径,合理设定告警阈值
- 任务异常产生事件,自动评估事件影响范围,通知相应人员
- 灵活告警方式配置,支持钉钉群机器人、电话
② 数据质量治理
数据质量直接影响数据价值和加工效率,高质量的数据对完整性、有效性、准确性、唯一性、一致性、合理性等特性有很高的要求。阿里巴巴将这些特性封装成灵活的规则,然后将规则应用到具体的任务,通过调度平台,进行规则巡检和规则执行,并对有问题的任务进行告警或者阻塞处理。其关键特点如下:
- 质量监控与调度挂钩,第一时间发现问题,避免上游脏数据污染下游数据,大大减小影响面。
- 40 规则&自定义规则,精细化质量控制。
- 无需设定阈值,算法自动判断异常值。
- 故障快速恢复。
③ 数据规范治理
数据在实现层面以表为单位进行,阿里巴巴围绕数据生产使用全生命周期,在指标体系设计、数据模型设计、数据处理任务开发、数据服务开放等环节的每个关键阶段都设计具体标准、流程及规范,同时抽象核心公共层,进行强管控:架构评审,发布管控,建设评估,持续改进。而对核心以外的部分,采取轻约束的方式推进。
④ 数据标准管理
数据的标准,主要是落实到开发层面的具体规范约束,比如制定各类数据实体(元素、码表、模型分层、模型等)的设计约束,规范每类业务实体包含的属性,属性是否必须,属性内容约束等规则。
具体如图所示: