有道精品课缓存文件,有道精品课剪辑

首页 > 实用技巧 > 作者:YD1662023-10-29 03:47:14

具体查询Demo如下所示,我们通过学生的基础信息Join各种练习信息,对学生数据进行补齐。

有道精品课缓存文件,有道精品课剪辑(5)

原来我们使用ES的时候,由于很多表没有数据写入时间,数据分析师需要每天扫全表导出全量数据到Hive,这对我们的集群有很大压力,并且也会导致数据延迟上升,我们在引入了Doris后,对所有数仓表都添加 eventStamp, updateStamp, deleted这三个字段。

  1. eventStamp:事件发生时间
  2. updateStamp:Doris数据更新时间,在Routine Load中生成
  3. deleted:数据是否删除,由于我们很多实时数仓需要定时同步到离线数仓,所以数据需要采取软删除的模式

数据对下游同步时可以灵活的选择eventStamp或者updateStamp进行增量同步。数据同步我们采用了多种方式,通过Hive表名后缀来决定不同同步场景:

  1. _f:每天/每小时全量同步,基于Doris Export全量导出
  2. _i:每天/每小时增量同步,基于Doris Export按分区导出/网易易数扫表导出
  3. _d:每天镜像同步,基于Doris Export全量导出

有道精品课缓存文件,有道精品课剪辑(6)

将Elasticsearch中的数据进行整理并结合后续的业务场景,我们划分出了如下四个指标域:

有道精品课缓存文件,有道精品课剪辑(7)

根据上面的指标域,我们基于星型模型开始构建实时数仓,在Doris中构建了20余张数仓底表以及10余张维表,通过网易易数构建了完整的指标系统。

有道精品课缓存文件,有道精品课剪辑(8)

上一页12345下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.