数据中台数据架构是针对多源异构的数据场景,在数据组织层面为数据的接入、融合及智能数据应用服务等提供稳定、高效的支撑。从数据的接入方式、存储方式、加工方式、使用方式等方面综合考虑,资源库是在原始库的基础上进行数据的规范化治理及基于数据主题的整合;主题库是以原始数据、资源数据为基础,构件实体关系模型,并在此基础上形成的知识图谱和事理图谱等;业务库是为了支撑不同业务场景所定义的相关数据结构。知识库是专业领域或与专业领域相关的特征知识数据和规则方法集合。
此外还包括整合数据索引信息的统一索引库;记录了本平台及与平台相关的数据的属性、位置、数据 量、权限等基本信息的数据资源目录;记录了技术元数据、业务元数据、管理元数据的元数据库;以及为交互分析挖掘规划的数据实验空间和记录平台相关管理配置信息的管理信息库。数据架构图如下:
采用统一的数据接入模式,以标准化、模块化的方式进行多源异构数据资源的接入;提供采集全面、动态可配的数据接入机制,实现数据的获取分发、策略配置、任务配置、任务调度、数据加密、断点续传等数据接入功能;当接入时,同时维护数据资源目录,以及数据血缘信息。
2.2.2. 数据流程平台提供一站式的数据迁移接入功能,内部数据通过专用数据通道进入统一接入平台,可在接入过程中做初步的清洗加工,并提供可视化的任务调度运行管理,并向数据智能管理和数据治理提供数据支撑。
2.3. 数据加工处理平台数据加工处理是实现数据标准化的过程,包括了数据的提取、清洗、关联、比对、标识、对象化等操作,支持实时计算和离线计算,支持批量处理操作。数据传输过程支持分布式数据传输方式。在数据处理过程中,引入人工智能技术,实现结构化和非结构化数据的处理,采用图计算和内存计算技术,实现数据的价值提升。在数据处理过程中,引入模型体系和标签工程和知识图谱技术,进一步提升数据价值密度,为数据智能应用实现数据增值、数据准备、数据抽象。
2.3.1. 平台架构