数据处理遵循相关标准,通过对数据进行提取、清洗、关联、比对、标识、对象化、构建知识图谱等规范化处理流程,实现异构数据 的标准化及深度融合。数据处理采用开放式架构,能够以统一、标准、
易于扩展的方式进行数据处理流程的动态编排。同时,在各环节引入了自然语言处理、多媒体信息处理和机器学习等技术,实现对数据的智能感知和认知。
2.3.2. 数据流程数据在原始库中形成数据缓存层,以支持数据加工。同时实现了非结构化数据的关键信息的提取、数据分级分类标签等处理。原始库对外提供了查询、比对、推送、订阅等服务。同时为后续的数据血缘追踪提供溯源支持。
资源库是对原始库数据进行清洗标准化及轻度整合,形成全量数据的持久化层。资源库对外支持数据的分类检索、轨迹碰撞,及明细数据的统计、分析、比对、推送、订阅等服务。
主题库通过归并及建模,形成全息视图,并且通过实体间的关系构成了关系类知识图谱和事理图谱。对外在各中心共享了实体间的关系,并完成实体标签、数据分析、统计、比对等服务。
知识库对外支撑知识类数据的查询以及模型工程、标签工程等服务。
业务库中的业务专题库实现了业务专题类分析,业务知识库汇聚了单一业务系统的知识,业务实体库中构建了业务的相关模型,业务资源库是对业务的相关数据支撑。在此基础上,实现了对外的数据统计、分析、推送及碰撞等服务。
数据资源目录对外支撑各部门对数据资源目录的查询。
2.4.2. 数据流程数据组织过程通过分层实现,经过标准化、对象化的处理过程,提高数据质量和数据价值
数据源:在接入时,一般直接进入原始库。也可直接分发,进行数据处理,存储到资源库或业务库
原始库:数据经过按需提取、清洗、关联、比对、标识(也就是数据标签)等多种数据处理后,进入资源库
资源库:资源库中可以进行结构化数据提取和清洗去重,净化数据;资源库数据在通过对象化提取、清洗归并,进行关联和标识(对象标识),输出到主题库
主题库:经离线归一化(Idmapping)计算、关联和标识(包括对象标识),计算结果可以输出到主题库或业务库
业务库:业务库内部数据也可以按需进行数据处理,供业务系统使用
知识库:资源库、主题库和业务库均有可能用到知识库,通过对资源库、主题库和业务库进行挖掘,可反哺和进一步完善知识库
2.5. 数据综合治理平台2.5.1. 平台架构