导读:图模型作为当前流行的信息处理加工技术,自提出以来,迅速在学术界和工业界得到了普及,在智能推荐、决策分析等方面有着广泛的应用。
作者:华为公司数据管理部
来源:华章科技
图模型由节点和边组成。节点表示实体或概念,边则由属性或关系构成。
我们以“哲学家”为例设计图模型,如图5-13所示。
▲图5-13 图模型示例
图模型构建包含几个关键步骤,如图5-14所示。
▲图5-14 企业图模型构建步骤
第一步:业务场景定义业务场景决定信息涵盖范围,以及信息颗粒度的表示。
以支撑业务连续性为例,因为不可抗力的影响,部分区域的供应商工厂无法正常生产和发货,涉及的信息包括供应商的信息、产能、元器件及内部物料、合同和客户信息,要求能够根据用户输入的当前物料储备和合同状态,获取影响内部物料、产品、合同交付和客户的清单和范围。
这种应用涉及对产品目录和配置的解读,需要对收集的信息进行最小采购器件的抽取。
信息颗粒度在图模型建设中是个不可忽视的问题,根据应用场景决定信息颗粒度以及图模型的精确性与有效性。比如手机,有品牌、型号、批次,直至手机整机。同样的信息范围,颗粒度越细,图模型应用越广泛,关系越丰富,但冗余越多,知识消费越低效。信息颗粒度的原则是“能满足业务应用的最粗颗粒度”。
第二步:信息收集信息的选取要考虑两个方面的内容。
- 与应用场景直接相关的信息。例如,判断不可抗力供应中断影响的范围,直接相关的信息有物料信息、产品配置、合同信息等。
- 与应用场景间接相关,但可辅助理解问题的信息。这包括企业信息、专业领域信息、行业信息以及开放域信息。
相同的数据可以有若干种模式的定义,良好的模式可以减少数据冗余,提高实体识别的准确率,在建模的过程中,要结合数据特点与应用场景来完成。同样的数据从不同的视角可以得出不同的图模型。
第四步:实体、概念、属性、关系的标注企业图模型中涉及的实体和概念可分为三类:
企业图模型中实体、概念的识别可将业务输入与数据资产中已有的信息作为种子,运用命名实体识别(NER)的方法扩展出新实体概念,经业务确认后,列入实体、概念库。
第六步:属性识别与关系识别企业图模型中的属性与关系一般是根据业务知识在模式层设计时定义,属性与关系相对稳定,其扩展场景不是很多。
企业图模型的存储技术要综合考虑应用场景、图模型中节点和联接的数量、逻辑的复杂度、属性的复杂度,以及性能要求。一般建议采用混合存储方式,用图数据库存储关系,关系型数据库或键值对存储属性。偏重逻辑推理的应用场景用RDF的存储方式,偏重图计算的应用场景选择属性图的存储方式。发挥两类数据存储和读写的各自优势。
知识计算主要是根据图谱提供的信息得到更多隐含的知识,如通过模式层以及规则推理技术可以获取数据中存在的隐含信息。知识计算涉及三大关键技术:图挖掘计算、基于本体的推理、基于规则的推理。图挖掘计算是基于图论的相关算法,实现对图谱的探索和挖掘。图挖掘计算主要分为如下6类。
图挖掘计算如图5-15所示。
▲图5-15 图模型示例
图挖掘计算在当前的应用场景中,基于业务连续性,通过查询遍历图模型,识别影响节点和影响范围,基于最短路径,辅助决策物流线路,在企业中的应用较为普遍。
图模型在企业中的价值,很大程度上取决于企业基于对象节点可以构建多完善的关系,这个关系的构建是一个逐步完善的过程,基于业务场景不断补充和完善关系,这就是图模型的优势。
当形成一个足够完善的企业级图模型后,领域分段的业务场景应用只需要裁剪部分节点和关系,就可以满足业务的需求,达到快速响应业务需求、降低开发成本的目的。
关于作者:华为公司数据管理部,作为集团层面的数据管理组织,主要负责公司数据工作的战略规划、路标举措以及实施落地;数据从产生到消费全生命周期管理的治理框架、流程规范、方法和IT工具的制定与推行;公司级信息架构的设计和数据资产的治理维护;主持集团层面数据相关项目,推动以数据为核心的数字化转型等工作。
本文摘编自《华为数据之道》,经出版方授权发布。
延伸阅读《华为数据之道》
推荐语:华为官方出品!这是一部从技术、流程、管理等多个维度系统讲解华为数据治理和数字化转型的著作。