为什么要确定属性的取值范围,属性值的计算过程是什么

首页 > 游戏 > 作者:YD1662024-01-02 16:07:47

图2 盒装数据产品的质量评测体系

3.2 质量指标

建立了盒装数据产品的3个质量维度后,每个维度还需要细分为2~5个质量指标,这些指标可以定量地评估盒装数据产品的质量。时间完整性维度划分为时间覆盖率、时效性和可溯源性3个指标,空间完整性维度划分为空间覆盖率和空间一致性两个指标,而内容完整性维度划分为属性覆盖率、准确性、一致性、可获取性和权威性5个指标。这10个指标的具体含义见表1。

为什么要确定属性的取值范围,属性值的计算过程是什么(5)

(1) 时间完整性维度

时间完整性从3个方面刻画数据产品是否满足时间的质量需求。一是时间覆盖率,指数据集中的数据对象在数据产品所描述的各个时间点上有具体的值,没有缺失。如果数据对象在某些时间点上没有值或者存在描述时间之外的值,则都属于不完整的情况。二是时效性,指数据产品能否在需要的时候得到保证。例如,数据购买者需要购买A医院2021年心脏病患者诊断检验数据集,但是A医院只能提供2020年的相关数据,则无法满足需要提供最新诊断检验数据集的需求。三是可溯源性,指数据产品可以进行溯源。

(2)空间完整性维度

空间完整性从两个方面刻画数据产品是否满足空间的质量需求。一是空间覆盖率,指数据产品中的全体数据对象都应该包含在数据集中。如果没有包含某些数据对象,则是不完整的;如果包含了数据产品描述之外的数据对象,则也是不完整的。二是空间一致性,指描述数据对象之间的空间逻辑关系是否与现实世界相匹配,例如,某一空间数据产品提供昆明市2021年的地图数据集,但是,其中有些用来表征面的数据对象存在重叠和空隙,这就不满足空间逻辑关系一致的需求。

(3)内容完整性维度

内容完整性从5个方面刻画数据产品是否满足内容的质量需求。一是属性覆盖率,指数据集中的数据对象内容完整,没有遗漏,也没有多余。例如,在GPS数据产品中,每辆出租车当天的经度、纬度、运行状态、方向和车速共同构成完整的行驶数据。如果这5种属性少了某一种或某几种属性,那么内容就是不完整的;当然,如果多了某些属性,则也是不完整的。二是准确性,指数据对象的取值是否真实、准确地描述应用场景或者误差能在一定的允许范围内。例如,2020年9月7日出租车云A*****的经度、纬度、运行状态、方向和车速与实际情况相符,那它的数值准确无误;或者某一兴趣点(point of interest, POI)的经纬度误差控制在0.000001°以内,则数值准确。三是一致性,指数据产品间属性或数据内容的一致程度。例如,“2021年高德地图中上海市POI数据集”数据产品(以下简称POI数据产品)中,邮政编码与地址信息要一致。四是可获取性,表示数据产品可以方便地获取或者允许授权用户进行下载和使用。例如,POI数据产品可以直接在交易平台购买或者通过API授权下载。五是权威性,表示数据产品由权威机构或者专业人员提供,可靠性和可用性都很高。例如,POI数据产品由高德提供,高德是国内数字地图、导航和位置服务解决方案提供商,具备国家甲级导航电子地图测绘和甲级航空摄影资质,因此它是一家地图类数据产品的权威提供商。

4 盒装数据产品的质量评测模型

为了更形式化地描述盒装数据产品的质量评测模型,本文给出如下变量定义,见表2。下面将描述各评价指标对应的评测模型。

为什么要确定属性的取值范围,属性值的计算过程是什么(6)

4.1 时间完整性评测模型

时间完整性的 评测模型如下:

为什么要确定属性的取值范围,属性值的计算过程是什么(7)

其中,w1~w3表示权重,w1 w2 w3=1,可以根据实际需求或者评测指标的重要性确定权重的取值。PTCOV、PTTL和PTPRO分别表示时间覆盖率、时效性和可溯源性的评测结果。

(1)时间覆盖率评测模型

数据对象oi如果在某个时间点上有缺失,就会影响数据产品的时间完整性。假设映射函数F(x)表示数据对象在某个时间点上是否存在,则有:

为什么要确定属性的取值范围,属性值的计算过程是什么(8)

上一页12345下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.