从数据质量到数据产品质量
蔡莉1, 朱扬勇2,3
1 云南大学软件学院
2 复旦大学计算机科学技术学院
3 上海市数据科学重点实验室
摘要:长期以来,数据质量研究主要是为了满足组织自身信息系统正常运行的需求。随着数据要素市场的建设与发展,数据的质量需求从“自用需求”转变为“他用需求”“监管需求”。数据市场中的数据产品质量问题是数据使用者(购买者)和市场监管机构重点关注的内容。分析了数据产品质量的使用者需求和监管者需求,创新性地提出了一个数据产品质量体系框架;在此基础上,以盒装数据产品为例,从时间、空间和内容完整性3个方面构建了对应的质量维度、质量指标和质量评测模型。该质量体系可以对资源类数据产品进行检测和评定,能够为数据产品购买者和市场监管机构提供行之有效的检测依据和标准。
关键词: 数据产品 ; 数据质量 ; 质量管理 ; 盒装数据
论文引用格式:
蔡莉, 朱扬勇. 从数据质量到数据产品质量. 大数据[J], 2022, 8(3): 26-39.
CAI L, ZHU Y Y. From data quality to data products quality. Big data research[J], 2022, 8(3): 26-39.
0 引言数据作为信息化的副产品,长期以来处于自产自用的状态,数据质量研究也集中在数据自产自用过程中的质量管理和控制方面。数据质量是随着信息系统的发展而出现的,数据质量会直接影响信息系统的运行效果,因此需开展数据质量研究。数据质量逐渐形成一个专业的研究领域,并涌现出许多重要的研究成果。在20世纪70年代至90年代,数据质量问题的研究更多来源于行业应用,如会计领域、管理领域、统计领域和计算机领域,没有一个关于数据质量的统一知识体系;在1990—1999年,美国麻省理工学院(MIT)的数据质量研究小组在Wang R Y教授的带领下提出了全面数据质量管理(total data quality management,TDQM)的理论,美国国会要求联邦政府的行政管理和预算局(Office of Management and Budget, OMB)制定新的政策,确保所发布数据的可靠性,即数据要有质量;2005年,国际标准化组织(International Organization for Standardization,ISO)下设的委员会开始组织撰写ISO 8000标准,2001年美国国会正式批准“信息质量法”。
市场上流通的产品被称为商品,任何一种在市场上流通的商品在上市前都需要满足一定的产品质量标准、规范或要求,数据产品亦不例外。因此,数据从自用到商品这个质的变化也必将表现在数据质量上,有关数据的质量研究和实践需要从关注原始数据质量到关注数据产品质量、从内部质量控制到外部质量检测,即数据用户和政府监管部门要对数据产品的质量提出要求并进行检测。本文针对数据产品的质量需求,构建了一个数据产品的质量体系,该体系包括数据产品质量的使用需求、数据产品质量的监管需求、数据产品质量评测等6个部分。该体系能为监管机构或消费者提供切实可行的检测依据和标准。本文以盒装数据为例,将数据产品质量体系具体化。
1 关于数据的质量新需求1.1 数据产品质量现状农业经济时代的关键生产要素是劳动力和土地,工业经济时代的关键生产要素是资本和技术,而自大数据出现以来,数据是数字经济的关键要素成为共识,从数据满足企业自身信息系统运行到将数据拿到市场上流通,这是数据的质的变化。
美国农业部经济研究服务机构下设数据产品审查委员会,该委员负责监督和实施数据产品必须遵循的质量需求,确保每个数据产品都符合实用性、客观性、透明度、完整性和可访问性标准。美国国家环境信息中心世界海洋数据库(world ocean database,WOD)对其发布的海洋剖面和海洋生物观测数据产品有着严格的质量控制流程,保障了数据产品的稳定性和权威性。上述关于数据产品质量的做法仍然局限在某些部门或领域,不是严格意义上的数据产品质量,其数据产品并不具有通用性和市场流通性。在国内数据要素市场建设方面,有30多家数据交易机构基本没有对数据产品的质量进行监管,仅2021年11月25日成立的上海数据交易所对交易标的的数据质量进行了明确要求。
在市场上流通的数据应该是数据产品,数据产品具有数据类别格式多种多样、数据规模大小不一、数据对象内容千差万别等特点,因此要形成一个被广泛认可的数据产品标准形态,在此基础上才能构建出一个合理的、具备权威性的数据质量体系。一旦数据产品质量体系构建完成,市场监管部门就可以根据数据产品质量标准检测市场上流通的数据产品质量,而数据产品生产企业就可以根据数据产品质量标准管控数据生成过程各个环节的数据质量问题,提升数据产品质量,达到产品质量标准。
1.2 数据产品质量的使用者需求数据产品在市场上流通,给他人使用,即数据的“他用需求”。那么使用者(购买者)对数据产品的质量有什么需求呢?目前,在数据交易市场上,数据产品的使用者对产品质量的需求有如下几个方面。
(1)数据量充裕
不同行业或者应用场景下,数据购买者对数据量的需求有所不同。例如,一家做医药O2O(online to offline)的电商平台希望购买能提供药品-病症之间的关系的数据集。国内市场上销售的常规药品的数量达到6万种,如果所购买的数据产品中的数据对象能涵盖这6万种药品,那么数据量就符合购买者的需求。再如,购买者需要利用出租车的全球定位系统(global positioning system,GPS)轨迹数据分析居民出行的热点区域,假定购买者所在城市大约有7 300辆出租车,如果数据集能涵盖全部出租车的运行数据,那么数据量也符合购买需求。此外,数据量还与时间有一定关联。一个月的出租车运行数据肯定比一周的运行数据更加充足,从中获取的数据分析或者数据挖掘的结果也更加准确。因此,数据量表示了在某一应用场景下,数据购买者对数据产品所涵盖数据集的广度和深度的要求。
(2)来源权威
数据产品是否由权威机构提供,或者由权威专家或专业人员参与数据产品的采集、处理、实现和发布,以及比对的标杆是否来源于权威资料,也是数据购买者关注的质量需求之一。以前文的药品数据产品为例,通常能提供药品信息的权威机构是药品监督管理局,但其提供的数据并不包括疾病方面的信息,无法满足购买者的需求。于是,购买者退而求其次,只能从一家提供药学服务的公司购买所需要的数据产品。
(3)数据准确
数据产品的准确性是数据购买者关注的第三个质量需求,数据产品的准确性越高,其可信度越高,所能产生的数据价值也就越高;反之,则可信度越低,数据价值也越低。准确性的衡量比较困难,当有标准数据集或者参考数据集时,可以将数据对象与之进行对比,确定其准确性。否则,只能在一定误差范围内确定准确性。在上述例子中,可以将药品数据产品中的部分信息与药品监督管理局提供的药物信息进行对比,以确定内容的准确性。但是,出租车的GPS轨迹数据没有对应的标准数据集或者参考数据集,只能在一个给定的限制条件下判断其准确性。例如,如果一辆出租车在工作日早高峰某个时间点的车速达到 120 km/h,基本可以判断这一数值是错误的。
(4)数据之间的一致性
数据产品中的数据对象都有一些属性或者字段,有些属性之间会存在一定的关联关系或者映射关系,这些关系可以被统称为一致性。例如,邮政编码与地址信息存在一种映射关系,邮政编码涵盖了周边一定投递范围内的地址信息。如果两者不匹配,那就破坏了一致性的质量需求。另外,有些数据产品直接来源于数据库中不同表之间的连接查询结果,一张表中某个属性的取值范围由另一张表中对应属性的取值确定,这也是一致性需求的体现。
(5)数据产品的时间
有一些应用场景对数据产品的发布时间或者更新时间有明确要求,甚至希望能提供近乎实时的数据。例如,某导航公司准备提供实时路况的查询功能,因而需要购买浮动车数据。所谓浮动车就是安装了GPS设备的车辆,通过网络将实时的经纬度位置、车头方向、速度等值传递到处理中心,进而计算出全市主要道路的路况信息。通常,浮动车包括出租车、长途客车、物流车辆等,其中最重要的车辆就是穿梭于城市各种道路的出租车。还有一些应用场景则希望数据产品的更新时间能与自己的业务相匹配,以获得更优质的服务。例如,一个外卖平台与提供高分天气预报的公司合作,想结合天气预报做更多的场景挖掘,比如分钟级降雨预报,以此判断接下来2 h订单量是否激增,外卖员的平均送单时间是否增加等。
(6) 数据产品的获取方式
数据产品的获取方式多种多样,有一些数据产品可以直接到交易平台购买;另一些数据产品由于数量较大,交易平台上只会提供样本数据,全量数据需要经过一定授权后通过应用程序接口(application programming interface,API)下载,或者经过协商后采取远程查询数据库的方式获取。因此,数据产品获取方式的难易程度也是购买者关注的一个质量需求。
(7)质量反馈
某些数据产品的适用场景较少,购买者数量不多,导致该产品的评价或者反馈意见很少。还有一些数据产品由于适用场景较为广泛,出现了数量较多的购买者。如果数据产品也能像普通商品一样提供用户购买后的使用体验或者质量反馈,就能帮助新的购买者判断这一产品是否符合自己的需求、是否值得购买。
(8)元数据信息
元数据是用来解释数据的数据,它可以帮助购买者理解数据产品的各种信息和真实语义,是数据提供者和购买者之间沟通和理解的桥梁。元数据记录了数据计算文档、语法和语义描述、质量指标、访问控制策略、数据“血缘关系”等信息。
1.3 数据产品质量的监管者需求数据产品流通市场需要政府监管才能保证市场的公开、公平和公正,才能形成一个良性市场。数据市场 监管者对数据产品质量的需求就是“监管需求”,包括如下4个方面。
(1)数据产品的合规性
数据产品是在充分挖掘数据价值的基础上帮助用户进行决策(甚至行动)的一种产品形式。数据产品来源于数据,因此,数据采集或爬取是否符合国家的法律法规成为监管者最关注的监管需求。当前,数据产品的提供者主要是企业,而企业数据合规风险来自由大量个人信息构成的运营数据,我国现行法规要求企业在采集公民个人信息时坚持同意、合理、最小化3项基本原则。在交易数据产品之前,市场监管部门需要调查数据来源的合法性,调查因素包括被收集人是否知晓该数据被数据产品提供方收集、数据流通行为是否已经得到被收集人同意、数据利用形式是否已告知被收集人并得到同意以及接收数据的种类等。除了通过业务采集的数据,一些企业还会通过爬虫技术抓取外部数据。非法的数据爬取会带来不正当竞争、侵犯商业秘密等民事纠纷或非法获取计算机系统数据罪的风险,这些风险也需要监管部门予以考虑。
(2)有效的数据产品质量标准
数据产品在市场上交易之前,最好能通过相应的质量检测,现阶段这一工作主要由 数据产品提供方自行完成。由于我国并未出台针对数据产品的国家质量标准,数据产品提供方会依据自己制定的质量标准完成检测。质量标准不统一使得监管部门或者购买者难以判断数据产品的质量,进而影响后续的数据定价以及质量问题维权。此外,现有参与交易的产品质量检测报告大多由数据产品提供方自己提供,很少由第三方质量检测机 构出具,缺乏一定的公信力。如果国家层面或者行业层面能出台一个有效的数据产品质量标准,那么该标准既可作为数据产品生产、检验和评定质量的技术依据,又能为数据要素市场的发展提供强有力的服务保障。
(3)数据产品的可溯源性
一些数据产品是由原始数据集经过一定的处理形成的衍生产品,这些处理涉及流转、复制、迁移、集成、抽取、计算等操作。如果没有对原生数据的溯源信息进行记录,将在很大程度上降低数据产品的真实性和有效性,从而为特定的数据应用场景带来风险。溯源信息可被看作数据的元数据,通常包括what、why、when和where 4个方面的元素。其中,what描述影响数据发生的事件,包括创建、使用、存储和转换,甚至涉及数据的存档;why描述事件发生的原因;when记录事件发生的时间;who是这些事件涉及的人或组织。数据产品的可溯源是指利用标记、数字指纹等方式,实现对数据产品整个生命周期内所经历的全部操作及变换信息的描述,确保由原始数据衍生的数据产品真实可靠,也是建立信任和实现责任制的重要基础。
(4)应用场景明确
数据产品的产生和交易是为了满足用户的某些需求,其应用场景描述了关于产品、用户及其环境的背景信息、用户的目的或目标、一系列活动和事件等内容。由于用户的需求类型多样,明确应用场景一方面可以帮助监管部门判断数据产品是否合规,另一方面也可以提供切合实际管理和应用需求的数据产品和业务应用。
2 数据产品质量体系框架根据上述数据产品的质量需求,本文创新地提出了 一个质量体系框架,如图1所示。该质量体系框架主要由应用场景确认、数据产品管理、质量需求描述、质量维度选择、评估模型及方法建立和 数据产品质量监控6个部分构成。
图1 数据产品的质量体系框架
(1)应用场景确认
在数据交易市场中,数据本身具有可复制性,因此不同的使用者和不同的使用场景具有不同的价值,不同行业下的应用场景对同一数据产品的需求大相径庭。为了避免违法违规,甚至禁止交易的数据产品或目前不宜交易的数据产品流入交易市场,数据产品的提供者需要明确给出产品的使用场景,以供市场监管方评估及核查。
(2) 数据产品管理
按照产品的呈现形式和使用方式,数据产品可分为数据资源类、数据服务类以及数据咨询/决策类3种类型,不同类型的数据产品在质量维度选择和评估模型及方法建立上有较大区别。数据产品管理是将相同或者类似的产品按照应用场景进行归类和存储,从而方便后续的质量评估和监测。
(3)质量需求描述
数据产品质量需求主要有两个来源,分别为使用者和监管者,前者对应数据产品应用角度的要求,后者对应数据产品监管目标。数据产品质量需求涉及范围和影响程度不一,较小的需求以数据集中的数据对象修改为单位,处理方式简单直接;较大的需求以整个数据集为代表,剖析数据来源,甚至包括采集方式和业务规则的调整。
(4)质量维度选择
在数据质量研究中,研究者提出的质量维度多达20余个,这些维度从不同角度反映了测量和管理数据质量的需求。质量维度的选择主要由数据产品质量标准来确定,但现阶段并未出台针对数据产品的国家标准或者行业标准。因此,可以依据数据产品质量需求、国家的相关法律法规以及应用场景来确定。同时,将质量维度应用到实际的评估模型时,还应该分析数据类型、数据格式和属性值域的分布,以建立每一个维度下的具体评估指标。
(5)评估模型及方法建立
评估模型及方法建立指对各类数据的特征进行分析,根据分析结果和所选择的质量维度及其评估指标,建立评估模型。之后,确定评估方法及其详细过程。评估方法可以采用定性评估、定量评估或者综合评估方法。
(6)数据产品质量监控
数据产品质量监控覆盖数据产品在交易平台上的全流程,并对其进行质量监管和检验,具体任务包括数据产品登记、数据产品合规审查、数据产品溯源、数据产品质量评估、质量报告生成、数据产品交易追踪和数据产品质量反馈等内容。
3 盒装数据产品的质量框架和质量指标数据产品有多种类型,而盒装数据是叶雅珍等人提出的一种资源型的数据产品标准形态,包括盒内数据和盒外包装两个部分。其中,盒内数据是指“时间 空间 内容”三维度的数据立方体组织,一般包括图像、图形、视频、音频、文本、结构化数据等多种类型的数据;盒外包装是包括产品登记证书、使用说明书、质量证书、合规证书等内容的数据盒外部形态。
3.1 质量维度盒内数据是用时间维度、空间维度、内容维度来表示的,因此数据质量也可以从这3个维度来评测。图2显示了本文提出的针对盒装数据的质量评测体系。整个质量评测体系是一个两层的多维度、多指标的结构。数据产品质量维度是一个可以测量和改进的数据产品的某个特性或者属性。事实上,质量维度提供了一种用于测量和管理数据产品质量以及信息的方式。数据产品质量指标归属于质量维度,是质量维度更细化的评测形式。