为帮助政策制定者和监管机构更好地将隐私增强技术应用于隐私保护和数据治理领域,OECD(经济合作与发展组织)近期发布《新兴的隐私增强技术:当前的监管和政策方法》(Emerging Privacy Enhancing Technologies: Current Regulatory And Policy Approaches)报告。报告评估了主要隐私增强技术的发展成熟度及其机遇和挑战,并提出了有关监管和政策建议。
摘译 |李秋娟/赛博研究院实习研究员
来源 |OECD
隐私增强技术(Privacy-enhancing Technologies,PETs)是一系列收集、处理、分析和共享信息,同时保护个人数据机密性的数字技术和方法的集合。
目前,个人数据的收集和处理方法发生了变化。由于PETs能够从数据中获得相对较高的效用并最大限度地减少数据收集和处理的需求,在技术层面上更好地保护个人数据隐私,使社会更接近隐私设计(Privacy by Design,PbD)的过程和实践,所以该项技术逐渐成为隐私和数据保护新范式的基础。PETs改变了组织收集、访问和处理数据(尤其是个人数据)的方式,为数据主体提供了更多的控制力,有助于增强对数据共享和数据重用的信任,提升数据安全和隐私保护。例如,对于无法在个人或实体之间公开的敏感数据,就可以利用PETs实现数据的协作分析。
为此,越来越多的政策制定者和隐私执法机构(PEAs)正在考虑将PETs纳入其国内隐私和数据保护框架。例如:
> G7数据保护和隐私机构圆桌会议的2022年公报《通过信任和知识共享促进数据自由流动——关于国际数据空间的前景》认识到,“PETs可以促进安全、合法和具有经济价值的数据共享,从而为创新者、政府和更广泛的公众带来重大利益。七国集团数据保护和隐私机构将寻求促进负责任和创新地使用PETs,以促进数据共享,并得到适当的技术和组织措施的支持。”
> 《OECD理事会关于保护隐私和个人数据跨境流动指南》(OECD Privacy Guidelines)也强调需要检查PETs及其在跨境数据流动中的应用:“答复国还同意,需要就可用的技术和组织保障措施提供进一步指导。具体而言,做出答复的国家和专家指出,需要深入研究使用PETs的机会和障碍,包括它们在跨境数据流中的应用。”
PETs主要技术及其成熟度、机遇和挑战
PETs包括4大类型:数据混淆、加密数据处理、联邦和分布式分析以及数据问责,其下又可细分为14项技术。由于部分项目可以归入多个类别,在此情况下,它们将被归入主要类别之中。表1概述了主要的PETs类型及其机遇和挑战。
表1.PETs的主要类型及其机遇和挑战概览
数据混淆工具
数据混淆工具包括零知识证明(ZKP)、差分隐私、合成数据以及匿名化/假名化工具。这些工具通过更改数据、添加“噪音”或删除识别细节来增强隐私保护,而无需透露敏感数据。但是,如果使用不当,数据混淆工具可能会泄露信息(例如借助数据分析和补充数据集能够对匿名数据进行重新识别)。
关键技术
1、匿名化:匿名化是从数据中删除识别元素,以防止数据主体再次被识别的过程。即使与其他数据集相结合,匿名数据理论上也无法链接回个人。在实践中,匿名化已被用作在某些情况下允许或禁止数据使用的明确界限。然而,真正具有解释力的匿名化还很难实现。
规则层面,匿名数据不再被视为个人数据。一旦数据匿名且不再可识别,那它将不属于GDPR规定下的个人数据。由于匿名化技术得到广泛应用,它也被国家立法推介为呈现个人数据的可接受方法。但目前各国立法对匿名化的要求和标准还存在显著差异。
2、假名化:与匿名化相比,假名化是一种较弱的去标识化形式。它能够从数据中删除潜在的可识别信息,降低主体的识别风险(尽管仍可能有风险残余——当与远程存储的可识别信息或外部可识别数据集结合时,假名数据保留了其重构的可能性)。在许多司法管辖区,假名数据仍被视为个人数据。
3、合成数据:合成数据是一种保密方法,它不传播真实数据,而是发布由一个或多个由种群模型生成的合成数据。人们可以区分完全合成的、部分合成的和混合的数据。其主要思想是生成与原始数据源统计属性相似的人工数据。使用合成数据可以降低隐私风险。不过,如果源数据出现在合成数据中,则仍然可以进行身份识别。此外,合成数据也容易受到再识别攻击,而且无法防止属性公开(attribute disclosure)。
4、差分隐私:在对原始数据进行微小更改(添加噪音)以掩盖输入细节的同时,差分隐私技术能够保持数据的解释力。其思路是对单个记录的微小更改,可以安全地对输入的信息进行去标识化处理而不会对结果产生重大影响。
当有人试图重新识别已发布的数据时,差分隐私为数据主体提供了可否认性保护。引入数据集的噪音不会改变大规模分析结果,但会提升单个数据的可靠性和对数据主体的保护程度。该技术在学界得到了很好的发展,不过只有少数组织在大规模部署。下一步,政策制定者有必要就差分隐私的可接受参数和阈值提供指导。
5、零知识证明(ZKP):ZKP能够在隐藏基本数据的情况下回答关于事物是真是假的简单问题。该技术在数据主体验证敏感信息时得以适用(例如,潜在租客的收入是否超过预定的阈值,或个人是否达最低年龄)。
ZKP具备保护隐私的重要特性,但其应用仍处于早期阶段,目前主要用于提高加密货币应用程序的安全性。未来,在健康、选举、年龄验证和交通管理方面,ZKP有望得到大规模使用。另外,ZKP越来越多地被考虑用于数字身份管理系统,成为支撑未来欧洲数字身份钱包的关键技术之一。
加密数据处理工具
加密数据处理工具包括同态加密、多方计算以及可信执行环境。加密数据处理工具能够保障数据在使用时保持加密(使用中加密),从而避免在处理前对数据进行解密。与数据混淆相反,该系列工具保持底层数据不变。但这些工具往往需要很高的计算成本。
关键技术
1、同态加密(HE):不同于标准数据处理方法要求数据对数据处理者可见,同态加密一般用于计算加密数据。数据主体在将数据传输给处理者之前使用密钥锁定数据,供处理者对加密数据执行简单(但逐渐复杂)的计算,以提取只能使用数据主体的密钥解锁的加密结果。由此同态加密可以确保数据保持严格的机密性,降低使用中数据的安全风险。随着同态加密应用程序的出现,政策制定者有必要评估如何依法认定同态加密模型中加密个人数据的法律性质。
然而,同态加密的计算效率远低于标准数据分析,它需要更长的计算时间和更高的算力。效率和隐私之间的这种权衡,意味着同态加密仅适用于隐私利益高于计算和分析成本的情形。目前,该技术的多数用例都是小规模完成的。随着更强有力的政策推动以及技术进步,这种情况可能会发生变化。
2、多方计算(MPC):多方计算能够使参与各方在保持输入数据私密性的同时,共同计算输入数据的函数。从本质上讲,该技术不需要可信的第三方查看和管理数据。实践中往往使用秘密共享或同态加密技术对来自多方的数据进行聚合和计算。多方计算是一种很有前景的隐私增强工具,与同态加密一样,政策制定者需要考虑法律如何认定多方计算中加密数据的法律性质。
隐私集合求交(Private Set Intersection,PSI)是多方计算的一种形式,其仅显示不同数据集中的共享元素,而不泄露各自数据集的内容,可以帮助组织在不泄露各自数据集内容的情况下找到数据集中的共同元素。PSI是多方计算和同态加密技术最成熟的应用之一,目前已大规模应用于实践。例如COVID-19接触者追踪功能,就是利用PSI技术判断用户是否与感染该病毒的其他人有过密切接触。
3、可信执行环境(TEE):可信执行环境是计算机处理器上与操作系统分离并保护的专用区域,用于保存敏感的、不可变的数据,并可以在其安全范围内运行安全代码,避免将数据暴露在不可信环境的风险中。TEE假定操作系统是可损坏的且不值得信任的。因此,在TEE下,操作系统不能访问处理器安全区域中的信息或读取存储的秘密信息。
监管机构未来可以成为TEE的推广者。目前,ARM、英特尔和高通等主要芯片制造商以及苹果、谷歌和三星等软件供应商已在其设备上实施了TEE。
联邦和分布式分析
联邦和分布式分析能够对不可见或不可访问的数据执行分析任务,其条件是需要稳定可靠的网络连接。
关键技术
1、联邦学习:传统的数据分析技术需要将数据作为单个数据集进行链接和处理。联邦学习技术可以在数据源处对数据进行预处理,从而保障第三方分析数据时,敏感数据由数据源保管。通过这种方式,只有汇总的统计信息被传递给执行任务的人员,以便与其他人的类似数据相结合。联邦学习减少了敏感数据泄露风险并满足了由数据源存储的需要。政策制定者可以明确哪些数据必须在本地进行预处理,以保护数据主体的敏感个人数据。
联邦学习被谷歌等公司广泛用于预测文本应用程序。然而,仍然有人担心从联邦学习中提取的特征/参数在某些情况下仍然会泄露个人信息,并且越来越多的攻击着眼于恢复训练数据。
2、分布式分析:这是一种将数据分析分散到多个节点的方法,其思路是将数据驻留在数据控制器的中心位置,但在分散的节点上进行模型训练。通过“指挥”软件和统计分析程序“移动”到数据所在的位置,分布式分析能够避免数据流动,使得敏感数据在由第三方分析时仍可以保存在数据源处。
与联邦学习类似,其不允许数据分析人员和数据处理者直接访问数据,所有要使用的数据都需要首先编码为一个通用数据模型。欧盟委员会的《欧盟数据战略》就将这种去中心化的数据处理方式列为了改善用户控制和数据保护合规性的一种方法。
数据问责工具
数据问责工具包括问责系统、阈值秘密共享和个人数据存储。这些工具的主要目的并不是在技术层面保护个人数据的机密性,因此通常不被视为严格意义上的PETs。但是它们试图通过提升数据主体的数据控制权、设置和执行访问数据的规则来增强隐私和数据保护。目前,大多数工具都处于早期开发阶段,用例范围狭窄,缺乏独立的应用程序。
关键技术
1、问责系统:问责系统是管理数据的使用和共享并跟踪合规性的软件系统。它们控制和跟踪数据的收集方式、处理方式以及使用时间。问责系统设计的关键目标之一是授予数据访问权限,并对数据的处理和使用附加限制。
问责系统能够确保对初始范围之外使用个人数据的行为进行限制。数据规则和条例可以集成到系统中以确保合规性。但是,对于政策制定者而言,这些系统仍处于试点阶段,全面付诸实践还尚待时日。
问责系统可以利用区块链等分布式账本技术(DLT)来确保数据的不变性(在记录后无法追溯更改数据),其分布式特性也不易受到数字安全事件的影响。当应用于问责系统时,隐私分布式账本技术能为访问、传输或处理数据提供安全、不可变的存储记录。
但这并不意味着DLT就是一种安全的PETs,事实上,使用DLT(尤其是区块链技术)甚至会对隐私和数据保护带来风险和挑战。例如,OECD指出:“区块链具有一定的局限性和风险,其中一些是区块链特有的,而另一些则与更广泛的数字技术相关,例如与隐私和安全性、访问凭证的保管和密码学漏洞”。
2、阈值密钥分享(TSS):又称为多方计算阈值签名(MPCts)。它是一个数字版的“安全盒子”,配有多个单独的锁,密钥由不同的人持有,需要预先确定数量的钥匙持有者都同意使用密钥才能解锁。
在数据控制者访问和使用数据之前,该技术能够设置必须满足的阈值,从而增强隐私和数据保护。这些阈值可以由数据主体商定,也可以通过监管规定来设定。但到目前为止,关于特定用例安全阈值的指导极少。目前TSS的应用主要针对较小的数据量,例如使用TSS来保护强密码(而不是保护数据本身)。
3、个人数据存储/个人信息管理系统:当前的数据处理技术要求组织收集个人数据并将其存储在大型数据集中。个人数据存储系统改变了这种范式。它们将个人数据存储的控制权交给个人,个人可以选择数据存储、访问或处理的地点和方式。
个人数据存储(PDS)能够加强隐私和数据保护,为用户提供对自己个人数据的更多控制,是实现数据携带权和增强信息自决的手段之一。但是PDS的部署和采用还面临一些重大挑战。例如,一些PDS将更多的数据安全责任交给了数据主体,而不是数据控制者/数据处理者(后者拥有更多的资源和经验来保护数据),这使得确定利益相关者之间的监管责任具有挑战性。
个人数据存储/个人信息管理系统目前发展缓慢,大部分仍处于试点阶段。Inrupt等私营企业已经筹集了资金,但还没有一个平台成功扩张。由于最大的数据平台可能不愿意放弃当前的数据治理范式,因此采用这种模式也存在重大障碍。
但随着“数字身份钱包”等数字身份管理系统的采用,这种情况可能会使个人数据存储/个人信息管理系统的普遍使用成为可能。目前,欧盟“数字身份钱包”已被定义为拟议的eIDAS条例的一部分,该条例允许“用户根据各自交易所需的用例和安全性,选择何时以及与哪家私人服务提供商共享各种属性”。
CYBER RESEARCH INSTITUTE