Google 如何对数据进行匿名化处理
匿名化是一种数据处理技术,可移除或修改个人身份信息;经过匿名化处理的数据无法用来与任何个人关联到一起。匿名化也是 Google 在践行保护用户隐私之承诺的过程中的一项关键举措。
正是通过对匿名化处理后的数据进行仔细分析,我们才得以打造出安全且有价值的产品及功能(例如自动填充正输入的搜索查询),并得以提高对安全威胁(例如网上诱骗网站和恶意软件网站)的检测能力,所有这一切都是在保护用户身份的前提下实现的。我们也可非常放心地与外部分享经过匿名化处理的数据,在不泄露用户隐私的情况下让他人亦能使用这些数据。
我们为保护您的数据而采用的其中两项技术
对数据进行泛化处理
与其他数据元素相较而言,某些数据元素更容易用来与特定的个人关联到一起。为保护这些特定个人的隐私,我们会采用泛化技术来移除部分相关数据,或者使用常见值取而代之。例如,我们可能会采用泛化技术以相同的数字序列来取代所有的区号或电话号码条目。
通过泛化处理,我们可以实现 K 匿名效果。K 匿名是业界标准术语,这是一种技术,用于隐藏一群相似人员中各人的身份。此术语中的 K 是一个数字,表示相应群组内的人数。对于数据集中的任何人,如果有至少 K-1 个人具有相同的属性,即表示该数据集已实现 K 匿名效果。例如,假设有一个数据集,对应的 K 是 50,属性是邮政编码。如果我们查看该数据集中任何人的相关数据,一定会发现另外 49 个人也有着相同的邮政编码。因此,仅根据邮政编码,我们无法辨识该数据集中任何人的身份。
如果某数据集中的所有人都具有相同的敏感属性值,那么只要知道这些人属于相关数据集,就可能会知道这项敏感信息。为降低这种风险,我们可能会采用 L 多样性。L 多样性也是业界标准术语,用于表示敏感值中的多样性程度。例如,假设有一群人全都在同一时间搜索了同一敏感健康主题(例如流感症状)。如果我们查看该数据集,将无法知道到底是谁搜索了这个主题(得益于 K 匿名)。不过,由于该数据集中的所有人都具有相同的敏感属性(即查询的主题),因此可能依然会存在泄露隐私的风险。L 多样性意味着匿名化处理后的数据集将不会只包含流感查询,而是会同时包含流感查询以及其他查询,以便进一步保护用户隐私。
向数据中添加噪声
差别隐私(也是业界标准术语)是一种向数据中添加数学噪声的技术。如果使用了这种技术,就无法确定任何个人是否属于某数据集,因为给定算法的输出结果看起来基本都一样,无论是包含了还是未包含相应个人的信息都是如此。例如,假设我们正在衡量某地理区域的整体流感查询趋势。为实现差别隐私,我们可向该数据集中添加噪声。这意味着我们可增加或减少某个社区中搜索流感相关内容的人数,但这样做并不会影响我们在较大的地理区域范围内衡量这一趋势。不过,请务必注意,向数据中添加噪声可能会导致数据变得不那么实用。
为践行保护用户隐私之承诺,我们采取了很多举措,匿名化只是其中之一;其他举措还包含严格控制对用户数据的访问权、制定政策来控制和限制添加可能会泄露用户身份的数据集,以及集中审核匿名化处理和数据管理策略以确保所有 Google 产品及服务都能提供统一的保护措施。