Google 採用的資料匿名處理方式

所謂「匿名處理」是一種資料處理技術，能夠移除或更改個人識別資訊；資訊經過匿名處理後，即去除了與任何個人的關聯性。在 Google 嚴謹的隱私權保護措施中，匿名處理程序是至關重要的元素。

透過分析匿名資料，我們得以打造安全又有價值的產品和功能 (例如在使用者輸入一部分搜尋字詞時自動顯示完整的查詢字串) ，也能更有效地偵測安全性威脅 (例如網路釣魚和惡意軟體網站)，並全程保護使用者的身分。我們也可以無後顧之憂地將匿名資料提供給外部人士，在不影響使用者隱私權的情況下分享實用的資訊。

我們採用的其中兩種資料保護技術

資料通泛化

有一些特定的資料元素比較容易讓人連結到特定的個人。為了保護這些個人，我們採用通泛化處理技術，將一部分的資料移除，或是將當中某些片段換成相同的值。舉例來說，我們可運用通泛化處理技術，將所有電話區碼或電話號碼的某些片段換成相同的一系列數字。

通泛化處理流程有助於我們達到 K-匿名 (K-anonymity) 狀態。K-匿名這個業界標準術語所指的是一種技術，可將特定人士隱藏於相似人群中，藉此保護其身分；其中 K 代表人群的規模。針對資料集中的任何個人，如有至少 K-1 個人擁有相同屬性，該資料集即達到 K 匿名狀態。舉例來說，假設某資料集的 K 值為 50，而屬性為郵遞區號。當我們從該資料集中挑出任何一人，一定會有另外 49 人與他擁有相同的郵遞區號。因此，我們無法單單透過郵遞區號識別任何人的身分。

如果在資料集中，所有個人的某個敏感屬性都有相同的值，那麼只要知道這些人均屬於該資料集，就有可能揭露該敏感資訊。為了降低此風險，我們可利用 L-多樣性 (L-diversity) 來達到此一目的。這個業界標準術語是用於描述敏感值中的多樣性程度。舉例來說，假設有一群人全部在同一時間搜尋了同一個敏感的健康主題 (例如流感症狀)，我們檢視這個資料集時，並無法得知是誰搜尋了這個主題 (拜 K-匿名技術所賜)。不過，由於所有人都擁有相同的敏感屬性 (亦即查詢主題)，所以可能還是會有隱私權方面的疑慮。如果具備 L-多樣性，匿名資料集的查詢主題屬性不會單單包含流感查詢，而會同時納入流感查詢和其他查詢，以進一步保護使用者隱私權。

在資料中加入雜訊

差別隱私 (同樣是一個業界標準術語) 是一種在資料中加入數學雜訊的技術。資料集經過差別隱私處理後，就很難確定任何個人是否屬於該資料集，這是因為不管是否加入任何特定個人的資訊，指定演算法的輸出結果基本上看起來都一樣。舉例來說，假設我們在評估某地理區域的流感相關查詢整體搜尋趨勢，為了做到差別隱私，我們在資料集中加入雜訊，也就是將特定社區的流感相關查詢搜尋人數調高或調低，但這麼做並不會影響我們對較大地理區域的搜尋趨勢評估結果。另外有一個重要注意事項，就是在資料中加入雜訊可能會降低資料的實用性。

為了致力維護使用者隱私權，我們除了匿名處理程序外，還採用了許多其他機制，包括嚴格控管使用者資料存取行為、制定政策來管理及限制可能會洩露使用者身分的資料集合併活動，以及集中審查匿名處理作業和資料治理策略來確保 Google 所有產品和服務皆採取相同等級的保護措施。

隱私權與條款

隱私權與條款

Google 採用的資料匿名處理方式

我們採用的其中兩種資料保護技術

資料通泛化

在資料中加入雜訊