Google 採用的資料匿名處理方式

所謂「匿名處理」是一種資料處理技術,能夠移除或更改個人識別資訊;資訊經過匿名處理後,即去除了與任何個人的關聯性。在 Google 嚴謹的隱私權保護措施中,匿名處理程序是至關重要的元素。

透過分析匿名資料,我們得以打造安全又有價值的產品和功能 (例如在使用者輸入一部分搜尋字詞時自動顯示完整的查詢字串) ,也能更有效地偵測安全性威脅 (例如網路釣魚和惡意軟體網站),並全程保護使用者的身分。我們也可以無後顧之憂地將匿名資料提供給外部人士,在不影響使用者隱私權的情況下分享實用的資訊。

我們採用的其中兩種資料保護技術

資料通泛化

有一些特定的資料元素比較容易讓人連結到特定的個人。為了保護這些個人,我們採用通泛化處理技術,將一部分的資料移除,或是將當中某些片段換成相同的值。舉例來說,我們可運用通泛化處理技術,將所有電話區碼或電話號碼的某些片段換成相同的一系列數字。

通泛化處理流程有助於我們達到 K-匿名 (K-anonymity) 狀態。K-匿名這個業界標準術語所指的是一種技術,可將特定人士隱藏於相似人群中,藉此保護其身分;其中 K 代表人群的規模。針對資料集中的任何個人,如有至少 K-1 個人擁有相同屬性,該資料集即達到 K 匿名狀態。舉例來說,假設某資料集的 K 值為 50,而屬性為郵遞區號。當我們從該資料集中挑出任何一人,一定會有另外 49 人與他擁有相同的郵遞區號。因此,我們無法單單透過郵遞區號識別任何人的身分。

如果在資料集中,所有個人的某個敏感屬性都有相同的值,那麼只要知道這些人均屬於該資料集,就有可能揭露該敏感資訊。為了降低此風險,我們可利用 L-多樣性 (L-diversity) 來達到此一目的。這個業界標準術語是用於描述敏感值中的多樣性程度。舉例來說,假設有一群人全部在同一時間搜尋了同一個敏感的健康主題 (例如流感症狀),我們檢視這個資料集時,並無法得知是誰搜尋了這個主題 (拜 K-匿名技術所賜)。不過,由於所有人都擁有相同的敏感屬性 (亦即查詢主題),所以可能還是會有隱私權方面的疑慮。如果具備 L-多樣性,匿名資料集的查詢主題屬性不會單單包含流感查詢,而會同時納入流感查詢和其他查詢,以進一步保護使用者隱私權。

在資料中加入雜訊

差別隱私 (同樣是一個業界標準術語) 是一種在資料中加入數學雜訊的技術。資料集經過差別隱私處理後,就很難確定任何個人是否屬於該資料集,這是因為不管是否加入任何特定個人的資訊,指定演算法的輸出結果基本上看起來都一樣。舉例來說,假設我們在評估某地理區域的流感相關查詢整體搜尋趨勢,為了做到差別隱私,我們在資料集中加入雜訊,也就是將特定社區的流感相關查詢搜尋人數調高或調低,但這麼做並不會影響我們對較大地理區域的搜尋趨勢評估結果。另外有一個重要注意事項,就是在資料中加入雜訊可能會降低資料的實用性。

為了致力維護使用者隱私權,我們除了匿名處理程序外,還採用了許多其他機制,包括嚴格控管使用者資料存取行為、制定政策來管理及限制可能會洩露使用者身分的資料集合併活動,以及集中審查匿名處理作業和資料治理策略來確保 Google 所有產品和服務皆採取相同等級的保護措施。