Google 如何匿名處理資料

匿名處理是一項資料處理技術,能夠移除或修改可識別個人身分的資料。資料經匿名處理後,將無法與任何人士產生關聯。匿名處理也是 Google 致力保護私隱權的重要措施。

透過分析匿名資料,我們能夠在保護使用者身分的情況下,建立安全實用的產品和功能,例如自動完成所輸入的搜尋查詢,以及有效偵測仿冒詐騙和惡意網站等安全威脅。我們亦可與外部人員安全地分享匿名資料,在保障使用者私隱權的前提下為其他人提供實用資訊。

以下是我們在保護您的資料時採用的其中兩項技術:

歸納處理資料

有些資料元素較易與特定個人建立關聯。為保護這些個人,我們採用歸納處理移除資料的一部分,或將部分資料片段以一個常用值取代。例如,我們可能採用歸納處理,以同一組數值取代所有區號或電話號碼片段。

歸納處理讓我們做到 K 匿名化 (K-anonymity),這個業界標準術語是指一種技術,是將個別人士在背景類似一群的人中隱藏起來的技巧。K 匿名化中的 K 代表人群的規模。在資料集中的任何一個人,若有至少 K-1 名個人擁有相同屬性,該資料集便達到 K 匿名狀態。例如,假設某資料集的 K 值為 50,而屬性為郵遞區號。當我們從該資料集中隨機挑選出一個人,我們將找到另外 49 人與他使用相同的郵遞區號。因此,我們無法單單透過郵遞區號識別出任何人的身分。

如果在某個資料集中,所有人的特定敏感屬性都有同一個值,那麼,只要知道這些人同屬一個資料集,就有可能泄露敏感資訊。為了降低此風險,我們可利用 L 多樣性 (L-diversity)。這個業界標準術語用於描述敏感值的多樣性程度。例如,假設一群人全都在同一時間搜尋同一個敏感的健康主題 (例如流感症狀)。我們查看這個資料集時,將無法得知是誰搜尋過這個主題,原因是 K 匿名技術。不過,由於所有人都擁有相同的敏感屬性,即查詢主題,所以仍可能會有私隱權的疑慮。L 多樣性表示匿名資料集的查詢主題屬性不會單單包含流感查詢,而會同時包括流感查詢和其他查詢,以進一步保護使用者的私隱權。

在資料中加入雜訊

差別私隱 (另一個業界標準術語) 是一種在資料中加入數學雜訊的技術。資料集經過差別私隱處理後,就很難確定任何個人是否屬於該資料集,因為不論是加入或遺漏了任何特定個人的資料,特定演算法的輸出結果基本上看來都一樣。例如,假設我們正在評估某地理區域內與流感查詢相關的整體搜尋趨勢。為了達成差別私隱,我們會在資料集中加入雜訊。這表示我們會增加或減少特定社區的流感查詢搜尋人數,但這樣做並不會影響我們對較廣泛地理區域的搜尋趨勢評估結果。不過我們要指出一個重點,在資料集中加入雜訊可能會降低其實用性。

為致力保障使用者的私隱權,除了匿名處理外,我們其實還採用了許多其他機制,包括嚴格控管使用者的資料存取權、制定各項政策管理及限制可能識別使用者身分的資料集合併工作,以及集中審查匿名處理和資料管治策略,以確保 Google 所有產品和服務均採取同級的保護措施。