Google によるデータの匿名化の方法

匿名化とは、個人を特定可能な情報を削除または変更するデータ処理手法です。この手法で処理したデータは、特定の個人と結びつけることのできない匿名化されたデータとなります。Google のプライバシー対策においてきわめて重要な要素でもあります。

匿名化されたデータを解析することで、安全で価値あるサービスや機能の構築が可能になります。たとえば、検索キーワード入力時のオートコンプリート機能の提供や、フィッシングやマルウェア サイトといったセキュリティ脅威の検知の強化を、ユーザーの個人情報を保護しながら行うことができます。また、匿名化されたデータを安全に外部と共有して、ユーザーのプライバシーを危険にさらすことなく他者に役立ててもらうこともできます。

Google がデータの保護に使用する 2 つの手法

データの一般化

データ要素の中には、特定の個人に容易に結びつけやすいものがあります。その特定の個人を保護するため、データの一部を削除するか、その一部を一般的な値に置き換えるという一般化の手法を用いています。たとえば、市外局番や電話番号について、番号の一部を共通の数字列に置き換える一般化を行うことがあります。

一般化により、k-匿名性が実現します。k-匿名性とは、似た属性を持った人々の集合の中で個人の身元が明らかにならないようにする手法を表す、業界で一般に使用されている用語です。k-匿名性の「k」はグループの大きさを表す数字です。データセット内の特定の 1 人に対して、同じ属性を持つ人は少なくとも k-1 人いるため、その場合、そのデータセットについて k-匿名性が実現していることになります。たとえば、k が 50 であるデータセットがあり、共通属性が郵便番号である場合を考えてみましょう。そのデータセット内のどの人についても、その人と同じ郵便番号の人が他に 49 人いることになります。したがって、郵便番号だけでは個人を特定することはできません。

データセット内のすべての人が、機密属性について同じ値を有する場合、属しているデータセットが判明すれば、それだけで機密性の高い情報が明らかになってしまうおそれがあります。そのリスクを軽減するために、Google では l-多様性を用いることがあります。l-多様性とは、機密性の高い値における一定レベルの多様性を表す、業界で一般に使用されている用語です。たとえば、機密性の高い健康に関する特定のトピック(例: インフルエンザの症状) について同時に検索した人々の集合を考えてみましょう。このデータセットを見たとき、k-匿名性があるため、そのトピックについて検索した人が誰なのかはわかりません。しかしそれでも、機密属性(つまり、キーワードのトピック)が全員に共通していることからプライバシー上の懸念が生じることがあります。l-多様性では、匿名化されたデータがインフルエンザについての検索だけを含まないようにします。インフルエンザ以外の検索も含まれるようにすることで、ユーザーのプライバシーがより厳重に保護されるようになります。

データへのノイズ付加

差分プライバシーとは、データに数学的ノイズを付加する手法を表す(業界で一般に使用されている)用語です。差分プライバシーがあると、特定の個人が特定のデータセットに属しているかどうかを判別することが難しくなります。これは、個人の情報がデータセットに含まれているかどうかにかかわらず、任意のアルゴリズムからの出力が実質的に同じに見えるためです。たとえば、ある地域全体におけるインフルエンザについての検索の全般的傾向を測定しているとしましょう。差分プライバシーを実現するために、データセットにノイズを付加します。これは、所定の地域内においてインフルエンザについて検索している人の数を増やしたり減らしたりすることを意味します。そうしたとしても、より広範な地域全体における傾向の測定には影響しません。また、データセットにノイズを付加することでデータセットの有用性が低くなる可能性があることにも注意が必要です。

匿名化は、ユーザーのプライバシーを保護する対策を維持する上で Google が使用しているプロセスの 1 つに過ぎません。その他にも、ユーザーデータへのアクセスの厳格な管理、ユーザーの特定につながる可能性のあるデータセットの結合を管理および制限するポリシー、匿名化の一元的な確認、Google 全体において一貫した保護レベルを確保するためのデータ ガバナンス戦略などのプロセスを用いています。