Jak Google anonymizuje data

Anonymizace je technika zpracování dat, při které se odstraňují nebo upravují informace umožňující zjištění totožnosti. Výsledkem jsou anonymizovaná data, která nelze přiřadit k žádné konkrétní osobě. Anonymizace je kriticky důležitým opatřením společnosti Google k zajištění ochrany soukromí.

Analýza anonymizovaných dat nám umožňuje vytvářet bezpečné a hodnotné služby a funkce, jako je automatické dokončování zadaných vyhledávacích dotazů, lépe odhalovat bezpečnostní hrozby, např. phishingové a malwarové weby, a přitom chránit identity uživatelů. Anonymizovaná data lze také bezpečně externě sdílet, aby byla užitečná i pro ostatní, aniž bychom ohrozili soukromí uživatelů.

Dvě z technik, které používáme k ochraně vašich dat

Generalizace dat

Některé typy dat lze poměrně snadno spojit s konkrétními osobami. Abychom takové osoby ochránili, provádíme tzv. generalizaci dat, při níž ze souboru dat část údajů odstraňujeme nebo je nahrazujeme společnou hodnotou. Při generalizaci můžeme například části všech oblastních telefonních předvoleb nebo čísel nahradit stejnou řadou čísel.

Generalizace nám umožňuje dosáhnout k-anonymity, což je standardní oborový termín používaný k popisu techniky skrytí identity jednotlivců ve skupině podobných osob. Písmeno „k“ ve výrazu „k-anonymita“ představuje velikost skupiny. Pokud pro každého jednotlivce v souboru dat existuje alespoň k-1 jednotlivců se stejnými vlastnostmi, bylo u daného souboru dat dosaženo k-anonymity. Jako příklad lze uvést soubor dat, v němž je hodnota k rovna 50 a vlastností je poštovní směrovací číslo. Při pohledu na kteroukoliv osobu v něm nalezneme vždy 49 dalších osob se stejným PSČ. Pouze na základě PSČ proto žádnou z nich nelze identifikovat.

Pokud všechny osoby v souboru dat mají stejnou hodnotu citlivého atributu, může k odhalení citlivých údajů stačit informace, že jsou součástí příslušného souboru dat. Ke zmírnění tohoto rizika můžeme použít l-diverzitu. Jedná se o standardní oborový výraz používaný k popisu určité úrovně diverzity citlivých hodnot. Představte si například, že skupina lidí ve stejnou dobu hledala stejné citlivé zdravotní téma (např. příznaky chřipky). Při pohledu na tento soubor dat bychom díky k-anonymitě nemohli určit, kdo dané téma hledal. Protože však všichni jeho členové mají stejný citlivý atribut (tj. téma dotazu), může být soukromí přesto ohroženo. L-diverzita znamená, že anonymizovaný soubor dat nebude obsahovat pouze vyhledávání související s chřipkou. Kvůli ochraně soukromí uživatelů by kromě vyhledávání souvisejících s chřipkou zahrnoval také další vyhledávací dotazy.

Přidání šumu k datům

Diferenční ochrana soukromí (standardní výraz používaný v oboru) popisuje techniku přidání matematického šumu k datům. Při použití diferenční ochrany soukromí je složité zjistit, zda je jedna konkrétní osoba členem datové sady, protože výstup konkrétního algoritmu bude vždy v podstatě stejný bez ohledu na to, zda jsou zahrnuty či vyloučeny informace o konkrétní osobě. Představte si například, že měříme celkový trend ve vyhledávání chřipky v konkrétní geografické oblasti. Kvůli diferenční ochraně soukromí do souboru dat přidáme šum. To znamená, že můžeme přičíst nebo odečíst počet lidí, kteří vyhledávají chřipku v konkrétní čtvrti, což ale nebude mít vliv na naše měření trendu v širší geografické oblasti. Také je důležité poznamenat, že přidání šumu do souboru dat může snížit jeho užitečnost.

Anonymizace je jen jedním z procesů, kterými zajišťujeme ochranu soukromí uživatelů. Mezi další procesy patří přísná kontrola přístupu k údajům o uživatelích, zásady regulující a omezující slučování souborů dat, které mohou umožňovat zjištění totožnosti uživatelů, a centralizovaná kontrola strategií anonymizace a správy dat k zajištění konzistentní ochrany v celém Googlu.