Ako Google anonymizuje dáta

Anonymizácia je technika spracovania dát, pri ktorej sa odstraňujú alebo upravujú informácie umožňujúce zistenie totožnosti. Výsledkom sú anonymizované dáta, ktoré nie je možné priradiť k žiadnej konkrétnej osobe. Ide o zásadnú súčasť záväzku spoločnosti Google týkajúceho sa ochrany súkromia.

Analýza anonymizovaných dát nám umožňuje vytvárať bezpečné a hodnotné služby a funkcie, ako je napr. automatické dokončenie zadaného vyhľadávacieho dopytu, lepšie odhaľovať bezpečnostné hrozby, napr. phishingové a malvérové weby, a pritom chrániť identity používateľov. Anonymizované dáta tiež možno bezpečne externe zdieľať, aby boli užitočné aj pre ostatných, bez ohrozenia súkromia používateľov.

Dve z techník, ktoré používame na ochranu vašich dát

Generalizácia dát

Existujú určité typy dát, ktoré možno pomerne ľahko spojiť s konkrétnymi osobami. Aby sme takéto osoby ochránili, vykonávame tzv. generalizáciu dát, a to tak, že časť z nich zo súboru dát odstraňujeme alebo nahradzujeme spoločnou hodnotou. V rámci generalizácie napríklad môžeme segmenty všetkých telefónnych predvolieb alebo čísel nahradiť rovnakou sériou čísel.

Generalizácia nám umožňuje dosiahnuť k-anonymitu, čo je štandardný termín v tomto odvetví, ktorý sa používa na opis techniky skrytia identity jednotlivcov v skupine podobných osôb. Písmeno „k“ vo výraze „k-anonymita“ predstavuje veľkosť skupiny. Ak je pre každého jednotlivca v súbore dát aspoň k - 1 jednotlivcov s rovnakými vlastnosťami, pre daný súbor dát bola dosiahnutá k-anonymita. Ako príklad možno uviesť súbor dát, v ktorom je hodnota k rovná 50 a vlastnosťou je poštové smerovacie číslo. Pri pohľade na ktorúkoľvek osobu v danom súbore dát nájdeme vždy 49 ďalších osôb s rovnakým PSČ. Preto by sme nemohli identifikovať žiadnu konkrétnu osobu len na základe PSČ.

Ak všetky osoby v súbore dát zdieľajú rovnakú hodnotu citlivého atribútu, môže na odhalenie citlivých informácií stačiť vedieť, že sú súčasťou príslušného súboru dát. Na zmiernenie tohto rizika môžeme použiť l-diverzitu, čo je štandardný termín v tomto odvetví, ktorý sa používa na opis určitej rozmanitosti citlivých hodnôt. Predstavte si napríklad, že skupina ľudí v rovnakom čase hľadala rovnakú citlivú zdravotnú tému (napr. príznaky chrípky). Pri pohľade na tento súbor dát by sme vďaka k-anonymite nedokázali určiť, kto danú tému hľadal. Keďže však každý zdieľa rovnaký citlivý atribút (t. j. téma dopytu), môže byť napriek tomu súkromie ohrozené. L-diverzita znamená, že anonymný súbor dát nebude obsahovať iba vyhľadávania súvisiace s chrípkou. Na účely ochrany súkromia používateľov by okrem vyhľadávaní súvisiacich s chrípkou zahŕňal tiež ďalšie vyhľadávacie dopyty.

Pridanie šumu do dát

Diferenčná ochrana súkromia (štandardný termín v tomto odvetví) opisuje techniku pridania matematického šumu do dát. S diferenčnou ochranou súkromia je zložité zistiť, či je jedna konkrétna osoba členom skupiny dát, pretože výstup konkrétneho algoritmu bude vždy v podstate rovnaký bez ohľadu na to, či sú zahrnuté alebo vylúčené informácie konkrétnej osoby. Predstavte si napríklad, že meriame celkový trend vo vyhľadávaní chrípky v konkrétnej geografickej oblasti. Na účely diferenčnej ochrany súkromia do súboru dát pridáme šum. To znamená, že môžeme pripočítať alebo odpočítať počet ľudí, ktorí vyhľadávajú chrípku v konkrétnej štvrti, ale nebude to mať vplyv na naše meranie trendu v širšej geografickej oblasti. Tiež je dôležité poznamenať, že pridanie šumu do súboru dát môže znížiť jeho užitočnosť.

Anonymizácia je len jedným z procesov, ktorými zabezpečujeme ochranu súkromia používateľov. Medzi ďalšie procesy patrí prísna kontrola prístupu k údajom o používateľoch, pravidlá regulujúce a obmedzujúce zlučovanie súborov dát, ktoré môžu umožňovať zistenie totožnosti používateľov, a centralizovaná kontrola stratégií anonymizácie a správy dát na zaistenie konzistentnej ochrany v celom Googli.