Kako Google anonimizira podatke
Anonimiziranje je tehnika obdelave podatkov, s katero se odstranijo ali spremenijo podatki, ki omogočajo osebno prepoznavo; rezultat so anonimizirani podatki, ki jih ni mogoče povezati s katerim koli posameznikom. Anonimiziranje je prav tako pomemben člen Googlovih prizadevanj za zagotavljanje zasebnosti.
Analiziranje anonimiziranih podatkov nam omogoča razvoj varnih in uporabnih izdelkov ter funkcij, kot je samodokončanje vnesene iskalne poizvedbe, in boljše zaznavanje varnostnih groženj, kot so spletna mesta z lažnim predstavljanjem in spletna mesta z zlonamerno programsko opremo, sočasno pa nam omogoča varovanje identitete uporabnikov. Anonimizirane podatke lahko prav tako varno delimo s tretjimi osebami, s čimer poskrbimo, da so uporabni tudi zanje, obenem pa s tem ne ogrozimo zasebnosti naših uporabnikov.
Dve od tehnik, ki jih uporabljamo za zaščito podatkov
Posploševanje podatkov
Nekatere podatkovne elemente je mogoče preprosteje povezati z nekaterimi posamezniki. Zaradi zaščite teh posameznikov s tehniko posploševanja odstranimo del podatkov ali določen del nadomestimo s splošno vrednostjo. S posploševanjem lahko na primer nadomestimo segmente z območnimi kodami ali telefonskimi številkami z enakim nizom številk.
Posploševanje nam omogoča doseganje k-anonimnosti, izraza, ki predstavlja panožni standard in opisuje tehniko skrivanja identitete posameznikov v skupini podobnih oseb. »k« v k-anonimnosti je število, ki predstavlja velikost skupine. Če je za katerega koli posameznika v naboru podatkov vsaj k-1 posameznikov z enakimi lastnostmi, smo dosegli k-anonimnost za nabor podatkov. Predstavljajte si na primer določen nabor podatkov, kjer je k enak 50, lastnost pa poštna številka. Če si ogledamo katero koli osebo v tem naboru podatkov, vedno najdemo 49 drugih z enako poštno številko. Potemtakem zgolj po poštni številki ne bi bilo mogoče prepoznati nobene od teh oseb.
Če si vsi posamezniki v naboru podatkov delijo enako vrednost občutljivega atributa, je mogoče občutljive podatke razkriti že z vedenjem, da so ti posamezniki v zadevnem naboru podatkov. Zaradi omilitve tega tveganja lahko izkoristimo l-raznolikost, izraz, ki predstavlja panožni standard in s katerim opisujemo določeno raven raznolikosti občutljivih vrednosti. Predstavljajte si na primer skupino ljudi, ki istočasno išče isto občutljivo temo s področja zdravstva (npr. znaki gripe). Če si ogledamo ta nabor podatkov, po zaslugi k-anonimnosti ni mogoče ugotoviti, kdo je iskal to temo. Še vedno pa morda obstaja pomislek glede zasebnosti, saj vse te ljudi druži občutljiv atribut (tj. tema poizvedbe). L-raznolikost pomeni, da nabor anonimiziranih podatkov ne bi vseboval samo iskanj o gripi, temveč bi zaradi nadaljnje zaščite zasebnosti uporabnikov vseboval tudi druga iskanja poleg iskanja o gripi.
Dodajanje šuma podatkom
Razlikovalna zasebnost (prav tako izraz, ki se uporablja kot panožni standard) opisuje tehniko dodajanja matematičnega šuma podatkom. Pri razlikovalni zasebnosti je težko določiti, ali je kateri koli posameznik del nabora podatkov, ker dani algoritem proizvede rezultat, ki je videti praktično enak ne glede na to, ali so podatki katerega koli posameznika vključeni ali izpuščeni. Predstavljajte si na primer, da merimo splošno gibanje iskanj za gripo na zemljepisnem območju. Zaradi doseganja razlikovalne zasebnosti naboru podatkov dodamo šum. To pomeni, da morda dodamo ali odštejemo število ljudi, ki v dani soseski iščejo o gripi, s čimer pa ne vplivamo na merjenje gibanja iskanj na širšem zemljepisnem območju. Poudariti je treba tudi, da je lahko nabor podatkov zaradi dodajanja šuma manj uporaben.
Anonimiziranje je samo en od postopkov, s katerimi si prizadevamo za zagotavljanje zasebnosti uporabnikov. Med drugimi postopki so strogo nadziranje dostopa do podatkov uporabnikov, pravilniki za nadziranje in omejevanje združevanja naborov podatkov, ki lahko omogočajo prepoznavo uporabnikov, in centraliziran pregled strategij za anonimiziranje ter upravljanje podatkov, s katerimi zagotavljamo dosledno raven zaščite povsod v Googlu.