Kako Google čini podatke anonimnim
Anonimizacija je tehnika za obradu podataka koja uklanja ili modifikuje podatke koji mogu da otkriju identitet; rezultat su anonimni podaci koji ne mogu da se povežu sa bilo kojim pojedincem. Ona je i važna komponenta Google-ove posvećenosti privatnosti.
Analizom anonimnih podataka smo uspeli da napravimo bezbedne i vredne proizvode i funkcije, poput automatskog dovršavanja unetog upita za pretragu, i da bolje otkrivamo bezbednosne pretnje kao što su sajtovi sa „pecanjem“ i malverom, štiteći pritom identitet korisnika. Možemo i da bezbedno delimo anonimne podatke eksterno, čime će postati korisni drugima bez ugrožavanja privatnosti korisnika.
Dve tehnike koje koristimo za zaštitu podataka
Generalizovanje podataka
Postoje određeni elementi podataka koji se lakše povezuju sa određenim pojedincima. Da bismo zaštitili te pojedince, koristimo generalizaciju da bismo uklonili deo podataka ili zamenili neki deo uobičajenom vrednošću. Na primer, možemo da koristimo generalizaciju da bismo zamenili segmente svih pozivnih ili telefonskih brojeva koji sadrže isti niz brojeva.
Generalizacija nam omogućava da postignemo k-anonimnost, strukovni standardni termin koji opisuje tehniku za sakrivanje identiteta pojedinaca u grupi sličnih osoba. Kod k-anonimnosti, k je broj koji predstavlja veličinu grupe. Ako za svakog pojedinca u skupu podataka postoji barem k-1 pojedinac koji ima ista svojstva, onda smo postigli k-anonimnost za ovaj skup podataka. Na primer, zamislite određeni skup podataka gde je k jednako 50, a zajedničko svojstvo je poštanski broj. Ako potražimo bilo koju osobu u tom skupu podataka, uvek ćemo pronaći još 49 drugih osoba sa istim poštanskim brojem. Zbog toga nećemo moći da identifikujemo nijednu pojedinačnu osobu samo na osnovu poštanskog broja.
Ako svi pojedinci u skupu podataka dele istu vrednost osetljivog atributa, samim saznanjem da su ovi pojedinci deo skupa podataka o kome je reč mogu da se otkriju osetljive informacije. Da bismo ublažili ovaj rizik, možemo da iskoristimo l-raznolikost, strukovni standardni termin koji se koristi da opiše određeni nivo raznolikosti u osetljivim vrednostima. Na primer, zamislite da je grupa ljudi istovremeno pretraživala istu osetljivu zdravstvenu temu (na primer, simptome gripa). Ako pogledamo ovaj skup podataka, nećemo moći da zaključimo ko je pretraživao ovu temu zahvaljujući k-anonimnosti. Međutim, možda će i dalje postojati problem u vezi sa privatnošću jer svi dele osetljiv atribut (na primer, temu upita). L-raznolikost znači da skup anonimnih podataka neće sadržati samo pretrage u vezi sa gripom. Umesto toga, mogao bi da sadrži i druge pretrage pored onih u vezi sa gripom radi još bolje zaštite privatnosti korisnika.
Dodavanje „buke“ podacima
Diferencijalna privatnost (takođe strukovni standardni termin) opisuje tehniku za dodavanje matematičke buke podacima. Diferencijalna privatnost otežava utvrđivanje da li je neki pojedinac deo skupa podataka zato što će svaki algoritam u suštini prikazivati isti rezultat bez obzira na to da li su podaci nekog pojedinca uključeni ili izostavljeni. Na primer, zamislite da merimo ukupan trend u pretragama simptoma gripa u određenom geografskom regionu. Da bismo postigli diferencijalnu privatnost, dodajemo buku skupu podataka. To znači da možemo da dodamo ili oduzmemo broj ljudi koji pretražuju grip u određenom delu grada, ali to neće uticati na naše merenje trenda u okviru šireg geografskog regiona. Važno je i da imate na umu da dodavanje buke skupu podataka može da umanji njegovu korisnost.
Anonimizacija je samo jedan od procesa koje koristimo za održavanje posvećenosti privatnosti korisnika. Drugi procesi uključuju stroge kontrole pristupa podacima korisnika, smernice za kontrolisanje i ograničavanje pravljenje skupova podataka koji mogu da identifikuju korisnike i centralizovani pregled strategija za anonimizaciju i upravljanje podacima da bismo osigurali konstantan nivo zaštite širom Google-a.