Kako Google anonimizira podatke

Anonimizacija je tehnika obrade podataka u kojoj se uklanjaju ili izmjenjuju podaci koji otkrivaju identitet. Time se dobivaju anonimizirani podaci koji se ne mogu povezati ni s jednom osobom. To je također ključna komponenta Googleove predanosti zaštiti privatnosti.

Analiza anonimiziranih podataka omogućuje nam izradu sigurnih i vrijednih proizvoda i značajki, na primjer automatskog dovršavanja unesenog upita za pretraživanje i boljeg otkrivanja sigurnosnih prijetnji kao što su krađa identiteta i web-lokacije sa zlonamjernim softverom, uz istovremenu zaštitu identiteta korisnika. Anonimizirane podatke možemo i sigurno dijeliti s vanjskim stranama, čime postaju korisni drugima bez ugrožavanja privatnosti naših korisnika.

Dvije od tehnika koje upotrebljavamo za zaštitu vaših podataka

Generalizacija podataka

Postoje određeni podatkovni elementi koji se lakše povezuju s određenim osobama. Da bismo zaštitili te osobe, upotrebljavamo generalizaciju kako bismo uklonili dio podataka ili ga zamijenili nekom zajedničkom vrijednošću. Na primjer, generalizaciju možemo upotrijebiti da bismo segmente svih pozivnih ili telefonskih brojeva zamijenili istim slijedom brojeva.

Generalizacija nam omogućuje da postignemo k-anonimnost, stručni pojam koji se upotrebljava za opisivanje tehnike sakrivanja identiteta osoba u grupi sličnih osoba. U k-anonimnosti k je broj koji predstavlja veličinu grupe. Ako za određenu osobu u skupu podataka postoji barem k-1 osoba s istim svojstvima, postigli smo k-anonimnost za taj skup podataka. Na primjer, zamislite određeni skup podataka u kojem je k jednako 50, a svojstvo je poštanski broj. Ako pogledamo bilo koju osobu u tom skupu podataka, uvijek ćemo pronaći još 49 osoba s istim poštanskim brojem. Stoga ne možemo identificirati nijednu osobu samo na temelju poštanskog broja.

Ako sve osobe u skupu podataka dijele istu vrijednost osjetljivog atributa, osjetljivi podaci mogu se otkriti jednostavnom spoznajom da su te osobe dio tog skupa podataka. Da bi se opasnost ublažila, možemo iskoristiti l-raznolikost, stručni pojam koji se upotrebljava za opisivanje neke razine raznolikosti u osjetljivim podacima. Na primjer, zamislite da je grupa osoba istovremeno pretraživala istu osjetljivu zdravstvenu temu (simptome gripe). Gledajući taj skup podataka, ne bismo mogli odrediti tko je pretraživao tu temu zahvaljujući k-anonimnosti. No moguća je zabrinutost zbog privatnosti jer svi dijele isti osjetljivi atribut (odnosno temu upita). L-raznolikost znači da anonimizirani skup podataka ne bi sadržavao samo pretraživanja gripe. Mogao bi sadržavati i druga pretraživanja da bi se dodatno zaštitila privatnost korisnika.

Dodavanje šuma podacima

Diferencijalna privatnost (također stručni pojam) opisuje tehniku dodavanja matematičkog šuma podacima. Uz diferencijalnu privatnost teško je odrediti je li neka osoba dio skupa podataka jer će izlaz određenog algoritma u osnovi izgledati isto, bez obzira na to jesu li podaci o toj osobi uključeni ili izostavljeni. Na primjer, zamislite da mjerimo općeniti trend pretraživanja gripe u određenoj regiji. Da bismo postigli diferencijalnu privatnost, dodajemo šum u taj skup podataka. To znači da možemo dodati ili oduzeti broj osoba koje pretražuju gripu u određenoj četvrti, no to neće utjecati na naše mjerenje trenda u široj regiji. Važno je napomenuti i da zbog dodavanja šuma skup podataka može postati manje koristan.

Anonimizacija je samo jedan postupak koji upotrebljavamo da bismo zaštitili privatnost korisnika. Ostali postupci uključuju stroge kontrole pristupa podacima korisnika, pravila za kontrolu i ograničavanje spajanja skupova podataka koji omogućuju identifikaciju korisnika i centralizirani pregled anonimizacije i strategija upravljanja podacima kako bi se pružila dosljedna razina zaštite na cijelom Googleu.