Cum anonimizează Google datele
Anonimizarea este o metodă de prelucrare a datelor care elimină sau modifică informațiile de identificare personală. Astfel, se obțin date anonimizate, care nu pot fi asociate cu o anumită persoană. De asemenea, este o parte importantă a angajamentului Google față de confidențialitate.
Prin analizarea datelor anonimizate, putem crea produse și funcții sigure și utile, cum ar fi completarea automată a unei interogări de căutare tastate și detectarea îmbunătățită a amenințărilor de securitate, cum ar fi site-urile de phishing și malware, protejând totodată identitatea utilizatorilor. Putem trimite în siguranță datele anonimizate în alte servicii, pentru a fi folosite de alte persoane fără a periclita confidențialitatea utilizatorilor noștri.
Două dintre metodele folosite pentru protecția datelor
Generalizarea datelor
Există anumite elemente de date care sunt mai ușor de corelat cu anumite persoane. Ca să protejăm aceste persoane, folosim generalizarea pentru a elimina o parte din date sau a înlocui o parte din ele cu o valoare comună. De exemplu, putem folosi generalizarea pentru a înlocui segmente din toate codurile poștale sau numerele de telefon care au aceeași secvență de cifre.
Generalizarea ne permite să obținem k-anonimatul, un termen standard în domeniu folosit pentru a descrie o tehnică de ascundere a identității persoanelor dintr-un grup de persoane similare. În k-anonimat, k este un număr care reprezintă mărimea grupului. Dacă pentru orice persoană din setul de date există cel puțin k-1 persoane cu aceleași proprietăți, am obținut k-anonimatul pentru setul de date. De exemplu, să presupunem că avem un set de date în care k este egal cu 50 și proprietatea este codul poștal. Dacă analizăm orice persoană din acest set de date, vom găsi în permanență alte 49 de persoane cu același cod poștal. Prin urmare, nu vom putea identifica o anumită persoană numai după codul poștal.
Dacă toate persoanele dintr-un set de date au în comun aceeași valoare a unui atribut sensibil, pot fi dezvăluite informații sensibile prin simpla cunoaștere a faptului că aceste persoane fac parte din setul de date respectiv. Pentru a reduce acest risc, putem folosi l-diversitatea, un termen standard în domeniu folosit pentru a descrie un anumit nivel de diversitate în valorile sensibile. De exemplu, să presupunem că un grup de persoane au căutat același subiect de sănătate sensibil (de exemplu, simptomele gripei), toate în același timp. Dacă examinăm acest set de date, nu ne dăm seama cine a căutat subiectul, datorită k-anonimatului. Însă mai există o problemă legată de confidențialitate, din moment ce toate persoanele au în comun un atribut sensibil (adică subiectul interogării). L-diversitatea înseamnă că setul de date anonimizat nu va conține doar căutările legate de gripă. Acesta poate să conțină și alte căutări, pentru a proteja mai bine confidențialitatea utilizatorului.
Adăugarea de zgomot la date
Confidențialitatea diferențială (tot un termen standard în domeniu) descrie o metodă de adăugare de zgomot matematic la date. Cu confidențialitatea diferențială este dificil să ne dăm seama dacă o anumită persoană face parte dintr-un set de date, deoarece rezultatul unui algoritm dat va părea în esență același, indiferent dacă informațiile despre o persoană sunt incluse sau omise. De exemplu, să presupunem că măsurăm tendința generală a căutărilor legate de gripă într-o anumită regiune geografică. Pentru a obține confidențialitatea diferențială, adăugăm zgomot la setul de date. Aceasta înseamnă că putem adăuga sau scădea numărul de persoane care caută subiectul gripă într-un anumit cartier, dar aceasta nu va afecta măsurarea tendinței în regiunea geografică mai extinsă. De asemenea, este important de reținut că adăugarea de zgomot la un set de date îl poate face mai puțin util.
Anonimizarea este doar unul dintre procesele pe care le folosim pentru a ne păstra angajamentul față de confidențialitatea utilizatorului. Alte procese includ controale stricte privind accesul la datele utilizatorului, politici pentru controlarea și limitarea asocierii seturilor de date care pot identifica utilizatorii și examinarea centralizată a strategiilor de anonimizare și guvernanță a datelor, pentru a asigura un nivel uniform de protecție pentru toate serviciile Google.