Kaip „Google“ anonimizuoja duomenis

Anonimizavimas yra duomenų apdorojimo technologija, kurią taikant asmens identifikavimo informacija pašalinama arba pakeičiama; todėl anonimizuoti duomenys negali būti susieti su jokiu asmeniu. Taip pat tai yra labai svarbus „Google“ privatumo įsipareigojimo komponentas.

Analizuodami anonimizuotus duomenis galime kurti saugius ir vertingus produktus bei funkcijas, pvz., įvestos paieškos užklausos automatinį užbaigimą, ir geriau aptikti saugos grėsmes, pvz., sukčiavimo ir kenkėjiškas svetaines, tuo pačiu apsaugodami naudotojų tapatybes. Taip pat galime saugiai bendrinti anonimizuotus duomenis išorinėse sistemose, todėl jie yra naudingi kitiems žmonėms, o mes nerizikuojame savo naudotojų saugumu.

Dvi technologijos, kurias naudojame siekdami apsaugoti jūsų duomenis

Duomenų apibendrinimas

Yra konkrečių duomenų elementų, kuriuos galima lengviau susieti su konkrečiais asmenimis. Siekdami apsaugoti tuos asmenis taikome apibendrinimą, kad galėtume pašalinti duomenų dalį arba pakeisti kai kurias jų dalis dažnai pasitaikančia verte. Pavyzdžiui, galime taikyti apibendrinimą ir pakeisti visų sričių kodų ar telefono numerių segmentus tos pačios sekos skaičiais.

Vykdydami apibendrinimą galime pasiekti k anonimiškumą (šiuo pramonės standarto terminu aprašoma asmenų iš panašių žmonių grupės tapatybių slėpimo technologija, kur k yra skaičius, reiškiantis grupės dydį). Jei bet kuriam duomenų rinkinio asmeniui gali būti priskiriama bent k-1 asmenų su tokiomis pačiomis ypatybėmis, tai reiškia, kad pasiekėme šio duomenų rinkinio k anonimiškumą. Pavyzdys: įsivaizduokite konkretų duomenų rinkinį, kur k yra lygu 50, o ypatybė yra pašto kodas. Jei pažiūrėsime į bet kurį to duomenų rinkinio asmenį, visada rasime dar 49 asmenis su tokiu pačiu pašto kodu. Todėl negalėsime identifikuoti nė vieno asmens pagal jo pašto kodą.

Jei visi duomenų rinkinio asmenys turi tą pačią neskelbtino atributo vertę, neskelbtina informacija gali būti atskleista tiesiog žinant, kad šie asmenys yra svarstomo duomenų rinkinio dalis. Siekdami sumažinti šią riziką, galime taikyti l įvairovę (šiuo pramonės standarto terminu aprašomas tam tikras neskelbtinų verčių įvairovės lygis). Pavyzdys: įsivaizduokite žmonių, vienu metu ieškojusių tos pačios neskelbtinos su sveikata susijusios informacijos (pvz., gripo simptomų), grupę. Jei pažiūrėsime į šį duomenų rinkinį, negalėsime pasakyti, kas ieškojo informacijos šia tema, kadangi čia taikomas k anonimiškumas. Tačiau dėl privatumo vis tiek gali kilti abejonių, nes visiems žmonėms priskiriamas tas pats neskelbtinas atributas (pvz., užklausos tema). L įvairovė reiškia, kad anonimizuotų duomenų rinkinį sudarytų ne tik paieškos gripo tema. Be paieškų gripo tema, čia galėtų būti įtraukta ir kitų paieškų, siekiant patikimiau apsaugoti naudotojų privatumą.

Triukšmo pridėjimas prie duomenų

Diferencinis privatumas (taip pat pramonės standarto terminas) aprašo matematinio triukšmo pridėjimo prie duomenų technologiją. Taikant diferencinį privatumą sunku išsiaiškinti, ar vienas asmuo yra duomenų rinkinio dalis, nes pateikto algoritmo išvestis iš esmės bus tokia pati, nepaisant to, ar kurio nors asmens informacija yra įtraukta ar ne. Pavyzdys: įsivaizduokite, kad matuojame bendrą paieškų gripo tema tendenciją visame geografiniame regione. Kad būtų pasiektas diferencinis privatumas, prie duomenų rinkinio pridedame triukšmo. Tai reiškia, kad galime pridėti arba atimti tam tikrą žmonių, ieškančių informacijos apie gripą nurodytoje kaimynystėje, skaičių, bet taip, kad tai niekaip nepaveiktų tendencijos matavimų didesniame geografiniame regione. Taip pat svarbu atminti, kad pridėjus triukšmo prie duomenų rinkinio, šis gali būti pateiktas kaip mažiau naudingas.

Anonimizavimas yra tik vienas procesas, kurį taikome siekdami laikytis naudotojų privatumo įsipareigojimo. Į kitus procesus įtraukiamas griežtas prieigos prie naudotojų duomenų valdymas, politika, kad būtų galima valdyti ir apriboti duomenų rinkinių sujungimą, kurį atliekant įmanoma identifikuoti naudotojus, ir centralizuotą anonimizavimo bei duomenų valdymo strategijų peržiūrą, siekiant užtikrinti nuoseklų apsaugos lygį visuose „Google“ produktuose.