Kuidas Google andmeid anonüümseks muudab?

Anonüümimine on andmetöötlustehnika, mis eemaldab isikut tuvastava teabe või muudab seda. Tulemuseks on anonüümsed andmed, mida ei saa seostada ühegi üksikisikuga. Samuti on see Google'i jaoks tähtis komponent privaatsuse tagamisel.

Anonüümsete andmete analüüsimise abil saame luua turvalisi ja väärtuslikke tooteid ja funktsioone (nt sisestatava otsingupäringu automaatne täitmine), tuvastada tõhusamalt turvaohte (nt andmepüügi- ja pahavarasaidid) ning samal ajal kaitsta kasutajate identiteeti. Peale selle saame anonüümseid andmeid turvaliselt teiste huvides jagada, ilma et kasutajate privaatsus ohtu satuks.

Kaks tehnikat, mida kasutame teie andmete kaitsmiseks

Andmete üldistamine

TTeatud andmeelemente on lihtsam üksikisikutega seostada. Nende isikute kaitsmiseks üldistame andmeid, et teatud osa eemaldada või üldisema väärtusega asendada. Näiteks võime üldistamise abil asendada kõigi suunakoodide või telefoninumbrite osad samasuguse numbrijadaga.

Üldistamine võimaldab saavutada k-anonüümsuse. See on valdkonnapõhine termin, mis tähistab sarnasuste alusel loodud gruppi kuuluvate üksikisikute identiteedi peitmist. Täht k näitab grupi liikmete arvu. Kui andmekogumis on üksikisiku kohta vähemalt k–1 samade tunnustega üksikisikut, on andmekogumi k-anonüümsus saavutatud. Oletame, et meil on andmekogum, kus k = 50 ja sisuelement on sihtnumber. Kui vaadata andmekogumis mis tahes üksikisikut, leiame alati veel 49 isikut, kellel on sama sihtnumber. Seega ei ole võimalik ühtki üksikisikut ainult sihtnumbri järgi tuvastada.

Kui kõigil andmekogumis olevatel isikutel on ühine tundliku atribuudiga seotud väärtus, piisab tundliku teabe tuvastamiseks teadmisest, et isikud kuuluvad sellesse andmekogumisse. Selle riski vähendamiseks võime kasutada l-hajutust. See on valdkonnapõhine termin, mis tähistab tundlike väärtuste hajutuse taset. Oletame, et meil on grupp isikuid, kes otsisid samal ajal sama tundliku terviseteemaga seotud teavet (nt gripi sümptomid). K-anonüümsuse tõttu ei saa andmekogumit vaadates tuvastada, kes selleteemalist teavet otsis. Privaatsus ei pruugi siiski täielikult kaitstud olla, sest kõigil isikutel on ühesugune tundlik atribuut (päringu teema). L-hajutus tähendab, et anonüümseks muudetud andmekogum ei sisalda ainult gripiga seotud otsinguid. Selles võib peale gripiga seotud otsingute ka muid otsinguid olla, et kasutajate privaatsust veelgi paremini kaitsta.

Andmetele müra lisamine

Diferentsiaalprivaatsus (samuti valdkonnapõhine termin) tähistab andmetele matemaatilise müra lisamise tehnikat. Diferentsiaalprivaatsuse puhul on keeruline tuvastada, kas teatud üksikisik kuulub andmekogumisse, sest konkreetse algoritmi väljund on põhiosas sama, olenemata sellest, kas üksikisiku andmed on lisatud või välja jäetud. Näiteks oletame, et mõõdame gripiga seotud otsingute üldist trendi teatud geograafilises piirkonnas. Diferentsiaalprivaatsuse saavutamiseks lisame andmekogumisse müra. See tähendab, et võime teatud piirkonnas gripiga seotud teavet otsivate inimeste arvu kogumisse lisada või sellest lahutada, ent see ei mõjuta trendi mõõtmist laiemas geograafilises piirkonnas. Oluline on ka märkida, et andmekogumisse müra lisamine võib vähendada andmete kasulikkust.

Anonüümimine on ainult üks mitmest toimingust, mille abil kasutajate privaatsust kaitseme. Peale selle haldame rangelt, kes kasutajate andmetele juurde pääsevad, rakendame eeskirju, mille abil haldame ja piirame kasutajate tuvastamist võimaldavaid andmekogumeid, ning vaatame keskselt üle anonüümis- ja andmehaldusstrateegiad, et tagada samal tasemel kaitse kõikjal Google'is.