Hogyan anonimizálja a Google az adatokat?

Az anonimizálás olyan adatfeldolgozási technika, amely eltávolítja vagy módosítja a személyazonosításra alkalmas adatokat – ez olyan névtelenített adatokat eredményez, amelyeket egyetlen személyhez sem lehet társítani. Másrészről kritikus összetevőjét jelenti a Google adatvédelem iránti elkötelezettségének.

Az anonimizált adatok elemzése révén biztonságos és értékes termékeket és funkciókat tudunk fejleszteni (például a beírt keresési lekérdezések automatikus kiegészítését), és hatékonyabban fel tudjuk deríteni a biztonsági fenyegetéseket (például az adathalászatot és a rosszindulatú webhelyeket) – mindezt a felhasználók személyazonosságának védelme mellett. Az anonimizált adatokat a Google-on kívül is biztonságosan megoszthatjuk, és ezáltal mások számára is hasznossá tehetjük anélkül, hogy veszélyeztetnénk felhasználóink adatainak védelmét.

Két olyan módszer, amelyet az adatok védelme érdekében alkalmazunk:

Az adatok általánosítása

Vannak bizonyos adatelemek, amelyek könnyebben köthetők adott személyekhez. Az ilyen személyek védelme érdekében általánosítást alkalmazunk, azaz eltávolítjuk az adatok egy részét, és általános értékekkel helyettesítjük őket. Általánosítást alkalmazunk például olyankor, amikor az összes körzetszámot vagy telefonszámot lecseréljük ugyanarra a számsorra.

Az általánosítás révén elérhetjük a k-anonimitást, amely egy iparágszerte használt fogalom, és azt a technológiát írja le, amelynek segítségével elrejtjük a hasonló egyének csoportjába tartozó személyek azonosságát. A k-anonimitásban a k egy szám, amely a csoport méretére utal. Ha egy adott adathalmazban lévő minden személy esetén van legalább k-1 olyan személy, aki azonos tulajdonságokkal rendelkezik, akkor elértük az adathalmaznál a k-anonimitást. Képzeljünk el például egy bizonyos adathalmazt, amelynél a k értéke 50, és a tulajdonság az irányítószám. Ha kiválasztunk egy adott személyt az adathalmazból, akkor mindig legalább 49 másikat találunk azonos irányítószámmal. Ennélfogva egyetlen személy sem azonosítható csak az irányítószáma alapján.

Ha az adathalmaz minden személyénél megegyezik egy bizalmas attribútum értéke, akkor a bizalmas adat könnyen felfedhető pusztán azáltal, hogy tudjuk, hogy a szóban forgó személyek a kérdéses adathalmaz részei. Az ilyen jellegű kockázat mérséklésére alkalmas az l-diverzitás – ez egy iparágszerte használatos kifejezés, amely bizonyos fokú diverzitásra utal az bizalmas értékeknél. Képzeljük el például olyan személyek csoportját, akik közül mindenki azonos időben ugyanarra a bizalmas egészségügyi témára (pl. az influenza tüneteire) keresett rá. Ha megvizsgáljuk ezt az adathalmazt, akkor a k-anonimitásnak köszönhetően nem tudjuk megmondani, hogy kik kerestek erre a témára. Továbbra is marad azonban adatvédelmi probléma, ugyanis a csoport minden tagjára érvényes egy bizalmas attribútum (a lekérdezés témája). Az l-diverzitás azt jelenti, hogy az anonimizált adathalmaz nem csak influenzára irányuló kereséseket tartalmazna. Tartalmazhatna egyéb kereséseket is az influenzával kapcsolatos keresések mellett a felhasználók adatainak további védelme céljából.

Véletlen zaj hozzáadása az adatokhoz

A differenciált adatvédelem (szintén egy iparágszerte használt fogalom) egy olyan technikát jelent, amely véletlen zajt ad az adatokhoz. A differenciált adatvédelem használata esetén nehéz meghatározni azt, hogy bármelyik személy része-e az adathalmaznak, mivel egy adott algoritmus kimenete alapvetően azonosan jelenik meg – függetlenül attól, hogy tartalmazza-e bármelyik adott személy adatait vagy sem. Tegyük fel például, hogy az influenzára irányuló keresések trendjeit mérjük egy adott földrajzi területen belül. A differenciált adatvédelem elérése érdekében véletlen zajt adunk az adathalmazhoz. Ez azt jelenti, hogy hozzáadhatjuk vagy kivonhatjuk egy adott szűkebb körzet influenzára kereső személyeinek a számát, de ez nem lenne hatással a tágabb földrajzi régió általunk vizsgált trendjére. Fontos megjegyezni azt is, hogy a véletlen zaj hozzáadása az adathalmazhoz kevésbé hasznossá teheti azt.

Az anonimizálás csak egy azon folyamatok közül, amelyet a felhasználói adatvédelem iránti elkötelezettségünk fenntartása érdekében alkalmazunk. A többi folyamat közé tartozik a felhasználói adatokhoz való hozzáférés szigorú szabályozása, a felhasználók azonosítására alkalmas adathalmaz-összekapcsolás szabályozása és korlátozása, valamint az anonimizációs és adatkezelési stratégiák központosított felülvizsgálata, ami a védelem egységes szintjét biztosítja a Google minden szolgáltatásánál.

Google-alkalmazások
Főmenü