Kā Google anonimizē datus

Anonimizācija ir datu apstrādes metode, ar kuru tiek noņemta vai mainīta personu identificējoša informācija, tādējādi veidojot anonimizētus datus, ko nevar saistīt ar nevienu fizisku personu. Tā ir arī svarīga daļa no Google apņemšanās nodrošināt konfidencialitāti.

Analizējot anonimizētos datus, mēs varam veidot drošus un vērtīgus produktus un funkcijas, piemēram, ievadītā meklēšanas vaicājuma automātisku pabeigšanu, kā arī precīzāk noteikt drošības apdraudējumus, piemēram, pikšķerēšanas un ļaunprātīgas programmatūras vietnes, vienlaicīgi aizsargājot lietotāju identitāti. Varam arī ārēji kopīgot anonimizētos datus, lai tie būtu noderīgi citiem, neapdraudot mūsu lietotāju konfidencialitāti.

Divas metodes, ko izmantojam jūsu datu aizsargāšanai

Datu vispārināšana

Noteikti datu elementi ir vieglāk saistāmi ar konkrētām personām. Lai aizsargātu šīs personas, mēs izmantojam vispārināšanu, noņemot daļu datu vai aizvietojot to ar vispārēju vērtību. Piemēram, varam izmantot vispārināšanu, lai aizvietotu visu apgabala kodu vai tālruņu numuru daļu ar vienādu skaitļu virkni.

Izmantojot vispārināšanu, mēs varam sasniegt k-anonimitāti — tas ir nozares standarta termins, kas tiek izmantots, lai aprakstītu metodi, kad personu identitāte tiek paslēpta līdzīgu personu grupā. Terminā “k-anonimitāte” burts “k” ir skaitlis, kas attēlo grupas lielumu. Ja katrai personai datu kopā ir vismaz k-1 personas ar tādām pašām īpašībām, ir sasniegta datu kopas k-anonimitāte. Piemēram, iztēlojieties konkrētu datu kopu, kur k ir 50, bet īpašība ir pasta indekss. Ja apskatām jebkuru personu attiecīgajā datu kopā, vienmēr atradīsim 49 citas personas ar tādu pašu pasta indeksu. Tādējādi nevarēsim identificēt vienu personu tikai pēc tās pasta indeksa.

Ja visām personām datu kopā ir vienāds sensitīvs atribūts, sensitīvā informācija var tikt atklāta, zinot, ka šīs personas ir vienā datu kopā. Lai novērstu šo risku, mēs varam izmantot l-daudzveidību — tas ir nozares standarta termins, kas izmantots, lai aprakstītu sensitīvu vērtību daudzveidības līmeni. Piemēram, iztēlojieties, ka personu grupa vienlaicīgi meklēja vienādu ar veselību saistītu sensitīvu informāciju (piemēram, gripas simptomus). Apskatot šo datu kopu, k-anonimitātes dēļ mēs nevarētu noteikt, kurš meklēja šo informāciju. Tomēr joprojām ir iespējams konfidencialitātes apdraudējums, jo visiem ir vienāds sensitīvais atribūts (proti, vaicājuma tēma). L-daudzveidība nodrošina, ka datu kopā nav iekļauti tikai meklēšanas vaicājumi par gripu. Lai nodrošinātu konfidencialitātes papildu aizsardzību, tajā kopā ar vaicājumiem par gripu būtu iekļauti citi vaicājumi.

Trokšņa pievienošana datiem

Diferencētā konfidencialitāte (arī nozares standarta termins) apzīmē matemātiska trokšņa pievienošanu datiem. Izmantojot diferencēto konfidencialitāti, ir grūti noteikt, vai jebkura persona ir daļa no datu kopas, jo dotā algoritma izvadītie dati izskatās vienādi neatkarīgi no tā, vai personas informācija ir iekļauta. Piemēram, iztēlojieties, ka vērtējam vispārējās tendences attiecībā uz meklēšanas vaicājumiem par gripu kādā ģeogrāfiskajā reģionā. Lai sasniegtu diferencēto konfidencialitāti, mēs datu kopai pievienojam troksni. Tas nozīmē, ka varam pievienot vai noņemt to personu skaitu, kas attiecīgajā apkārtnē meklē informāciju par gripu, bet šāda rīcība neietekmēs tendences novērtējumu plašākā ģeogrāfiskajā reģionā. Svarīgi ņemt vērā, ka, pievienojot troksni datu kopai, var tikt mazināts tās noderīgums.

Anonimizācija ir tikai viens no procesiem, kuru izmantojam lietotāju konfidencialitātes nodrošināšanai. Citi procesi ietver lietotāju datu piekļuves stingru kontroli, politikas, kas kontrolē un ierobežo tādu datu kopu apvienošanu, kas var identificēt lietotājus, kā arī anonimizācijas un datu pārvaldības stratēģiju centralizēta pārskatīšanu, lai nodrošinātu vienāda līmeņa aizsardzību visā Google tīklā.