Googlen suorittama datan anonymisointi
Datan käsittelyssä anonymisoinnilla tarkoitetaan henkilötietojen poistamista tai muokkaamista niin, ettei anonymisoitua dataa ole mahdollista yhdistä tiettyyn henkilöön. Se on myös keskeinen osa Googlen sitoutumista käyttäjien tietosuojaan.
Analysoimalla anonymisoitua dataa pystymme kehittämään turvallisia ja hyödyllisiä tuotteita ja ominaisuuksia huolehtien samalla käyttäjien yksityisyydestä. Voimme esimerkiksi tarjota hakukyselyiden automaattisen täydennyksen sekä tunnistaa paremmin tietojenkalasteluyrityksiä, haittaohjelmasivustoja ja muita tietoturvauhkia. Lisäksi pystymme jakamaan anonymisoitua dataa yhtiön ulkopuolelle vaarantamatta käyttäjiemme yksityisyyttä, jolloin datasta on hyötyä myös muille.
Kaksi tapaa suojata dataa
Datan yleistäminen
Jotkin dataelementit ovat muita helpommin yhdistettävissä yksityishenkilöihin. Suojaamme yksityisyyttä datan yleistämisellä, jossa osa datasta poistetaan tai korvataan yleisellä arvolla. Yleistämisessä voidaan esimerkiksi korvata useiden eri posti- tai puhelinnumeroiden osa tietyllä numerosarjalla.
Yleistämisellä voidaan päästä k-anonymiteettiin, joka tarkoittaa anonymisointia muodostamalla keskenään samankaltaisista yksilöistä ryhmiä. K-anonymiteetissä k on ryhmän kokoa kuvaava luku. Jos yhtä datajoukkoon kuuluvaa yksilöä kohden on olemassa vähintään k – 1 henkeä, joilla on samat ominaisuudet, kyseinen datajoukko on k-anonyymi. Jos esimerkiksi datajoukossa k = 50 ja ominaisuutena on postinumero, jokaista joukkoon kuuluvaa henkeä kohden on 49 muuta, joilla on sama postinumero. Näin mitään yksityishenkilöä ei voida tunnistaa vain postinumeron perusteella.
Jos kaikilla datajoukkoon kuuluvilla henkilöillä on sama arkaluontoinen määrite, arkaluontoista dataa voi paljastua jo sen tiedon perusteella, että nämä henkilöt kuuluvat kyseiseen datajoukkoon. Tätä riskiä voidaan pienentää l-diversiteetillä, jolla tarkoitetaan arkaluontoisen datan vaihtelua. Esimerkki: Joukko ihmisiä hakee samanaikaisesti tietoa samasta arkaluontoisesta terveyteen liittyvästä aiheesta, kuten influenssan oireista. K-anonymiteetin ansiosta emme pysty sanomaan, kuka on hakenut tietoa tästä aiheesta. Yksityisyys voi kuitenkin olla silti vaarassa, sillä joukon kaikilla jäsenillä on sama arkaluontoinen määrite (eli kyselyn aihe). L-diversiteetti tarkoittaa, että anonymisoitu datajoukko sisältää muutakin kuin vain influenssaan liittyviä hakuja. Se voi sisältää lisäksi myös muita kyselyitä, jolloin käyttäjien tietosuoja paranee entisestään.
Kohinan lisääminen
Differentiaalinen yksityisyys on termi, joka tarkoittaa matemaattisen kohinan lisäämistä dataan. Differentiaalinen yksityisyys vaikeuttaa sen määrittämistä, kuuluuko jokin yksittäinen henkilö datajoukkoon. Tämä johtuu siitä, että algoritmin tuloste näyttää pääpiirteittäin samalta riippumatta siitä, sisältääkö se jonkin yksittäisen henkilön tiedot vai ei. Esimerkki: Mittaamme influenssaan liittyvien hakujen kehitystä tietyllä maantieteellisellä alueella. Differentiaalinen yksityisyys varmistetaan lisäämällä datajoukkoon kohinaa, eli lisäämällä tai vähentämällä influenssaa hakevien käyttäjien määrää tietyillä alueilla mutta kuitenkin niin, ettei kehityksen mittaaminen laajemmalla maantieteellisellä alueella vaarannu. On tärkeää huomata, että kohinan lisääminen datajoukkoon voi heikentää sen hyödyllisyyttä.
Anonymisointi on vain yksi monista prosesseista, joilla huolehdimme käyttäjien tietosuojasta. Muita prosesseja ovat käyttäjädatan käytön rajoittaminen tarkasti, käytännöt joilla valvotaan ja rajoitetaan datajoukkojen yhdistämistä tavalla, joka voisi johtaa käyttäjien tunnistamiseen, sekä anonymisointi- ja datanhallintastrategioiden arviointi keskitetysti. Näin varmistamme yhdenmukaisen suojauksen kaikissa Googlen palveluissa.