Hvordan anonymiserer Google data?

Anonymisering er en teknikk for databehandling hvor personlig identifiserbar informasjon blir fjernet eller endret. Resultatet er anonymiserte data som ikke kan knyttes til enkeltpersoner. Det er også en avgjørende komponent i Googles arbeid for å verne om brukernes personvern.

Ved å analysere anonymiserte data kan vi lage trygge og verdifulle produkter og funksjoner, for eksempel autofullføring av søk som skrives inn, og vi kan bedre oppdage sikkerhetstrusler, for eksempel nettsteder som driver med nettfisking eller inneholder skadelig programvare – samtidig som vi beskytter brukernes identitet. I tillegg kan vi trygt dele anonymiserte data eksternt, sånn at de kan være nyttige for andre – uten å utsette brukernes personvern for fare.

Her er to av teknikkene vi bruker for å beskytte dataene dine:

Generalisering av data

Det finnes dataelementer det er relativt lett å knytte til spesifikke enkeltpersoner. For å beskytte slike personer bruker vi generalisering. Det vil si at vi fjerner noen data og erstatter dem med fellesverdier. Vi kan for eksempel bruke generalisering for å bytte ut segmenter i alle landskoder eller telefonnumre med den samme tallsekvensen.

Ved å bruke generalisering kan vi oppnå «k-anonymitet». Dette er en bransjeterm som brukes for å beskrive en teknikk som skjuler identiteten til enkeltpersoner i en gruppe med lignende personer. K-en i k-anonymitet er et tall som representerer gruppens størrelse. Hvis en enkeltperson i et datasett har de samme egenskapene som minst k-1 enkeltpersoner, har vi oppnådd k-anonymitet for det aktuelle datasettet. Se for eksempel for deg et datasett hvor «k» er 50 og egenskapen er «postnummer». Hvis vi ser på en hvilken som helst person i dette datasettet, finner vi alltid 49 andre med det samme postnummeret. Det betyr at vi ikke kan identifisere noen med bare postnummeret til vedkommende.

Hvis alle enkeltpersoner i et datasett har den samme verdien for et sensitivt attributt, kan vi finne ut sensitive opplysninger ved bare å vite at en person er med i det aktuelle datasettet. For å redusere denne risikoen, kan vi bruke «l-diversitet». Dette er en bransjeterm som brukes for å beskrive en grad av diversitet – eller mangfold – i de sensitive verdiene. Se for eksempel for deg at en gruppe med personer søkte etter det samme sensitive helserelaterte temaet samtidig (kanskje symptomer på influensa). Hvis vi ser på datasettet, vet vi ikke hvem som har søkt etter temaet, siden vi har brukt k-anonymitet. Men det kan fortsatt finnes en utfordring for personvernet siden alle deler et sensitivt attributt (i dette tilfellet temaet for søket). Når vi bruker l-diversitet, inneholder ikke det anonymiserte datasettet bare søk knyttet til influensa lenger. Det kan i stedet inneholde andre søk i tillegg, for å beskytte brukernes personvern ytterligere.

Tilføring av støy i data

Differensielt personvern (nok en bransjeterm) beskriver en teknikk hvor vi tilfører matematisk støy i data. Når vi bruker differensielt personvern, blir det vanskelig å finne ut om enkeltpersoner er med i et datasett, fordi resultatet for en gitt algoritme i all hovedsak viser det samme – uavhengig av om enkeltpersoners informasjon tas med eller utelates. Se for eksempel for deg at vi måler den overordnede trenden for søk knyttet til influensa i en geografisk region. For å oppnå differensielt personvern tilfører vi støy i datasettet. Det betyr at vi legger til eller trekker fra antallet personer som har søkt etter influensa i et gitt nabolag. Dette får imidlertid ingen innvirkning på målingen av søketrenden for den større geografiske regionen. Det er også viktig å være oppmerksom på at nytteverdien av datasett kan bli redusert når vi tilfører støy.

Anonymisering er bare én av prosessene vi bruker for å verne om brukernes personvern. Vi bruker også prosesser som streng kontroll for tilgangen til brukerdata, retningslinjer som kontrollerer og begrenser deltakelse i datasett som kan identifisere brukere, og en sentralisert gjennomgang av strategiene for anonymisering og administrering av data. Dermed får vi samme grad av beskyttelse i alle Google-produkter.