Sådan anonymiserer Google data

Anonymisering er en databehandlingsteknik, der fjerner eller ændrer personhenførbare oplysninger. Resultatet er anonymiserede data, som ikke kan tilknyttes et enkelt individ. Det er også en afgørende del af Googles forpligtelse til beskyttelse af personlige oplysninger.

Ved at analysere anonymiserede data kan vi udvikle sikre og værdifulde produkter og funktioner, f.eks. automatisk udfyldelse af en angivet søgeforespørgsel, samt bedre registrere trusler mod sikkerheden, f.eks. phishing- og malwarewebsites, og samtidigt beskytte brugerens identitet. Vi kan også på forsvarlig vis dele anonymiserede data eksternt, så de kan anvendes af andre uden fare vores brugeres privatliv.

To af de teknikker, vi bruger til at beskytte dine data

Generalisering af data

Der findes visse dataelementer, der lettere kan tilknyttes bestemte individer. For at beskytte disse individer bruger vi generalisering til at fjerne en portion af dataene eller erstatte en del af dem med en fællesværdi. Vi kan f.eks. bruge generalisering til at erstatte segmenter af alle områdenumre eller telefonnumre med den samme talsekvens.

Ved hjælp af generalisering kan vi opnå k-anonymitet, et standardbegreb i branchen, der bruges til at beskrive en teknik til at skjule individers identitet i en gruppe af lignende personer. Bogstavet "k" i k-anonymitet er et tal, der repræsenterer størrelsen på en gruppe. Hvis der for hvert enkelt individ i datasættet er mindst k-1 individer med samme egenskaber, har vi opnået k-anonymitet for datasættet. Forestil dig f.eks. et bestemt datasæt, hvor k er lig med 50, og egenskaben er postnummeret. Hvis vi ser på et individ i det pågældende datasæt, vil vi altid finde 49 andre med det samme postnummer. Derfor kan vi ikke identificere én enkelt person kun ud fra postnummeret.

Hvis alle individer i et datasæt deler samme værdi for en følsom egenskab, kan følsomme oplysninger afsløres alene ved at vide, at disse individer indgår i det pågældende datasæt. For at mindske denne risiko kan vi gøre brug af l-diversitet, et standardbegreb i branchen, der bruges til at beskrive en vis grad af diversitet i de følsomme værdier. Forestil dig f.eks., at en gruppe brugere alle sammen søgte efter det samme følsomme helbredsemne (f.eks. symptomer på influenza) på samme tid. Hvis vi ser på dette datasæt, kan vi takket være k-anonymitet ikke udlede, hvem der søgte efter emnet. Der kan dog stadig være bekymringer ift. beskyttelsen af personlige oplysninger, da alle deler samme følsomme egenskab (dvs. emnet for forespørgslen). L-diversitet betyder, at det anonymiserede datasæt ikke kun indeholder søgninger efter influenza. Det omfatter også andre søgninger sideløbende med influenzasøgningerne for yderligere at beskytte brugernes privatliv.

Tilføjelse af støj til data

Differential privacy (som også er et standardbegreb i branchen) beskriver en teknik, hvor der føjes matematisk støj til data. Med differential privacy er det svært at fastslå, om et individ indgår i et datasæt, fordi outputtet af en given algoritme i store træk vil se identisk ud, uanset om det enkelte individs oplysninger er medtaget eller ej. Forestil dig f.eks., at vi måler den generelle udvikling inden for søgninger efter influenza i et geografisk område. For at opnå differential privacy føjer vi støj til datasættet. Det betyder, at vi muligvis lægger til eller trækker fra i antallet af personer, der søger efter influenza i et givet boligkvarter, uden at det påvirker vores målinger af udviklingen i det bredere geografiske område. Det er dog værd at bemærke, at tilføjelse af støj kan gøre datasættet mindre brugbart.

Anonymisering er kun en af de procedurer, vi bruger til at opretholde vores forpligtelse til beskyttelse af brugernes oplysninger. Andre procedurer er blandt andet streng kontrol af adgangen til brugerdata, politikker til administration og begrænsning af samkørsel af datasæt, der kan identificere brugere, og centraliseret gennemgang af strategier for anonymisering og datastyring for at sikre et konsekvent beskyttelsesniveau i alle Google-tjenester.