Så här anonymiserar Google data

Anonymisering är en databearbetningsteknik som används till att ta bort eller ändra personliga uppgifter. Resultatet är anonymiserad data som inte kan kopplas till en specifik individ. Detta är en viktig del i Googles sekretessarbete.

Genom att analysera anonymiserad data kan vi skapa säkra och värdefulla produkter och tjänster (t.ex. autoslutförande av tidigare sökfrågor) samt lättare upptäcka säkerhetshot som nätfiske och webbplatser med skadlig programvara samtidigt som vi skyddar användarnas identiteter. Vi kan även dela anonymiserad data externt på ett säkert sätt. Det innebär att andra kan få användning av den utan att våra användares sekretess äventyras.

Två tekniker som vi använder till att skydda din data

Generalisera data

Vissa dataelement är lättare att koppla till vissa individer. För att skydda dessa individer använder vi en generaliseringsmetod för att ta bort vissa uppgifter eller byta ut vissa delar av den med ett generiskt värde. Vi kan till exempel använda generalisering till att byta ut delar av alla postnummer eller telefonnummer med samma generiska siffersekvens.

Med hjälp av generalisering kan vi uppnå K-anonymitet, en branschterm för en teknik som används till att dölja individers identiteter i en grupp med liknande personer. K i K-anonymitet är ett tal som representerar gruppens storlek. Om det finns minst K-1 individer som har samma attribut som någon individ i datauppsättningen har K-anonymitet uppnåtts för denna uppsättning. Om vi till exempel har en datauppsättning där K är lika med 40 och attributet är ett postnummer. Om tittar på vilken person som helst i datauppsättning har vi alltid 49 andra med samma postnummer. Vi skulle därför inte kunna identifiera någon annan person utifrån endast postnumret.

Om alla individer i datauppsättningen delar samma värde för ett känsligt attribut kan det gå att röja känsliga uppgifter bara genom att veta att individerna ingår i datauppsättningen i fråga. Vi kan minska denna risk med hjälp av L-diversitet, en branschterm som betecknar en viss nivå av diversitet för känsliga värden. Föreställ dig till exempel att en grupp människor söker efter samma känsliga hälsoämne samtidigt (t.ex. influensasymtom). Om vi tittar på denna datauppsättning kan vi inte avgöra vem som sökte efter ämnet tack vare K-anonymitet. Det kan dock fortfarande finnas en sekretessrisk, eftersom alla delar ett känsligt attribut (dvs. sökämnet). L-diversitet innebär att den anonymiserade datauppsättningen inte innehåller enbart sökningar på influensa. Den skulle i stället innehålla andra sökningar utöver influensasökningen för att skydda användarnas integritet ytterligare.

Lägga till brus i data

Differentiell integritet (även detta en branschterm) är en teknik som används till att lägga till matematiskt brus i data. Med differentiell integritet är det svårt att avgöra om en individ ingår i en datauppsättning eftersom utdatan från en viss algoritm i stort sätt är densamma, oavsett om en individs uppgifter ingår eller utelämnas. Om vi till exempel mäter den allmänna trenden för sökningar på influensa i ett geografiskt område. För att uppnå differentiell integritet måste vi lägga till brus i datauppsättningen. Detta innebär att vi kan lägga till eller ta bort ett antal personer som sökte efter influensa i ett visst område utan att mätningen av trenden i det bredare geografiska området påverkas. Observera dock att en datauppsättning kan bli mindre användbar om brus läggs till.

Anonymisering är bara en av flera procedurer som vi använder till att skydda användarnas integritet. Vi har exempelvis en strikt hantering av åtkomst till användardata, policyer som reglerar och begränsar hopslagning av datauppsättningar som kan identifiera användare och en centraliserad granskning av anonymiserings- och dataförvaltningsstrategier så att vi får en konsekvent skyddsnivå på hela Google.