Hoe Google gegevens anonimiseert

Anonimisering is een gegevensverwerkingstechniek waarbij alle persoonlijk identificeerbare informatie wordt verwijderd of aangepast. Dit resulteert in geanonimiseerde gegevens die niet aan een persoon kunnen worden gekoppeld. Deze techniek is ook een essentieel onderdeel van het streven van Google om de privacy te waarborgen.

Door geanonimiseerde gegevens te analyseren, kunnen we veilige en waardevolle producten en functies maken, zoals automatische aanvulling van zoekopdrachten en beter beveiligingsrisico's detecteren, zoals phishing en malwaresites, terwijl tegelijkertijd de identiteit van gebruikers wordt beschermd. We kunnen geanonimiseerde gegevens ook veilig extern delen, zodat anderen ook kunnen gebruikmaken van deze gegevens zonder dat we de privacy van onze gebruikers in gevaar brengen.

Twee technieken die we gebruiken om uw gegevens te beschermen

Gegevens generaliseren

Er zijn bepaalde gegevenselementen die eenvoudig aan bepaalde personen kunnen worden gekoppeld. Ter bescherming van deze personen worden de gegevens gegeneraliseerd om een gedeelte van de gegevens te verwijderen of om een bepaald gedeelte te vervangen door een algemene waarde. We gebruiken bijvoorbeeld generalisatie om segmenten met postcodes of telefoonnummers te vervangen door dezelfde reeks getallen.

Door generalisatie kunnen we k-anonimiteit bereiken. Dit is een standaardterm binnen de branche die verwijst naar een techniek om de identiteit van individuen binnen een groep van soortgelijke personen te verbergen. De k in k-anonimiteit staat voor een getal waarmee de grootte van een groep wordt aangeduid. Als er voor een individu in de gegevensset ten minste k-1 individuen zijn met dezelfde eigenschappen, is er sprake van k-anonimiteit voor de gegevensset. Stel dat voor een bepaalde gegevensset k gelijkstaat aan 50 en de eigenschap de postcode is. Als we naar een persoon in de gegevensset kijken, vinden we altijd 49 anderen met dezelfde postcode. Zodoende is het onmogelijk een persoon te identificeren op basis van alleen de postcode.

Als alle individuen in een gegevensset dezelfde waarde voor een gevoelig kenmerk delen, kan gevoelige informatie worden onthuld wanneer bekend is welke individuen deel uitmaken van de betreffende gegevensset. We maken gebruik van l-diversiteit om dit risico te beperken. L-diversiteit is een standaardterm binnen de branche waarmee een bepaalde mate van diversiteit in de gevoelige waarden wordt beschreven. Stel dat een groep mensen op hetzelfde moment naar hetzelfde gevoelige gezondheidsonderwerp heeft gezocht (bijvoorbeeld symptomen van de griep). Wanneer we deze gegevensset bekijken, kunnen we dankzij k-anonimiteit niet achterhalen wie op dit onderwerp heeft gezocht. Hiermee is het privacyprobleem echter nog niet opgelost, aangezien iedereen een gevoelig kenmerk deelt (oftewel het onderwerp van de zoekopdracht). L-diversiteit betekent dat de geanonimiseerde gegevensset niet alleen zoekopdrachten voor de griep bevat. De gegevensset kan naast zoekopdrachten voor de griep andere zoekopdrachten bevatten om de privacy van de gebruiker nog beter te waarborgen.

Ruis aan gegevens toevoegen

Differentiële privacy (ook een standaardterm binnen de branche) is de term voor een techniek waarmee mathematische ruis aan gegevens wordt toegevoegd. Met differentiële privacy is het lastig om na te gaan of een bepaald individu deel uitmaakt van een gegevensset, omdat de uitvoer van een bepaald algoritme er in wezen hetzelfde uitziet, ongeacht of de informatie van een bepaald persoon is opgenomen of weggelaten. Stel dat we de algemene trend in zoekopdrachten voor de griep willen meten voor een geografische regio. In dat geval voegen we ruis aan de gegevensset toe om differentiële privacy te bereiken. Dit betekent dat we het aantal mensen dat binnen een bepaalde buurt op de griep zoekt, mogelijk optellen of aftrekken. Dit is echter niet van invloed op onze meting van de trend binnen een bredere geografische regio. Het is ook belangrijk om te vermelden dat wanneer er ruis aan de gegevensset wordt toegevoegd, dit mogelijk ten koste gaat van de bruikbaarheid van de gegevensset.

Anonimisering is slechts een van de processen die we gebruiken in ons streven om de privacy van de gebruiker te waarborgen. Daarnaast hanteren we onder andere strenge controles voor de toegang tot gebruikersgegevens, hebben we beleidsregels geïmplementeerd om de samenvoeging van gegevenssets te beheren en te beperken om te voorkomen dat gebruikers kunnen worden geïdentificeerd, en worden de anonimisering en gegevensbeheerstrategieën centraal beoordeeld om een consistente mate van bescherming voor heel Google te garanderen.