Com Google anonimitza les dades

L'anonimització és una tècnica de tractament de dades que suprimeix o modifica la informació d'identificació personal. Com a resultat, s'obtenen dades anonimitzades que no es poden associar amb cap persona. També és un component molt important del compromís de Google amb la privadesa.

Analitzar les dades anonimitzades ens permet protegir la identitat de l'usuari alhora que creem productes i funcions segurs i valuosos (per exemple, completar automàticament una consulta de cerca) i millorem la detecció d'amenaces per a la seguretat (per exemple, els llocs web de pesca o de programari maliciós). També podem compartir externament i de manera segura les dades anonimitzades, de manera que siguin útils per a altres persones sense posar en perill la privadesa dels nostres usuaris.

Dues de les tècniques que utilitzem per protegir les dades

Generalitzar les dades

Determinats elements de les dades s'associen més fàcilment a certes persones. Amb la finalitat de protegir aquestes persones, utilitzem la generalització per suprimir una part de les dades o substituir-la per un valor comú. Per exemple, podem fer servir la generalització per substituir segments de tots els prefixos o números de telèfon per la mateixa seqüència de números.

La generalització ens permet aconseguir l'anonimat-k, un terme estàndard del sector utilitzat per descriure una tècnica que serveix per amagar la identitat de les persones dins d'un grup de persones similars. A l'anonimat-k, la k és un número que representa la mida del grup. Si, per qualsevol persona del conjunt de dades, hi ha almenys k - 1 persones amb les mateixes propietats, hem aconseguit l'anonimat-k del conjunt de dades. Per exemple, imagineu un conjunt de dades determinat en què k és igual a 50 i la propietat és el codi postal. Si ens fixem en qualsevol persona d'aquest conjunt de dades, sempre trobarem 49 persones més amb el mateix codi postal. Per tant, no podrem identificar ningú només a partir del codi postal.

Si totes les persones d'un conjunt de dades comparteixen el mateix valor d'un atribut confidencial, és possible que es reveli informació confidencial només pel fet de saber que aquestes persones formen part del conjunt de dades en qüestió. Per minimitzar aquest risc, podem aprofitar la diversitat-l, un terme estàndard del sector utilitzat per descriure cert nivell de diversitat als valors confidencials. Per exemple, imagineu un grup de persones que fa una cerca alhora sobre el mateix tema confidencial de salut (com ara símptomes de la grip). Si consultem aquest conjunt de dades, no podrem saber qui ha cercat el tema gràcies a l'anonimat-k. Tanmateix, encara hi pot haver un motiu de preocupació relacionat amb la privadesa, ja que tothom té en comú un atribut confidencial (és a dir, el tema de la consulta). La diversitat-l vol dir que el conjunt de dades anonimitzades no contindria només cerques sobre la grip, sinó que, a més, podria incloure'n d'altres per proporcionar una major protecció de la privadesa de l'usuari.

Afegir soroll a les dades

La privadesa diferencial (un altre terme estàndard del sector) és una tècnica que serveix per afegir soroll matemàtic a les dades. Amb la privadesa diferencial, és difícil determinar si una persona forma part d'un conjunt de dades perquè el resultat d'un algoritme determinat tindrà el mateix aspecte bàsic, tant si la informació d'una persona s'inclou o s'omet. Per exemple, imagineu que volem mesurar la tendència general de cerques sobre la grip dins d'una regió geogràfica. Per aconseguir privadesa diferencial, afegim soroll al conjunt de dades. És a dir, podem sumar o restar el nombre de persones d'un barri concret que cerquen "grip", però aquesta operació no influeix en la mesura de la tendència en tota la regió geogràfica d'abast superior. També és important tenir en compte que afegir soroll a un conjunt de dades pot fer que no sigui tan útil.

L'anonimització és només un procés que utilitzem per mantenir el nostre compromís amb la privadesa dels usuaris. Altres processos inclouen controls estrictes en l'accés a les dades dels usuaris, polítiques per controlar i limitar la inclusió de conjunts de dades que poden identificar els usuaris, i la revisió centralitzada de l'anonimització i les estratègies per controlar les dades amb la finalitat de garantir un nivell constant de protecció en tot Google.