Come Google anonimizza i dati
L'anonimizzazione è una tecnica di elaborazione dei dati che rimuove o modifica le informazioni di identificazione personale, rendendo i dati anonimi e dunque non associabili a nessun individuo. Si tratta inoltre di una componente fondamentale dell'impegno di Google per la privacy.
Analizzare i dati resi anonimi ci permette di creare funzionalità e prodotti validi e sicuri, come ad esempio il completamento automatico di una interrogazione di ricerca inserita, nonché di individuare meglio le minacce per la sicurezza, ad esempio siti di phishing e malware, proteggendo allo stesso tempo l'identità degli utenti. Inoltre, possiamo condividere i dati resi anonimi esternamente in totale sicurezza, in modo da renderli utili per altri senza mettere a rischio la privacy degli utenti.
Due delle tecniche che utilizziamo per proteggere i tuoi dati
Generalizzazione dei dati
Alcuni dati sono più facilmente collegabili a determinati individui. Per proteggere queste persone, utilizziamo la generalizzazione per rimuovere o sostituire una parte dei dati con un valore comune. Ad esempio, possiamo utilizzare la generalizzazione per sostituire segmenti di prefissi o numeri telefonici con la stessa sequenza di numeri.
La generalizzazione ci consente di ottenere il k-anonimato, termine standard utilizzato nel settore per descrivere una tecnica utile a nascondere l'identità degli individui all'interno di un gruppo di persone simili. Nel k-anonimato, la "k" indica un numero che rappresenta le dimensioni di un gruppo. Se per qualsiasi individuo presente nel set di dati ci sono almeno k-1 individui con le stesse proprietà, significa che quel set di dati ha raggiunto il k-anonimato. Consideriamo ad esempio un determinato set di dati in cui k è uguale a 50 e la proprietà è il codice di avviamento postale: se esaminiamo un individuo qualsiasi all'interno di tale set di dati, troveremo sempre altri 49 individui con lo stesso codice postale. Pertanto, non saremmo in grado di identificare nessuno di loro unicamente dal loro codice postale.
Se tutti gli individui di un set di dati condividono lo stesso valore di una caratteristica sensibile, i loro dati sensibili potrebbero essere rivelati semplicemente sapendo che tali individui fanno parte del set di dati in questione. Per mitigare questo rischio possiamo sfruttare la l-diversità, termine standard utilizzato nel settore per descrivere un certo livello di diversificazione dei valori sensibili. Immaginiamo ad esempio che un gruppo di persone abbia cercato contemporaneamente lo stesso argomento sensibile relativo alla salute (ad esempio, sintomi influenzali). Osservando questo set di dati non saremo in grado di stabilire chi abbia cercato tale argomento, grazie al k-anonimato. Tuttavia, potrebbe sussistere ancora un problema di privacy poiché tutti i membri del gruppo condividono una caratteristica sensibile (ossia l'argomento della ricerca). La L-diversità fa sì che il set di dati resi anonimi non contenga soltanto ricerche relative ai sintomi influenzali ma anche di altro tipo, al fine di proteggere ulteriormente la privacy degli utenti.
Aggiunta di rumore matematico ai dati
La privacy differenziale (un altro termine standard del settore) descrive una tecnica utilizzata per aggiungere rumore matematico ai dati. La privacy differenziale rende difficile accertare se un singolo individuo faccia parte o meno di un set di dati poiché il risultato di un determinato algoritmo apparirà essenzialmente lo stesso, indipendentemente dal fatto che le informazioni di un singolo individuo siano incluse oppure omesse. Immaginiamo ad esempio di misurare il trend generale delle ricerche di dati influenzali in una determinata regione geografica. Per ottenere la privacy differenziale, aggiungeremo rumore matematico al set di dati. Ciò significa che potremmo aggiungere o sottrarre il numero di persone che cercano dati influenzali in un determinato quartiere; ciò tuttavia non influirà sulla nostra misurazione del trend nella regione geografica più ampia. È anche importante notare che aggiungere rumore matematico a un set di dati potrebbe renderlo meno utile.
L'anonimizzazione è soltanto una delle procedure che utilizziamo per mantenere il nostro impegno in materia di privacy degli utenti. Altre procedure includono controlli rigorosi sull'accesso ai dati degli utenti e norme volte a controllare e limitare l'aggiunta di set di dati che potrebbero identificarli, nonché una revisione centralizzata delle strategie di anonimizzazione e gestione dei dati allo scopo di garantire lo stesso livello di protezione all'interno di Google.