Comment les informations sont-elles rendues anonymes par Google ?

L'anonymisation est une technique de traitement des données qui permet de supprimer ou de modifier les informations personnelles de manière à les rendre anonymes. Elles ne peuvent dès lors plus être associées à un individu en particulier. Cette technique constitue également un élément essentiel de l'engagement de Google en matière de protection de la vie privée.

L'analyse des informations rendues anonymes nous permet de concevoir des produits ainsi que des services sûrs et de qualité, tels que la saisie semi-automatique pour les requêtes de recherche. Leur analyse nous permet également de mieux détecter les menaces pesant sur la sécurité, telles que les tentatives d'hameçonnage et les sites contenant des logiciels malveillants, tout en protégeant l'identité des utilisateurs. Nous pouvons également partager en externe et de façon sécurisée des informations rendues anonymes. Ces données peuvent ainsi être utiles à certaines personnes, sans pour autant mettre à mal la vie privée de nos utilisateurs.

Deux techniques que nous utilisons pour protéger vos informations

Généraliser les informations

Certains éléments de données sont plus faciles à rattacher à certaines personnes. Afin de protéger ces dernières, nous avons recours à la généralisation pour supprimer une part des informations ou en remplacer une partie par une valeur courante. Par exemple, nous pouvons nous servir de la généralisation pour remplacer une partie d'un indicateur ou d'un numéro de téléphone par une séquence de chiffres qui se répète.

Grâce à la généralisation, nous sommes en mesure de respecter le "k-anonymat". Ce terme fait référence à un standard de l'industrie et désigne une technique permettant de masquer l'identité d'individus dans un groupe de personnes semblables. Le "k" de "k-anonymat" correspond à un chiffre qui représente la taille d'un groupe. Si, sur tous les individus de l'ensemble de données, au moins "k-1" individus présentent les mêmes propriétés, nous avons atteint le k-anonymat pour cet ensemble de données. Par exemple, imaginez un ensemble de données pour lequel "k" est égal à 50 et la propriété est un code postal. Si nous analysons tous les membres de cet ensemble, nous en trouverons toujours 49 autres partageant le même code postal. Il serait dès lors impossible d'identifier une personne en particulier uniquement sur la base de son code postal.

Si tous les membres d'un ensemble de données partagent la même valeur pour un attribut sensible, des informations sensibles sont susceptibles d'être révélées, simplement en sachant que ces individus font partie de l'ensemble de données en question. Pour limiter ce risque, nous pouvons avoir recours à la "l-diversité". Ce terme fait référence à un standard de l'industrie et désigne un certain niveau de diversité dans les valeurs sensibles. Par exemple, imaginez que tous les individus d'un groupe aient effectué une recherche sur un même sujet sensible en lien avec la santé (les symptômes de la grippe, par exemple) en même temps. L'analyse de cet ensemble de données ne permettrait pas d'identifier les personnes ayant recherché ce sujet, et ce, grâce au k-anonymat. Toutefois, il peut toujours subsister un problème de confidentialité, puisque tous les membres de l'ensemble partagent un attribut sensible (le sujet de la requête). La l-diversité permet de faire en sorte que l'ensemble de données rendues anonymes ne contienne pas que des recherches en lien avec la grippe. Il peut inclure d'autres recherches, en plus de celles portant sur la grippe, pour protéger encore davantage la vie privée des utilisateurs.

Ajouter du bruit aux informations

La "confidentialité différentielle" (autre terme faisant référence à un standard de l'industrie) désigne une technique d'ajout de bruit mathématique aux informations. Avec la confidentialité différentielle, il est plus difficile de déterminer si un individu en particulier fait partie d'un ensemble de données, car le résultat d'un algorithme donné sera fondamentalement identique, que les informations d'un individu soient incluses ou non. Imaginez par exemple que nous évaluions la tendance générale des recherches liées à la grippe dans une certaine région géographique. Pour obtenir une confidentialité différentielle, nous ajoutons du bruit à cet ensemble de données. En d'autres termes, nous pouvons ajouter ou enlever le nombre de personnes effectuant une recherche en lien avec la grippe dans un quartier donné. Cette opération n'aurait toutefois pas d'influence sur notre évaluation de la tendance dans la région géographique dans son ensemble. Il est également important de noter que l'ajout de bruit à un ensemble de données peut aussi le rendre moins utile.

L'anonymisation n'est que l'une des techniques que nous utilisons pour tenir notre engagement visant à protéger la vie privée des utilisateurs. Parmi les autres moyens que nous mettons en œuvre figurent des contrôles stricts de l'accès aux données des utilisateurs, des règles visant à contrôler et limiter la combinaison d'ensembles de données qui pourraient permettre d'identifier des utilisateurs, ainsi que l'examen centralisé des stratégies d'anonymisation et de gouvernance des données afin d'assurer un niveau de protection constant pour tous les produits et services Google.