Comment Google anonymise les données

L'anonymisation est une technique de traitement de données au moyen de laquelle on supprime ou modifie les données permettant d'identifier les utilisateurs. On obtient ainsi des données qui ne peuvent pas être associées à une personne en particulier. Cette technique fait aussi partie intégrante de l'engagement de Google en matière de confidentialité.

En analysant les données anonymisées, nous sommes en mesure de créer des produits et des fonctionnalités à la fois sécuritaires et utiles, comme le remplissage automatique des requêtes de recherche et une meilleure détection des menaces de sécurité, comme les sites d'hameçonnage et de logiciels malveillants, tout en protégeant l'identité des utilisateurs. Nous pouvons aussi partager en toute sécurité des données anonymisées à l'externe, les rendant utiles pour d'autres, sans risquer la confidentialité de nos utilisateurs.

Deux des techniques que nous utilisons pour protéger vos données

Généralisation des données

Certains éléments de données sont plus facilement associés à certaines personnes. Afin de protéger ces gens, nous utilisons un processus appelé généralisation afin de supprimer une partie des données ou d'en remplacer une partie par une valeur commune. Par exemple, nous pourrions remplacer des segments de tous les indicatifs régionaux ou des numéros de téléphone par la même séquence de nombres.

La généralisation nous permet d'obtenir le « k-anonymat », une norme de l'industrie qui décrit une technique permettant de masquer l'identité des gens appartenant à un groupe de personnes similaires. Le « k » dans « k-anonymat » correspond à un chiffre qui représente la taille d'un groupe. Si, sur tous les gens de l'ensemble de données, au moins « k-1 » personnes présentent les mêmes propriétés, nous avons atteint le k-anonymat pour cet ensemble de données. Par exemple, imaginez un ensemble de données pour lequel « k » est égal à 50 et la propriété est un code postal. Si nous analysons tous les membres de cet ensemble, nous en trouverons toujours 49 autres partageant le même code postal. Il serait alors impossible d'identifier une personne en particulier uniquement sur la base de son code postal.

Si tous les membres d'un ensemble de données partagent la même valeur pour un attribut sensible, de l'information confidentielle est susceptible d'être révélée, simplement en sachant que ces individus font partie de l'ensemble de données en question. Pour limiter ce risque, nous pouvons avoir recours à la « l-diversité ». Ce terme fait référence à une norme de l'industrie qui désigne un certain niveau de diversité dans les valeurs sensibles. Par exemple, imaginez que tous les individus d'un groupe aient effectué une recherche sur un même sujet sensible en lien avec la santé (les symptômes de la grippe, par exemple) en même temps. L'analyse de cet ensemble de données ne permettrait pas d'identifier les personnes ayant recherché ce sujet, et ce, grâce au k-anonymat. Toutefois, il peut toujours subsister un problème de confidentialité, puisque tous les membres de l'ensemble partagent un attribut sensible (le sujet de la requête). La l-diversité permet de faire en sorte que l'ensemble de données anonymisées ne contienne pas que des recherches en lien avec la grippe. Il peut inclure d'autres recherches, en plus de celles portant sur la grippe, pour protéger encore davantage la vie privée des utilisateurs.

Ajout de bruit aux données

La « confidentialité différentielle » (autre terme faisant référence à une norme de l'industrie) désigne une technique d'ajout de bruit mathématique aux données. Avec la confidentialité différentielle, il est plus difficile de déterminer si un individu en particulier fait partie d'un ensemble de données, car le résultat d'un algorithme donné sera fondamentalement identique, que les données d'un individu soient incluses ou non. Imaginez par exemple que nous évaluions la tendance générale des recherches liées à la grippe dans une certaine région géographique. Pour respecter le principe de confidentialité différentielle, nous ajoutons du bruit à cet ensemble de données. En d'autres termes, nous pouvons ajouter ou enlever le nombre de personnes effectuant une recherche en lien avec la grippe dans un quartier donné. Cette opération n'aurait toutefois pas d'influence sur notre évaluation de la tendance dans la région géographique dans son ensemble. Il est également important de noter que l'ajout de bruit à un ensemble de données peut aussi le rendre moins utile.

L'anonymisation n'est que l'une des techniques que nous utilisons pour tenir notre engagement visant à protéger la vie privée des utilisateurs. Parmi les autres moyens que nous mettons en œuvre figurent des contrôles stricts de l'accès aux données des utilisateurs, des politiques visant à contrôler et à limiter la combinaison d'ensembles de données qui pourraient permettre d'identifier des utilisateurs, ainsi que l'examen centralisé des stratégies d'anonymisation et de gouvernance des données afin d'assurer un niveau de protection constant dans tous les produits et services de Google.