Wie Google Daten anonymisiert

Bei der Anonymisierung werden personenbezogene Daten entfernt oder modifiziert. Diese anonymisierten Daten können dann keiner Einzelperson mehr zugeordnet werden. Die Anonymisierung von Daten ist ein entscheidender Bestandteil der Verpflichtung von Google zum Datenschutz.

Durch die Analyse anonymisierter Daten können wir sichere und nützliche Produkte und Funktionen entwickeln, etwa die automatische Vervollständigung von Suchanfragen, und Sicherheitsbedrohungen wie Phishing- und Malware-Websites besser erkennen. Gleichzeitig sind wir so in der Lage, die Identitäten unserer Nutzer zu schützen. Und wir können anonymisierte Daten auf sichere Art und Weise extern teilen, sodass sie von anderen genutzt werden können, ohne die Privatsphäre unserer Nutzer zu gefährden.

Zum Schutz Ihrer Daten setzen wir unter anderem die folgenden beiden Methoden ein:

Generalisierung von Daten

Bestimmte Datenelemente lassen sich leichter bestimmten Einzelpersonen zuweisen. Um die Privatsphäre dieser Personen zu schützen, nutzen wir die Generalisierung und entfernen dabei Teile der Daten oder ersetzen diese mit einem allgemeinen Wert. Beispielsweise tauschen wir dazu Segmente aller Vorwahlen oder Telefonnummern mit derselben Zahlenfolge aus.

Durch die Generalisierung können wir k-Anonymität erzielen. Dieser branchenübliche Standardbegriff beschreibt eine Methode, bei der die Identitäten von Einzelpersonen in einer Gruppe ähnlicher Personen versteckt werden. Dabei steht das "k" für die Größe der Gruppe. Wenn es für jede Einzelperson im Datensatz mindestens k-1 Einzelpersonen mit denselben Identifikatoren gibt, wurde eine k-Anonymität für den Datensatz erzielt. Stellen Sie sich zum Beispiel einen bestimmten Datensatz vor, bei dem k gleich 50 ist und der Identifikator die Postleitzahl ist. Für jede Einzelperson in diesem Datensatz wird es immer 49 andere mit derselben Postleitzahl geben. Aus diesem Grund kann keine Einzelperson nur anhand ihrer Postleitzahl identifiziert werden.

Wenn alle Einzelpersonen in einem Datensatz denselben Wert für ein vertrauliches Attribut teilen, können vertrauliche Daten preisgegeben werden, indem einfach nur bekannt ist, dass diese Einzelpersonen Teil des entsprechenden Datensatzes sind. Um dieses Risiko zu mindern, können wir l-Diversität nutzen. Dieser branchenübliche Standardbegriff beschreibt den Grad der Diversität bei den vertraulichen Werten. Stellen Sie sich zum Beispiel eine Gruppe von Einzelpersonen vor, die gleichzeitig nach demselben sensiblen Gesundheitsthema (z.B. Grippesymptomen) sucht. Dank k-Anonymität können wir nicht sagen, wer genau nach diesem Thema gesucht hat. Da alle ein vertrauliches Attribut (das Thema der Suchanfrage) gemeinsam haben, besteht unter Umständen trotzdem ein Datenschutzproblem. Beim Einsatz von l-Diversität könnten die anonymisierten Daten neben den Suchanfragen für Grippe noch weitere Anfragen enthalten, um die Privatsphäre der Nutzer besser zu schützen.

Den Daten Rauschen hinzufügen

Bei der Methode der Differential Privacy (ein weiterer branchenüblicher Begriff) wird den Daten mathematisches Rauschen hinzugefügt. Bei Differential Privacy lässt sich nicht sicher bestimmen, ob eine bestimmte Einzelperson Teil eines Datensatzes ist. Die Ausgabe des jeweiligen Algorithmus scheint hier nämlich immer dieselbe zu sein, unabhängig davon, ob die Daten von bestimmten Einzelpersonen berücksichtigt werden oder nicht. Stellen Sie sich zum Beispiel vor, dass wir die Gesamtentwicklung bei den Suchanfragen für Grippe in einer geografischen Region messen. Um Differential Privacy zu erreichen, fügen wir den Daten Rauschen hinzu. Dabei addieren oder subtrahieren wir die Anzahl der Personen, die in einem bestimmten Viertel nach Grippe suchen. Dies wirkt sich jedoch nicht auf die Werte des Trends in der geografischen Region insgesamt aus. Die Aussagekraft von Datensätzen nimmt jedoch durch den Einsatz von Rauschen unter Umständen ab.

Die Anonymisierung ist nur ein Bestandteil unserer Verpflichtung zum Datenschutz. Wir setzen unter anderem auch strenge Kontrollen des Zugriffs auf Nutzerdaten ein und steuern und beschränken mithilfe von Richtlinien, wie Datensätze, die Nutzer identifizieren könnten, miteinander kombiniert werden dürfen. Außerdem werden die Strategien für Anonymisierung und Data Governance zentral überprüft, um ein einheitliches Maß an Schutz in allen Google-Produkten zu gewährleisten.