W jaki sposób Google anonimizuje dane
Anonimizacja to technika przetwarzania danych polegająca na usunięciu lub zmodyfikowaniu informacji umożliwiających identyfikację konkretnych osób. W wyniku tego procesu uzyskuje się dane zanonimizowane, których nie można powiązać z żadną konkretną osobą. Anonimizacja danych jest również istotną częścią zobowiązania Google do ochrony prywatności.
Analizowanie zanonimizowanych danych umożliwia nam opracowywanie bezpiecznych i przydatnych usług i funkcji, takich jak autouzupełnianie wpisywanego zapytania, oraz skuteczniejsze wykrywanie zagrożeń bezpieczeństwa, na przykład prób wyłudzania informacji oraz złośliwych witryn, przy jednoczesnej ochronie tożsamości użytkowników. Możemy też bezpiecznie udostępniać zanonimizowane dane na zewnątrz, dzięki czemu inne podmioty mogą z nich korzystać, podczas gdy prywatność naszych użytkowników pozostaje chroniona.
Oto dwie techniki, z których korzystamy, by chronić Twoje dane
Uogólnianie danych
Pewne elementy danych można łatwiej powiązać z konkretnymi osobami. Aby chronić tożsamość użytkowników, korzystamy z uogólniania – usuwamy część danych lub zastępujemy jeden z ich elementów wspólną wartością. Technikę tę możemy zastosować na przykład po to, by zastąpić segmenty zawierające wszystkie numery kierunkowe lub numery telefonu tą samą sekwencją cyfr.
Uogólnianie umożliwia nam osiągnięcie k-anonimizacji – to standardowe pojęcie branżowe opisujące technikę ukrywania tożsamości osób w grupie podobnych jednostek. W przypadku k-anonimizacji k oznacza liczbę określającą wielkość grupy. Jeżeli na każdą osobę w zbiorze danych przypada co najmniej k-1 osób o takich samych cechach, wówczas udało się osiągnąć k-anonimizację w tym zbiorze. Wyobraźmy sobie na przykład określony zbiór danych, w którym k jest równe 50, a cechą jest kod pocztowy. Na dowolną osobę w tym zbiorze danych zawsze będzie przypadać 49 innych osób, których kod pocztowy jest taki sam. Nie bylibyśmy zatem w stanie ustalić tożsamości żadnej konkretnej osoby na podstawie samego kodu pocztowego.
Jeżeli wszystkie osoby w konkretnym zbiorze danych mają tę samą wartość atrybutu wrażliwego, to aby ujawnić dane wrażliwe, wystarczy wiedzieć, że te osoby należą do określonego zbioru danych. Aby ograniczyć to ryzyko, możemy skorzystać z l-dywersyfikacji – to standardowy branżowy termin opisujący pewien poziom zróżnicowania wartości wrażliwych. Wyobraźmy sobie na przykład, że grupa osób w tym samym czasie szukała informacji na temat tego samego wrażliwego zagadnienia związanego ze zdrowiem (na przykład objawów grypy). Jeśli spojrzymy na zbiór danych, nie będziemy w stanie stwierdzić, kto szukał informacji na ten temat – dzięki k-anonimizacji. Może tu jednak wciąż zachodzić obawa o ochronę prywatności, ponieważ każda z tych osób ma ten sam wrażliwy atrybut (w tym przypadku, temat wyszukiwania). Dzięki l-dywersyfikacji zanonimizowany zbiór danych zawierałby informacje nie tylko o wyszukiwaniach dotyczących grypy, ale uwzględniałby też zapytania na inne tematy, by zapewnić lepszą ochronę prywatności użytkowników.
Dodawanie szumu do danych
Prywatność różnicowa (kolejne standardowe pojęcie branżowe) opisuje technikę dodawania do danych szumu generowanego matematycznie. Dzięki temu trudno jest stwierdzić, czy którakolwiek konkretna osoba należy do danego zbioru danych, ponieważ wynik zwracany przez dany algorytm będzie zasadniczo taki sam niezależnie od tego, czy ujęto w nim dane konkretnej osoby czy je pominięto. Wyobraźmy sobie na przykład, że mierzymy ogólne trendy wyszukiwania informacji na temat grypy w danym regionie geograficznym. Aby osiągnąć prywatność różnicową, do zbioru danych dodajemy szum. Oznacza to, że możemy dodać lub odjąć liczbę osób szukających informacji o grypie w konkretnej okolicy, ale to działanie nie wpłynie na nasz pomiar trendu w całym regionie geograficznym. Warto jednak pamiętać, że po dodaniu szumu zbór danych może być mniej przydatny.
Anonimizacja to tylko jedna z technik, które stosujemy, by dbać o prywatność użytkowników. Oprócz tego wykorzystujemy też takie procesy jak ścisłe kontrole dostępu do danych użytkowników, zasady regulujące kontrolę i ograniczanie łączenia zbiorów danych w sposób umożliwiający ustalenie tożsamości użytkowników oraz scentralizowaną weryfikację strategii anonimizacji i zarządzania danymi, aby zapewnić jednolity poziom ochrony we wszystkich usługach i produktach Google.