Как Google прави данните анонимни
Анонимизирането е техника за обработка на данните, при която се премахва или изменя информацията, позволяваща лично идентифициране; в резултат на това се получават анонимизирани данни, които не могат да бъдат свързани с конкретен човек. Процесът е също така решаващ компонент от ангажираността на Google по отношение на поверителността.
Чрез анализа на анономизирани данни имаме възможност да създаваме безопасни и ценни продукти и функции, като например автоматичното довършване на въведена заявка за търсене, и по-добре да откриваме заплахи срещу сигурността, например сайтове с фишинг или злонамерен софтуер, като същевременно защитаваме самоличността на потребителите. Можем също така безопасно да споделяме с външни лица анонимизираните данни, с което ги правим полезни и за други хора, без да подлагаме на риск поверителността на потребителите си.
Две от техниките, които използваме, за да защитим данните ви
Обобщаване на данните
Съществуват определени елементи от данните, които могат по-лесно да бъдат свързани с конкретни хора. За да защитим такива хора, използваме обобщаване, при което премахваме част от данните или ги заменяме с разпространена стойност. Възможно е например чрез обобщаване да заменим части от всички телефонни кодове или телефонни номера с една и съща последователност от цифри.
Обобщаването ни позволява да постигнем „k-анонимност“ – стандартен в отрасъла термин, който описва метод за скриване на самоличността на индивидите в група от подобни лица. Тук k е число, означаващо размера на определена група. В даден набор от данни се смята, че е постигната k-анонимност, ако за всеки индивид има най-малко k - 1 индивиди със същите характеристики. Да вземем например набор от данни, където k е равно на 50, а характеристиката е пощенският код. За всеки един индивид в този набор от данни винаги ще намерим още 49 със същия пощенски код. Затова няма да можем да идентифицираме конкретен човек само по пощенския код.
Ако всички индивиди в определен набор от данни имат една и съща стойност за поверителен атрибут, поверителна информация може да бъде разкрита само като се знае, че хората са част от въпросния набор от данни. За да се намали рискът, е възможно да използваме „l-разнообразие“ – стандартен в отрасъла термин, който описва определено ниво на разнообразие при поверителните стойности. Да вземем например група хора, извършили търсене на една и съща поверителна тема (напр. грипни симптоми) по едно и също време. Ако разгледаме този набор от данни, благодарение на k-анонимността няма да можем да кажем кой е търсил по темата. Все пак са възможни притеснения относно поверителността, защото всички хора имат общ поверителен атрибут (т.е. темата на търсенето). L-разнообразието означава, че анонимизираният набор от данни ще съдържа не само търсения, свързани с грипа, а и други, добавени с цел допълнителна защита на поверителността на потребителите.
Добавяне на шум към данните
Диференциалната поверителност (също стандартен термин в отрасъла) описва техника за добавяне на математически шум към данните. При нея е трудно със сигурност да се установи дали даден индивид е част от определен набор от данни, защото резултатите от даден алгоритъм ще изглеждат еднакви, независимо дали информацията за който и да е индивид е включена, или пропусната. Да допуснем, че измерваме общата тенденция в търсенията за грип в определен географски регион. За да постигнем диференциална поверителност, добавяме шум към набора от данни. Това означава, че може да добавим или извадим броя хора, които търсят информация за грипа в определен район, но това няма да повлияе върху измерването на тенденцията в по-широкия географски регион. Важно е също така да се отбележи, че добавянето на шум към набора от данни може да го направи по-малко полезен.
Анонимизирането на данните е само една от процедурите, които използваме, за да изпълняваме поетите ангажименти към поверителността на потребителите. Другите процедури включват стриктен контрол на достъпа до потребителските данни, правила за контрол и ограничаване на обединяването на набори от данни, които може да идентифицират потребителите, и централизиран преглед на анонимизирането и стратегиите за управление на данните с цел поддържане на постоянно ниво на защита в Google.