Как Google анонимизирует данные
Анонимизация представляет собой способ обработки данных, целью которого является удаление или преобразование идентификационной информации так, чтобы по полученным данным нельзя было определить, к какому именно лицу они относятся. Анонимизация является одним из важнейших методов, позволяющих компании Google обеспечивать конфиденциальность данных пользователей.
Анализ анонимизированных данных позволяет компании Google разрабатывать полезные и безопасные сервисы и функции, такие как автозаполнение в поиске, и эффективнее выявлять проблемы с безопасностью (например, находить фишинговые и вредоносные сайты). Кроме того, при необходимости мы можем передавать анонимизированные данные третьим сторонам. Во всех случаях обеспечивается надежная защита личной информации пользователей.
Ниже представлены сведения о двух методах, которые мы используем для защиты данных пользователей.
Обобщение данных
По некоторым свойствам информации легче определить, к кому она относится. Для защиты пользователей мы удаляем определенные элементы данных или подставляем вместо них общие значения. Например, при обобщении мы можем заменять фрагменты кодов городов или телефонных номеров на одинаковые сочетания цифр.
Обобщение данных позволяет нам обеспечить k-анонимность. Под этим термином в отрасли понимается метод, с помощью которого можно скрыть персональную информацию нескольких лиц в наборе данных, если эти лица похожи друг на друга. Буква k определяет число лиц в группе. Считается, что набор данных обладает k-анонимностью, если для каждого лица в группе имеется по меньшей мере k-1 лицо, обладающее такими же свойствами. Предположим, в наборе данных представлены почтовые индексы, а значение k равно 50. Если наугад выбрать любое лицо, то можно будет найти ещё 49 человек с тем же почтовым индексом. Это значит, что найти в этой группе конкретное лицо только по почтовому индексу невозможно.
Если всем лицам в наборе данных присвоено одинаковое значение того или иного атрибута, то для доступа к конфиденциальной информации достаточно знать, что все такие лица относятся к этому набору данных. Избежать подобных рисков позволяет принцип l-разнообразия. Этот термин применяется в отрасли для описания уровня различий в значениях, относящихся к конфиденциальным данным. Предположим, несколько человек одновременно выполняют поиск сведений, которые относятся к одной и той же конфиденциальной теме (например, по запросу "симптомы гриппа"). Благодаря k-анонимности в связанном с этими пользователями наборе данных нельзя выделить информацию по конкретным лицам, выполнявшим поиск. Однако принципы конфиденциальности могут быть нарушены, поскольку каждому лицу из этой группы свойственен признак, который является конфиденциальным (тема поиска). Принцип l-разнообразия предполагает, что защита информации пользователей будет обеспечена, если в анонимизированном наборе данных есть сведения о лицах, которые выполняли поиск не только по теме гриппа, но и по другим вопросам.
Добавление математического шума к данным
Ещё один распространенный в отрасли термин – дифференциальная приватность. Он обозначает метод добавления к данным математического шума. Благодаря дифференциальной приватности нельзя точно определить, представлено ли конкретное лицо в наборе данных: результат применения алгоритма будет практически одинаковым, независимо от того, включен ли этот пользователь в набор данных. Предположим, мы изучаем общую тенденцию поисковых запросов, связанных с гриппом, в определенном регионе. Чтобы соблюсти принцип дифференциальной приватности, в набор данных добавляется математический шум. В этом случае можно добавить или исключить определенное число пользователей, ищущих сведения о гриппе и относящихся к определенному району, но это не скажется на общей тенденции по всему региону. Необходимо учитывать, что при добавлении математического шума эффективность набора данных может снизиться.
Наряду с анонимизацией мы применяем ряд других методов для защиты конфиденциальности личных данных. В их число входят средства управления доступом к данным пользователей, правила объединения наборов данных, при котором может быть раскрыта личность отдельных пользователей, а также централизованная проверка стратегий анонимизации и управления данными. Благодаря этим методам обеспечивается эффективная защита личной информации пользователей во всех сервисах Google.