چگونه Google داده‌ها را بی‌نام می‌کند

بی‌نام‌سازی یک روش پردازش داده است که اطلاعاتی را که باعث شناسایی فرد می‌شود برمی‌دارد یا اصلاح می‌کند؛ با این کار داده‌ها بی‌نام می‌شوند و دیگر به هیچ شخص خاصی مرتبط نیستند. بی‌نام‌سازی یکی از مؤلفه‌های مهم تعهد Google نسبت به حریم خصوصی محسوب می‌شود.

با تجزیه‌وتحلیل داده‌های بی‌نام‌شده، می‌توانیم محصولات و ویژگی‌هایی ایمن و ارزشمند ایجاد کنیم، مانند تکمیل خودکار عبارت جستجوی وارد‌شده و شناسایی بهتر تهدیدهای امنیتی (مانند فیشینگ و سایت‌های بدافزار)، و درحین انجام همه این کارها از هویت کاربر محافظت کنیم. همچنین می‌توانیم داده‌های بی‌نام‌شده را بدون خطر به‌صورت خارجی هم‌رسانی کنیم و بدون به خطر انداختن حریم خصوصی کاربرانمان، این داده‌ها را برای استفاده مفید در اختیار دیگران قرار دهیم.

دو روشی که برای محافظت از داده‌های شما استفاده می‌کنیم

عمومی‌سازی داده‌ها

برخی از عناصر موجود در داده‌ها راحت‌تر باعث شناسایی برخی افراد می‌شوند. به‌منظور محافظت از این افراد، از روش عمومی‌سازی برای برداشتن قسمتی از داده یا جایگزین کردن قسمتی از آن با مقداری عمومی استفاده می‌کنیم. به‌عنوان مثال ممکن است با استفاده از عمومی‌سازی، قسمت‌هایی از همه کدهای منطقه یا شماره‌های تلفن را با یک سری اعداد یکسان جایگزین کنیم.

عمومی‌سازی به ما امکان می‌دهد به «بی‌نامی-k» دست پیدا کنیم، اصطلاحی استاندارد در این حرفه که برای توصیف روشی جهت پنهان کردن هویت اشخاص در گروهی از افراد مشابه استفاده می‌شود. در «بی‌نامی-k» حرف k عددی است که نشان‌دهنده اندازه گروه است. اگر به‌ازای هر فردی در مجموع داده، حداقل k-1 فرد با مشخصات یکسان وجود داشته باشد، پس به «بی‌نامی-k» برای مجموع داده دست پیدا کردیم. به‌عنوان مثال، مجموعه داده خاصی را درنظر بگیرید که k این مجموعه برابر است با ۵۰، و مشخصه موردنظر کد پستی است. اگر به هریک از اشخاص موجود در این مجموعه داده نگاهی بیندازیم، همیشه ۴۹ نفر دیگر با همان کد پستی را پیدا می‌کنیم. بنابراین هیچ فردی را فقط با کد پستی او نمی‌توانیم شناسایی کنیم.

اگر همه افراد موجود در یک مجموعه داده ویژگی حساسی با مقدار یکسانی داشته باشند، با دانستن این موضوع که این افراد عضوی از مجموعه داده موردنظر هستند، اطلاعات حساس می‌تواند به‌سادگی فاش شود. برای کاهش این خطر، ممکن است از شیوه «گوناگونی-L» استفاده کنیم، یک اصطلاح استاندارد صنعتی که برای توصیف سطوحی از گوناگونی در مقادیر حساس استفاده می‌شود. به‌عنوان مثال، گروهی از افراد را تصور کنید که همگی هم‌زمان موضوع پزشکی حساسی را جستجو کردند (به‌‌عنوان مثال نشانه‌های آنفولانزا). اگر به این مجموعه داده نگاه کنیم، در نتیجه استفاده از «بی‌نامی-k»، نمی‌توانیم بگوییم چه کسی برای این موضوع جستجو کرده است. بااین‌وجود چون همگی در یک ویژگی حساس خاص مشترکند (یعنی موضوع پرسمان)، ممکن است همچنان نگرانی‌ای درخصوص حریم خصوصی وجود داشته باشد. «گوناگونی-L» یعنی مجموعه داده بی‌نام‌شده فقط شامل جستجوهای مربوط به آنفولانزا نمی‌شود، بلکه ممکن است علاوه‌بر جستجوهای مربوط به آنفولانزا، جستجوهای دیگری را شامل شود تا از حریم خصوصی بیشتر محافظت شود.

افزودن اختلال به داده‌‌ها

حریم خصوصی تفاضلی (که همچنین یک اصطلاح استاندارد در این حرفه است) روشی را برای افزودن اختلالی ریاضی به داده‌ها توصیف می‌کند. درصورت استفاده از حریم خصوصی تفاضلی تشخیص اینکه آیا فردی عضوی از یک مجموعه است یا خیر دشوار می‌شود، زیرا صرف‌نظر از اینکه آیا اطلاعات هر فرد اضافه یا حذف شده است، نتیجه الگوریتم معینی به‌طور اساسی یکسان به‌نظر می‌رسد. به‌عنوان مثل تصور کنید می‌خواهیم گرایش کلی جستجوهای انجام‌شده برای آنفولانزا را در منطقه‌ای جغرافیایی ارزیابی کنیم. برای دستیابی به حریم خصوصی تفاضلی، اختلالی به مجموعه داده اضافه می‌کنیم. یعنی ممکن است تعداد افرادی که آنفولانزا را در محلی خاص جستجو می‌کنند، کم یا زیاد کنیم اما این کار روی ارزیابی گرایش در منطقه جغرافیایی وسیع‌تر تأثیری نمی‌گذارد. همچنین باید بدانید که افزودن اختلال به مجموعه داده ممکن است کمی از میزان مفید بودن آن بکاهد

بی‌نام کردن فقط یکی از فرآیندهایی است که ما از آن برای حفظ تعهدمان نسبت به حریم خصوصی کاربران استفاده می‌کنیم. سایر فرآیندها عبارتند از: کنترل‌های شدید برای دسترسی به داده‌های کاربر، خط‌مشی‌هایی برای کنترل و محدود کردن پیوستن مجموعه‌های داده‌ای که ممکن است باعث شناسایی کاربران شوند و مرور متمرکز بی‌نام‌سازی و راهکارهای کنترل داده برای اطمینان از سطح هماهنگی از محافظت در همه محصولات Google‏.