كيف تُخفي Google هوية البيانات
"إخفاء الهوية" هو تقنية لمعالجة البيانات تُزيل أو تُعدّل معلومات تحديد الهوية الشخصية، فتسفر هذه التقنية عن بيانات مخفية الهوية لا يمكن نسبتها لأي فرد من الأفراد. وهذا عنصر بالغ الأهمية ضمن عناصر التزام Google بالخصوصية.
من خلال تحليل البيانات مخفية الهوية، نستطيع بناء منتجات وميزات آمنة وراسخة القيمة، مثل: الإكمال التلقائي لطلبات البحث التي يتم إدخالها واكتشاف التهديدات الأمنية، مثل التصيّد الاحتيالي والبرامج الخبيثة بصورة أفضل، كل ذلك مع حماية هويات المستخدمين. يمكننا أيضًا أن نشارك خارجيًا –بصورة آمنة- البيانات مخفية الهوية فينتفع بها الآخرون وذلك مع عدم تعريض خصوصية مستخدمينا للخطر.
تقنيتان من التقنيات التي نستخدمها لحماية بياناتك
تعميم البيانات
بعض عناصر البيانات يمكن ربطها بسهولة أكبر بأفراد معينين. ومن أجل حماية هؤلاء الأفراد، نستخدم التعميم بغرض إزالة جزء من البيانات أو استبدال بعضها بإحدى القيم المشتركة. على سبيل المثال، قد نستخدم التعميم لاستبدال أجزاء من رموز المناطق أو أرقام الهواتف جميعها وذلك بنفس تسلسل الأرقام.
يتيح التعميم لنا تنفيذ "إخفاء الهوية k" (k-anonymity) وهو مصطلح قياسي في الصناعة يُستخدم لوصف تقنية تُخفي هوية الأفراد داخل مجموعة من الأشخاص المتشابهين. ويُشير الحرف K في مصطلح "إخفاء الهوية k" إلى العدد الذي يمثل حجم المجموعة. وإذا كان أي فرد ضمن مجموعة البيانات يوجد معه عدد k-1 أفراد على الأقل لديهم نفس السمات، نكون قد نفذنا تقنية "إخفاء الهوية k" لمجموعة البيانات. فعلى سبيل المثال، افترض أن مجموعة بيانات معينة بها العدد k يساوي 50 وأن الخاصية هي الرمز البريدي. إذا نظرنا إلى أي شخص ضمن هذه المجموعة، سنجد دائمًا أن هناك 49 شخصًا آخر لديهم نفس الرمز البريدي. وبذلك لن نتمكن من تحديد هوية أي شخص منهم من مجرد رمزه البريدي.
إذا اشترك كل أفراد مجموعة البيانات في نفس قيمة إحدى السمات الحساسة، حينها يمكن أن تُكشَف بعض المعلومات الحساسة، وذلك إذا عُرِف أن هؤلاء الأفراد هم جزء من مجموعة البيانات المعنية. ومن أجل التخفيف من هذا الخطر، عززنا "مستوى التنوع l" (l-diversity) وهو مصطلح قياسي في الصناعة يُستخدم لوصف متسوى التنوع في القيم الحساسة. على سبيل المثال، افترض أن مجموعة من الناس يبحثون عن نفس الموضوع الطبي الحساس (مثل أعراض الأنفلونزا) في نفس الوقت. إذا نظرنا إلى مجموعة البيانات هذه، لن نستطيع أن نحدد مَن الذي بحث عن الموضوع، وهذا بفضل تقنية "إخفاء الهوية k". ومع ذلك قد يكون مصدر القلق المتعلق بالخصوصية هو أن الجميع يشتركون في سمة حساسة (وهي موضوع طلب البحث). وهنا يعني "مستوى التنوع l" أن مجموعة البيانات التي تم إخفاء هوية أفرادها لن تتضمن عمليات البحث عن الأنفلونزا فحسب، بل قد تتضمن عمليات بحث أخرى بالإضافة إلى عمليات البحث عن الأنفلونزا بغرض توفير مزيد من الحماية لخصوصية المستخدمين.
إضافة تشويش على البيانات
"الخصوصية التفاضلية" (وهو مصطلح قياسي في الصناعة) يصف تقنية إضافة التشويش الرياضي على البيانات. باستخدام الخصوصية التفاضلية، يصعُب التأكّد من وجود فرد معين ضمن مجموعة البيانات من عدمه، حيث إن أي خوارزمية معينة ستُعطي نفس الناتج، بغض النظر عن اشتمالها على معلومات أي فرد معين أو حذف هذه المعلومات. وعلى سبيل المثال، افترض أننا نقيس المؤشر الإجمالي في عمليات البحث عن الأنفلونزا في منطقة جغرافية، فلتنفيذ تقنية "الخصوصية التفاضلية" نُضيف تشويشًا على مجموعة البيانات. وهذا يعني أننا قد نزيد أو ننقص عدد الأشخاص الذين يبحثون عن الأنفلونزا في حي معين، غير أن إجراء هذا التغيير لن يؤثر على قياسنا لهذا المؤشر عبر المنطقة الجغرافية الأكبر. ومن المهم أيضًا ملاحظة أن إضافة التشويش لمجموعة بيانات قد يجعلها أقل فائدة.
إخفاء الهوية عملية واحدة نُجريها للحفاظ على التزامنا بخصوصية المستخدمين. وثمة عمليات أخرى منها: الضوابط الصارمة على الوصول إلى بيانات المستخدمين، وسياسات التحكم والحد من ضم مجموعات البيانات التي قد تحدد هوية المستخدمين، بالإضافة إلى المراجعة المركزية لإستراتيجيات إخفاء الهوية وحوكمة البيانات للتأكّد من توفير مستوى ثابت من الحماية على مستوى Google بالكامل.