Cara Google menganonimkan data
Penganoniman adalah teknik pemrosesan data yang menghapus atau mengubah informasi identitas pribadi. Teknik ini menghasilkan data yang dianonimkan, yang tidak dapat dikaitkan dengan individu mana pun. Teknik ini juga merupakan komponen penting dalam komitmen Google terhadap privasi.
Dengan menganalisis data yang dianonimkan, kami dapat membuat produk dan fitur yang aman dan berharga, seperti pelengkapan otomatis dari kueri penelusuran yang dimasukkan, dan mendeteksi ancaman keamanan dengan lebih baik, seperti situs phishing dan malware, sekaligus melindungi identitas pengguna. Kami juga dapat berbagi data yang dianonimkan secara eksternal dengan aman, agar berguna bagi pengguna lain tanpa menimbulkan risiko terhadap privasi pengguna kami.
Dua teknik yang kami gunakan untuk melindungi data Anda
Menggeneralisasi data
Ada elemen data tertentu yang lebih mudah dihubungkan dengan individu tertentu. Untuk melindungi individu tersebut, kami menggunakan generalisasi guna menghapus sebagian data atau mengganti beberapa bagian dari data tersebut dengan nilai yang umum. Misalnya, kami dapat menggunakan generalisasi untuk mengganti segmen dari semua kode area atau nomor telepon dengan urutan nomor yang sama.
Generalisasi memungkinkan kami mencapai k-anonymity, yaitu istilah standar industri yang digunakan untuk menjelaskan teknik penyembunyian identitas individu dalam sekelompok orang yang serupa. Dalam k-anonimity, k adalah angka yang mewakili ukuran suatu kelompok. Jika untuk individu mana pun dalam kumpulan data ada setidaknya individu k-1 yang memiliki properti yang sama, maka kita telah mencapai k-anonimity untuk kumpulan data tersebut. Misalnya, ada kumpulan data tertentu yang nilai k-nya 50 dan propertinya adalah kode pos. Jika kita mengamati salah satu orang dalam kumpulan data tersebut, kita akan selalu mendapati 49 orang lainnya yang memiliki kode pos yang sama. Oleh karena itu, kita tidak akan dapat mengidentifikasi siapa pun hanya dari kode posnya.
Jika semua individu dalam kumpulan data memiliki nilai atribut sensitif yang sama, informasi sensitif dapat diungkapkan hanya dengan mengetahui individu tersebut merupakan bagian dari kumpulan data yang dimaksud. Untuk mengurangi risiko ini, kita dapat memanfaatkan l-diversity, istilah standar industri yang digunakan untuk menjelaskan tingkat keragaman tertentu pada nilai sensitif. Misalnya, ada sekelompok orang yang menelusuri topik kesehatan sensitif yang sama (contohnya gejala flu) pada saat yang bersamaan. Jika kita mengamati kumpulan data ini, kita tidak akan dapat mengetahui siapa yang menelusuri topik tersebut, berkat adanya k-anonimity. Namun, mungkin masih ada kekhawatiran tentang privasi karena setiap orang membagikan atribut sensitif (yaitu topik kueri). L-diversity berarti kumpulan data yang dianonimkan tidak hanya akan berisi penelusuran tentang flu. Namun, kumpulan data tersebut dapat menyertakan penelusuran lain selain penelusuran tentang flu untuk lebih melindungi privasi pengguna.
Menambahkan noise ke data
Privasi diferensial (juga merupakan istilah standar industri) menjelaskan teknik penambahan noise matematis ke data. Dengan privasi diferensial, sulit untuk mencari tahu apakah seorang individu menjadi bagian dari kumpulan data karena output dari algoritme tertentu pada dasarnya tampak sama, terlepas dari apakah informasi milik salah satu individu disertakan atau dihilangkan. Misalnya, kita sedang mengukur keseluruhan tren dalam penelusuran tentang flu di suatu wilayah geografis. Untuk mencapai privasi diferensial, kita dapat menambahkan noise ke kumpulan data. Artinya, kita dapat menambahkan atau mengurangi jumlah orang yang menelusuri kata flu dalam lingkungan tertentu, namun melakukan tindakan ini tidak akan memengaruhi pengukuran tren yang kita lakukan di wilayah geografis yang lebih luas. Selain itu, penting untuk diketahui bahwa penambahan noise ke kumpulan data dapat membuatnya menjadi kurang berguna.
Penganoniman hanyalah salah satu proses yang kami gunakan untuk mempertahankan komitmen kami terhadap privasi pengguna. Proses lainnya mencakup kontrol yang ketat terhadap akses data pengguna, kebijakan untuk mengontrol dan membatasi penggabungan kumpulan data yang dapat mengidentifikasi pengguna, serta tinjauan terpusat terhadap penganoniman dan strategi pengaturan data untuk memastikan tingkat perlindungan yang konsisten di semua produk Google.