Google'ın verileri anonimleştirme yöntemi

Anonimleştirme, kimlik bilgilerini kaldıran veya değiştiren bir veri işleme tekniğidir; sonuç olarak, hiçbir bireyle ilişkilendirilemeyen anonim veriler ortaya çıkar. Aynı zamanda Google'ın gizlilik taahhüdünün önemli bir bileşenidir.

Anonimleştirilmiş verileri analiz ederek güvenli, değerli ürünler ve özellikler oluşturabiliriz. Örneğin girilen bir arama sorgusunun otomatik olarak tamamlanmasını sağlayabilir ve kimlik avı, kötü amaçlı site ve benzeri güvenlik tehditlerini daha iyi tespit edebiliriz. Tüm bunları yaparken de kullanıcı kimliklerini koruruz. Aynı zamanda anonim verileri harici olarak güvenli bir şekilde paylaşabilir, kullanıcılarımızın gizliliğini riske atmadan başkalarının yararlanabilmesini sağlarız.

Verilerinizi korumak için kullandığımız tekniklerden iki tanesi şunlardır:

Verileri genelleştirme

Belirli bireylerle daha kolay bağlantıl kurulabilen veri öğeleri bulunmaktadır. Bu bireyleri korumak için genelleştirme tekniğini kullanırız ve verilerin bir bölümünü kaldırır veya bir bölümünü ortak bir değerle değiştiririz. Örneğin, tüm alan kodlarının veya telefon numaralarının bazı bölümlerini aynı sayı sırası ile değiştirmek için genelleştirme tekniğini kullanabiliriz.

Genelleştirme, k-anonimliği elde etmemizi sağlar. K-anonimliği, benzer kişiler grubunda bireylerin kimliğini gizlemek için kullanılan tekniği tanımlayan, endüstri standardı bir terimdir. K-anonimliğinde k, grubun büyüklüğünü temsil eden bir sayıdır. Veri kümesindeki herhangi bir birey için aynı özelliklere sahip en az k-1 birey olması, söz konusu veri kümesi için k-anonimliğini yakalamış olduğumuzu gösterir. Örneğin, k'nın 50'ye eşit olduğu ve özelliğin posta kodu olduğu belirli bir veri kümesi düşünün. Söz konusu veri kümesi içindeki herhangi bir kişiye bakarsak, aynı posta koduna sahip 49 kişi daha olduğunu buluruz. Bu nedenle yalnızca posta koduna bakarak hiç kimsenin kimliğini tespit edemeyiz.

Bir veri kümesindeki tüm bireyler aynı hassas özellik değerini paylaşıyorlarsa, bu bireylerin söz konusu veri kümesinin bir parçası olduğunu bilmek bile hassas bilgilerin açığa çıkmasına yol açabilir. Bu riski azaltmak için l-çeşitliliğinden yararlanabiliriz. L-çeşitliliği, hassas verilerde çeşitlilik düzeylerini tanımlamak için kullanılan endüstri standardı bir terimdir. Örneğin, tümü aynı anda aynı hassas sağlık konusunu (ör. grip belirtileri) arayan bir grup insan düşünün. Bu veri kümesine bakacak olursak k-anonimliği sayesinde bu konuyu kimin aradığını söyleyemeyiz. Ancak herkes hassas bir özelliği (ör. sorgunun konusu) paylaştığı için gizlilikle ilgili bir endişe doğabilir. L-çeşitliliği, anonimleştirilmiş verilerin sadece grip aramalarını içermeyecek olması demektir. Bunun yerine, kullanıcı gizliliğini daha iyi korumak üzere grip aramalarının yanında başka aramalar da içerebilir.

Verilere gürültü ekleme

Diferansiyel gizlilik (yine bir standart endüstri terimi), verilere matematiksel gürültü ekleme tekniğini tanımlamaktadır. Diferansiyel gizlilikte bir bireyin belirli bir veri kümesinin parçası olup olmadığını belirlemek zordur. Bunun nedeni, belirli bir algoritmanın sonucunun, herhangi bir bireyin bilgileri dahil edilip edilmemesinden bağımsız olarak aynı görünecek olmasıdır. Örneğin, bir coğrafi bölgedeki genel grip aramaları trendini ölçtüğümüzü düşünün. Diferansiyel gizliliği elde etmek için veri kümesine gürültü ekleriz. Bunu yapmak için belirli bir mahallede grip araması yapan kişi sayısını artırabilir veya azaltabiliriz. Ancak bunu yapmamız daha geniş coğrafi bölgedeki trendi ölçmemizi etkilemez. Yine de, gürültü eklendiğinde verilerin daha az kullanışlı hale geleceğini unutmamak gerekir.

Anonimleştirme, kullanıcı gizliliğini korumak için başvurduğumuz işlemlerden sadece bir tanesidir. Bunun dışında, kullanıcı veri erişimini sıkı bir şekilde denetleme, kullanıcıların kimliğinin tespit edilmesine neden olabilen veri kümelerinin birleştirilmesini denetleyen ve sınırlandıran politikalar uygulama ve tüm Google genelinde tutarlı bir koruma düzeyi sağlamak üzere anonimleştirme ve veri denetimi stratejilerinin merkezi olarak gözden geçirilmesi gibi işlemler de uygulanmaktadır.