Google ลบการระบุตัวตนในข้อมูลอย่างไร

การลบการระบุตัวตนเป็นเทคนิคการประมวลผลข้อมูลที่ลบหรือแก้ไขข้อมูลส่วนบุคคลที่สามารถระบุตัวตนได้ ผลที่ได้คือข้อมูลที่ไม่ระบุตัวตนซึ่งจะเชื่อมโยงไปยังบุคคลใดๆ ไม่ได้ เทคนิคนี้ยังเป็นองค์ประกอบที่สำคัญยิ่งอย่างหนึ่งในพันธสัญญาของ Google ที่มีต่อความเป็นส่วนตัวด้วย

การวิเคราะห์ข้อมูลที่ไม่ระบุตัวตนเปิดโอกาสให้เราสร้างผลิตภัณฑ์และฟีเจอร์ที่ทรงคุณค่าและมีความปลอดภัย อย่างเช่นการเติมข้อความอัตโนมัติลงในคำค้นหาที่คุณป้อนและการตรวจหาภัยคุกคามด้านความปลอดภัยอย่างเว็บไซต์ฟิชชิงและมัลแวร์ที่มีประสิทธิภาพดีขึ้น และในขณะเดียวกันก็ปกป้องข้อมูลตัวตนของผู้ใช้ไปด้วย นอกจากนี้เรายังแชร์ข้อมูลที่ไม่ระบุตัวตนกับบุคคลภายนอกได้อย่างปลอดภัยอีกด้วย ช่วยให้ผู้อื่นได้รับประโยชน์โดยไม่ทำให้ผู้ใช้ต้องเสี่ยงกับการสูญเสียความเป็นส่วนตัว

เทคนิค 2 ประการที่เราใช้ในการปกป้องข้อมูลของคุณมีดังนี้

การปรับเปลี่ยนข้อมูลให้เป็นข้อมูลกว้างๆ

มีองค์ประกอบข้อมูลบางอย่างที่เชื่อมโยงไปยังบุคคลที่เฉพาะเจาะจงได้ง่ายกว่าองค์ประกอบข้อมูลอื่น เพื่อปกป้องบุคคลเหล่านั้น เราใช้การปรับเปลี่ยนข้อมูลให้เป็นข้อมูลกว้างๆ โดยนำข้อมูลบางส่วนออกหรือแทนที่ด้วยค่าอื่นที่เป็นข้อมูลทั่วไป เช่น เราอาจใช้การปรับเปลี่ยนข้อมูลให้เป็นข้อมูลกว้างๆ เพื่อแทนที่ส่วนรหัสพื้นที่หรือหมายเลขโทรศัพท์ทั้งหมดด้วยหมายเลขที่เรียงตามลำดับไปเรื่อยๆ

การปรับเปลี่ยนข้อมูลให้เป็นข้อมูลกว้างๆ เปิดโอกาสให้เราใช้ k-anonymity ซึ่งเป็นศัพท์มาตรฐานอุตสาหกรรมที่ใช้อธิบายเทคนิคการซ่อนข้อมูลระบุตัวตนของบุคคลต่างๆ ในกลุ่มที่มีคนลักษณะคล้ายกันอยู่ภายใน ใน k-anonymity นี้ k คือตัวเลขที่แสดงถึงขนาดกลุ่ม โดยสำหรับแต่ละคนในชุดข้อมูล ถ้ามีคนอย่างน้อย k-1 คนที่มีคุณสมบัติอย่างเดียวกัน จะถือว่าเราบรรลุตามจุดประสงค์ของ k-anonymity สำหรับชุดข้อมูลนั้นๆ เช่น สมมติว่าชุดข้อมูลหนึ่งมี k เท่ากับ 50 และคุณสมบัติคือรหัสไปรษณีย์ ถ้ามองหาใครก็ตามในชุดข้อมูลนี้ เราจะพบว่ามีอีก 49 คนที่ใช้รหัสไปรษณีย์เดียวกันนั้นทุกครั้ง ดังนั้น เราจะระบุตัวบุคคลใดก็ตามจากรหัสไปรษณีย์ดังกล่าวเพียงอย่างเดียวไม่ได้

ถ้าทุกคนในชุดข้อมูลหนึ่งๆ มีค่าแอตทริบิวต์ที่ละเอียดอ่อนบางอย่างเป็นค่าเดียวกัน ข้อมูลที่ละเอียดอ่อนอาจถูกเปิดเผยได้ง่ายๆ หากมีการล่วงรู้ว่าบุคคลเหล่านี้อยู่ในชุดข้อมูลดังกล่าว ซึ่งในการลดความเสี่ยงนี้ เราอาจใช้ประโยชน์จาก l-diversity ซึ่งเป็นศัพท์มาตรฐานอุตสาหกรรมที่ใช้อธิบายระดับของความหลากหลายในค่าที่ละเอียดอ่อน เช่น สมมติว่ากลุ่มคนกลุ่มหนึ่งได้ค้นหาหัวข้อด้านสุขภาพที่ละเอียดอ่อนหัวข้อเดียวกัน (เช่น อาการของไข้หวัดใหญ่) พร้อมๆ กัน หากมองที่ชุดข้อมูลนี้ เราจะบอกไม่ได้ว่าใครค้นหาหัวข้อนั้นบ้าง ซึ่งเป็นประโยชน์ที่ได้จาก k-anonymity อย่างไรก็ตาม อาจยังคงมีข้อกังวลเกี่ยวกับความเป็นส่วนตัวอยู่ เนื่องจากทุกๆ คนใช้แอตทริบิวต์ที่ละเอียดอ่อนค่าเดียวกัน (กล่าวคือ หัวข้อของคำค้นหา) l-diversity ช่วยให้มั่นใจว่าชุดข้อมูลที่ไม่ระบุตัวตนจะไม่ได้มีเพียงแค่การค้นหาไข้หวัดใหญ่ แต่จะมีการค้นหาอื่นๆ ควบคู่ไปกับการค้นหาไข้หวัดใหญ่เพื่อปกป้องความเป็นส่วนตัวของผู้ใช้ให้มากยิ่งขึ้น

การเพิ่มสัญญาณรบกวนในข้อมูล

Differential Privacy (เป็นศัพท์มาตรฐานอุตสาหกรรมอีกคำหนึ่ง) ใช้อธิบายเทคนิคในการเพิ่มสัญญาณรบกวนทางคณิตศาสตร์ลงในข้อมูล เมื่อใช้ Differential Privacy การตรวจสอบให้แน่ชัดว่าบุคคลหนึ่งๆ อยู่ในชุดข้อมูลหนึ่งๆ หรือไม่จะเป็นเรื่องยาก เนื่องจากโดยพื้นฐานแล้วผลลัพธ์ของอัลกอริทึมจะออกมาเหมือนกัน ไม่ว่าจะมีการรวมหรือยกเว้นข้อมูลของบุคคลใดไว้หรือไม่ เช่น สมมติว่า เรากำลังวัดแนวโน้มโดยรวมในการค้นหาข้อมูลไข้หวัดใหญ่ทั่วภูมิภาคหนึ่งๆ เราจะเพิ่มสัญญาณรบกวนลงในชุดข้อมูลเพื่อให้บรรลุเป้าหมายในการใช้ Differential Privacy ซึ่งหมายความว่าเราอาจเพิ่มหรือลดจำนวนคนที่กำลังค้นหาข้อมูลไข้หวัดใหญ่ในท้องที่หนึ่งๆ แต่การทำเช่นนั้นจะไม่ส่งผลกระทบต่อการวัดแนวโน้มทั่วภูมิภาคในวงกว้างขึ้น คุณควรทราบด้วยว่าการเพิ่มสัญญาณรบกวนในชุดข้อมูลอาจทำให้ชุดข้อมูลมีประโยชน์น้อยลง

การลบการระบุตัวตนเป็นเพียงกระบวนการหนึ่งที่เราใช้ดูแลพันธสัญญาที่เรามีต่อความเป็นส่วนตัวของผู้ใช้ กระบวนการอื่นๆ นั้นรวมถึงการควบคุมการเข้าถึงข้อมูลผู้ใช้อย่างเข้มงวด นโยบายต่างๆ เพื่อควบคุมและจำกัดการรวมชุดข้อมูลที่อาจทำให้ระบุตัวตนของผู้ใช้ได้ และการตรวจสอบการลบการระบุตัวตนซึ่งอยู่ที่ส่วนกลางและกลยุทธ์ด้านธรรมาภิบาลข้อมูลเพื่อดูแลให้มีการปกป้องในระดับที่สอดคล้องกันในทุกผลิตภัณฑ์และบริการของ Google