איך Google מבצעת אנונימיזציה של נתונים

אנונימיזציה היא טכניקת עיבוד נתונים שמסירה פרטים אישיים מזהים או משנה אותם. התוצאה היא נתונים אנונימיים שלא ניתן לשייך לאדם מסוים. זהו גם חלק קריטי במחויבותה של Google לפרטיות.

ניתוח של נתונים אנונימיים מאפשר לנו לבנות מוצרים ותכונות בטוחים וחשובים, למשל השלמה אוטומטית של שאילתת חיפוש שהוזנה. הוא מאפשר גם לשפר יכולת זיהוי של איומי אבטחה, כמו דיוג ואתרי תוכנות זדוניות, ובמקביל - להגן על זהויות המשתמשים. כמו כן, אנחנו יכולים לשתף באופן בטוח נתונים אנונימיים עם גורמים חיצוניים. כך, הנתונים מועילים לאחרים ופרטיות המשתמשים נשמרת.

שתי שיטות שבהן אנחנו משתמשים כדי להגן על הנתונים

הכללת הנתונים

יש אלמנטים מסוימים של נתונים שאפשר לקשר בקלות רבה יותר לאנשים מסוימים. כדי להגן על אנשים אלה, אנחנו משתמשים בהכללה כדי להסיר חלק מהנתונים, או להחליף קטעים מסוימים כך שיכילו ערך משותף. לדוגמה, אנחנו עשויים להשתמש בהכללה כדי להחליף קטעים של כל קודי האזורים או מספרי טלפונים ברצף זהה של מספרים.

הכללה מאפשרת להשיג k-anonymity, מונח מקובל בתחום המתאר שיטה להסתרת זהות של אנשים בקבוצה, הכוללת מספר אנשים דומים. במונח k-anonymity, האות k היא המספר המייצג את גודל הקבוצה. אם לכל אדם בקבוצת הנתונים, יש לפחות k-1 אנשים בעלי אותן תכונות, השגנו k-anonymity לקבוצת הנתונים. לדוגמה, נניח שקיימת קבוצת נתונים מסוימת כש-k שווה 50 והתכונה היא מיקוד. אם נבדוק אדם כלשהו בתוך קבוצת הנתונים הזו, תמיד נמצא 49 אנשים אחרים עם מיקוד זהה. לכן, לא נוכל לזהות אדם רק בעזרת המיקוד שלו.

אם אותו ערך של מאפיין בעל אופי רגיש משותף לכל האנשים בקבוצת הנתונים, מידע רגיש עלול להתגלות פשוט אם יודעים שהאנשים האלה נכללים בקבוצת הנתונים המדוברת. כדי להקטין את רמת הסיכון, אנחנו יכולים להשתמש ב-l-diversity - מונח מקובל בתחום המתאר רמה מסוימת של גיוון בערכים הרגישים. לדוגמה, נניח שאנשים בקבוצה מסוימת חיפשו מידע על אותו נושא בריאותי בעל אופי רגיש (למשל, תסמיני שפעת), באותו זמן. אם נבחן את קבוצת הנתונים הזו, לא נוכל לדעת מי חיפש מידע על הנושא, בזכות k-anonymity. עם זאת, עדיין תיתכן בעיית פרטיות כי קיים מאפיין רגיש המשותף לכולם (כלומר, נושא השאילתה). המשמעות של l-diversity היא שקבוצת הנתונים האנונימיים לא יכילו רק חיפושים בנושא שפעת. ייתכן שהנתונים יכילו חיפושים אחרים, חוץ מחיפושי השפעת, כדי לספק הגנה נוספת לפרטיות המשתמשים.

הוספת רעש לנתונים

פרטיות דיפרנציאלית (עוד מונח מקובל בתחום) מתארת שיטה להוספת "רעש" באופן מתמטי לנתונים. כשמשתמשים בשיטת הפרטיות הדיפרנציאלית, קשה לקבוע אם אדם הוא חלק מקבוצת נתונים, כיוון שהפלט של אלגוריתם נתון ייראה למעשה זהה, ללא קשר להכללה או השמטה של מידע על אדם מסוים. לדוגמה, נניח שאנחנו מודדים את נתוני המגמה הכללית בחיפושים בנושא שפעת באזור גיאוגרפי נתון. כדי להשיג פרטיות דיפרנציאלית, מוסיפים רעש לקבוצת הנתונים. כלומר, נוכל להגדיל או להקטין את מספר האנשים המחפשים מידע בנושא שפעת בשכונה מסוימת, אבל פעולה זו לא תשפיע על המדידה של נתוני המגמה באזור הגיאוגרפי הרחב יותר. חשוב גם לציין שלאחר הוספת רעש לקבוצת נתונים, ייתכן שהיא תהיה פחות שימושית.

אנונימיזציה היא רק אחד מהתהליכים שבהם אנו משתמשים כדי לשמור על המחויבות שלנו לפרטיות המשתמשים. דוגמאות לתהליכים אחרים: בקרה קפדנית על גישה לנתוני משתמשים, מדיניות שמסייעת לשליטה באיחוד של קבוצות נתונים שעשוי להוביל לזיהוי משתמשים וכן הגבלה של איחוד כזה, ובדיקה מרכזית של אסטרטגיות אנונימיזציה ופיקוח על נתונים - שמטרתה להבטיח רמה עקבית של הגנה בכל מוצרי Google.