Πώς επιτυγχάνει η Google την ανωνυμοποίηση των δεδομένων

Η ανωνυμοποίηση είναι μια τεχνική επεξεργασίας δεδομένων, η οποία καταργεί ή τροποποιεί στοιχεία προσωπικής ταυτοποίησης. Τα δεδομένα αποκτούν ανώνυμη μορφή και δεν μπορούν να συσχετιστούν με οποιοδήποτε άτομο. Είναι επίσης καίριας σημασίας στο πλαίσιο της δέσμευσης της Google στην προστασία απορρήτου.

Αναλύοντας τα ανώνυμα δεδομένα, έχουμε τη δυνατότητα να δημιουργήσουμε ασφαλή και αξιόλογα προϊόντα και λειτουργίες, όπως η αυτόματη συμπλήρωση της καταχώρισης ενός ερωτήματος αναζήτησης, και να εντοπίσουμε ευκολότερα απειλές ασφάλειας, όπως ιστότοπους ηλεκτρονικού ψαρέματος (phishing) και κακόβουλων προγραμμάτων, και όλα αυτά ενώ παράλληλα προστατεύουμε την ταυτότητα των χρηστών. Μπορούμε επίσης να κοινοποιήσουμε με ασφάλεια τα ανώνυμα δεδομένα εξωτερικά, καθιστώντας τα χρήσιμα σε άλλους χωρίς να θέτουμε σε κίνδυνο το απόρρητο των χρηστών μας.

Δύο από τις τεχνικές που χρησιμοποιούμε για την προστασία των δεδομένων σας

Γενίκευση των δεδομένων

Υπάρχουν ορισμένα στοιχεία δεδομένων που συνδέονται πιο εύκολα με συγκεκριμένα άτομα. Για να προστατεύσουμε αυτά τα άτομα, χρησιμοποιούμε τη γενίκευση, ώστε να καταργήσουμε ένα τμήμα των δεδομένων ή να αντικαταστήσουμε ένα μέρος τους με μια συνηθισμένη τιμή. Για παράδειγμα, μπορεί να χρησιμοποιήσουμε τη γενίκευση, για να αντικαταστήσουμε τμήματα των κωδικών περιοχών ή των αριθμών τηλεφώνου που έχουν την ίδια ακολουθία αριθμών.

Η γενίκευση μάς επιτρέπει να εφαρμόσουμε την "k-ανωνυμία", μια εξειδικευμένη τεχνική για την απόκρυψη της ταυτότητας των ατόμων σε μια ομάδα παρόμοιων ατόμων. Στην k-ανωνυμία, το k είναι ο αριθμός που συμβολίζει το μέγεθος μιας ομάδας. Εάν για κάθε άτομο στο σύνολο δεδομένων υπάρχουν τουλάχιστον k-1 άτομα με τις ίδιες ιδιότητες, τότε έχουμε επιτύχει την k-ανωνυμία για το σύνολο των δεδομένων. Για παράδειγμα, φανταστείτε ένα σύνολο δεδομένων όπου το k ισούται με 50 και η ιδιότητα είναι ο ταχυδρομικός κώδικας. Εάν ξεχωρίζαμε ένα οποιοδήποτε άτομο εντός του συγκεκριμένου συνόλου δεδομένων, θα βρίσκαμε πάντα 49 ακόμη άτομα με τον ίδιο ταχυδρομικό κώδικα. Συνεπώς, δεν θα μπορούσαμε να ταυτοποιήσουμε ένα άτομο μόνο από τον ταχυδρομικό του κώδικα.

Εάν όλα τα άτομα σε ένα σύνολο δεδομένων μοιράζονται την ίδια τιμή ενός ευαίσθητου χαρακτηριστικού, υπάρχει κίνδυνος να αποκαλυφθούν ευαίσθητες πληροφορίες γνωρίζοντας και μόνο ότι αυτά τα άτομα ανήκουν στο εν λόγω σύνολο δεδομένων. Για τον περιορισμό αυτού του κινδύνου, χρησιμοποιούμε τη "l-διαφορετικότητα", την εξειδικευμένη τεχνική που εφαρμόζει ένα επίπεδο διαφορετικότητας στις ευαίσθητες τιμές. Για παράδειγμα, φανταστείτε μια ομάδα από άτομα που έκαναν αναζήτηση για το ίδιο ευαίσθητο θέμα υγείας (π.χ. συμπτώματα γρίπης) ταυτόχρονα. Εάν εξετάζαμε αυτό το σύνολο δεδομένων, δεν θα μπορούσαμε να πούμε ποιος έκανε αναζήτηση για το θέμα, χάρη στην k-ανωνυμία. Ωστόσο, μπορεί και πάλι να μην διασφαλιζόταν το απόρρητο, καθώς όλα τα άτομα θα μοιράζονταν ένα ευαίσθητο χαρακτηριστικό (δηλ. το θέμα του ερωτήματος). "L-διαφορετικότητα" σημαίνει ότι το σύνολο των ανώνυμων δεδομένων δεν θα περιελάμβανε μόνο αναζητήσεις για γρίπη. Αντιθέτως, μπορεί να περιελάμβανε άλλες αναζητήσεις μαζί με τις αναζητήσεις για γρίπη, για καλύτερη προστασία του απορρήτου των χρηστών.

Προσθήκη ήχου στα δεδομένα

Το "διαφορικό απόρρητο", μια επίσης εξειδικευμένη διαδικασία, περιγράφει την τεχνική προσθήκης μαθηματικού ήχου στα δεδομένα. Με το διαφορικό απόρρητο, είναι δύσκολο να εξακριβώσει κανείς εάν ένα οποιοδήποτε άτομο είναι μέρος ενός συνόλου δεδομένων, επειδή το αποτέλεσμα ενός δεδομένου αλγόριθμου θα εμφανίζεται ουσιαστικά το ίδιο, ανεξάρτητα από το εάν περιλαμβάνονται ή αποκλείονται οι πληροφορίες του ατόμου. Για παράδειγμα, φανταστείτε ότι μετράμε τη συνολική τάση στις αναζητήσεις για γρίπη σε μια γεωγραφική περιοχή. Για να επιτύχουμε το διαφορικό απόρρητο, προσθέτουμε θόρυβο στο σύνολο των δεδομένων. Αυτό σημαίνει ότι μπορούμε να προσθέσουμε ή να αφαιρέσουμε τον αριθμό των ατόμων που κάνουν αναζήτηση για γρίπη σε μια δεδομένη γειτονιά, αλλά αυτή η ενέργεια δεν θα επηρεάσει τη μέτρηση της τάσης στην ευρύτερη γεωγραφική περιοχή. Είναι επίσης σημαντικό να σημειώσουμε ότι η προσθήκη θορύβου σε ένα σύνολο δεδομένων μπορεί να το κάνει λιγότερο χρήσιμο.

Η ανωνυμοποίηση είναι μία μόνο από τις διαδικασίες που εφαρμόζουμε, ώστε να τηρήσουμε τη δέσμευσή μας για την προστασία του απορρήτου των χρηστών. Άλλες διαδικασίες που εφαρμόζουμε είναι οι αυστηροί έλεγχοι κατά την πρόσβαση στα δεδομένα χρηστών, οι πολιτικές που ελέγχουν και περιορίζουν τη συνένωση συνόλων δεδομένων τα οποία ταυτοποιούν χρήστες και ο κεντρικός έλεγχος των στρατηγικών ανωνυμοποίησης και διαχείρισης δεδομένων, προκειμένου να διασφαλίσουμε ένα σταθερό επίπεδο προστασίας σε ολόκληρο το φάσμα της Google.