Google डेटा अनामित कसा करते

अनामिकरण हे एक डेटा प्रक्रियाकरणाचे तंत्रज्ञान आहे जे वैयक्तिकरित्या ओळखण्‍यायोग्य माहिती काढते किंवा सुधारित करते; त्यामुळे अनामित डेटा तयार होतो जो कोणत्याही व्यक्तीशी संबंधित नसतो. हा Google च्या गोपनीयतेबद्दल असलेल्या वचनबद्धतेचा अत्यंत महत्त्वपूर्ण घटक आहे.

अनामित डेटाचे विश्‍लेषण करून, वापरकर्त्याच्या ओळखींचे संरक्षण करताना आम्ही सुरक्षित आणि मौल्यवान उत्पादने आणि प्रविष्‍ट केलेली शोध क्वेरी स्वयंपूर्ण होणे यासारखी वैशिष्‍ट्ये तयार करण्‍यात आणि फिशिंग आणि मालवेअर साइट यांसारखे सुरक्षेस असलेले धोके आणखी चांगल्या प्रकारे शोधून काढण्यात सक्षम आहोत. आमच्या वापरकर्त्यांच्या गोपनीयतेस धोका उत्पन्न न करता इतरांसाठी अनामिक डेटा उपयुक्त करून, आम्ही बाह्यरित्या तो सुरक्षितपणे सामायिक देखील करू शकतो.

आपल्या डेटाचे संरक्षण करण्‍यासाठी आम्ही दोन तंत्रज्ञांनाचा वापर करतो.

डेटा सामान्य बनविणे

काही विशिष्‍ट डेटा घटक आहेत जे अधिक सहजपणे विशिष्ट लोकांशी कनेक्ट केलेले आहेत. त्या लोकांचे संरक्षण करण्‍यासाठी, डेटाचा भाग हटविण्याकरिता किंवा त्याचा काही भाग बदलून त्या जागेवर सामायिक असलेले मूल्य ठेवण्‍याकरिता आम्ही सामान्यीकरणाचा वापर करतो. उदाहरणार्थ, सर्व क्षेत्रीय कोडचे खंड किंवा फोन नंबरना त्याच नंबरच्या क्रमाने बदण्‍याकरिता आम्ही सामान्यीकरणाचा वापर करू शकतो.

सामान्यीकरणामुळे आम्हाला समान लोकांच्या गटामधील व्यक्तींची ओळख लपविण्‍यासाठी असलेल्या तंत्रज्ञानाचे वर्णन करणारी औद्योगिक मानकांची संज्ञा, k-अनामिकत्व साध्य करता येते. k-अनामिकत्वामध्‍ये, k ही एक संख्‍या असून ती गटाचा आकार दर्शविते. डेटा संचातील कोणत्याही व्यक्तीसाठी, समान गुणधर्म असलेल्या किमान k-१ व्यक्ती असल्यास, आम्ही डेटा संचासाठी k-अनामिकत्व साध्‍य केले आहे. उदाहरणार्थ, एका विशिष्‍ट डेटा संचाची कल्पना करा ज्यात k चे मूल्य ५० असून गुणधर्म हा पिन कोड आहे. त्या डेटा संचातील कोणत्याही व्यक्तीकडे आम्ही पाहिल्यास, आम्हाला समान पिन कोड असलेल्या अन्य ४९ व्यक्ती नेहमी दिसतील. म्हणून, केवळ त्यांच्या पिन कोड मधून आम्ही कोणत्याही एका व्यक्तीस ओळखण्यात सक्षम असणार नाही.

डेटा संचामधील समान व्यक्तींनी संवेदनशील विशेषता सामायिक केली असल्यास, या व्यक्ती प्रश्नामधील डेटा संचाचे भाग आहेत केवळ हे जाणून घेऊन संवेदनशील माहिती उघड केली जाऊ शकते. हा धोका कमी करण्‍यासाठी, आम्ही संवेदनशील मूल्यांमधील विविधतेच्या स्तराचे वर्णन करण्‍यासाठी, l-विविधता, या औद्योगिक-मानक संज्ञेचा फायदा करून घेऊ शकतो. उदाहरणार्थ, एकाचवेळी समान संवेदनशील स्वास्थ्य विषयासाठी शोधलेल्या लोकांच्या एका गटाची कल्पना करा (उदाहरणार्थ फ्लू या रोगाची लक्षणे). आम्ही या डेटा संचाकडे पाहिल्यास, विषय कोणी शोधला हे सांगण्यात आम्ही सक्षम असणार नाही, k-अनामिकत्वास धन्यवाद. तथापि, प्रत्येकजण संवेदनशील विशेषता (म्हणजेच क्वेरीचा विषय) सामायिक करत असल्याने गोपनीयतेचा प्रश्न अद्याप असतो. L-विविधता याचा अर्थ अनामिक डेटा संचात केवळ फ्लू विषयक शोध नसतील. त्याऐवजी, त्यात वापरकर्त्याच्या गोपनीयतेचे संरक्षण करण्‍यासाठी फ्लू शोधासह अन्य शोध समाविष्‍ट असू शकतील.

डेटामध्‍ये स्पष्ट न केलेली माहिती जोडणे

भिन्नतेवर आधारित गोपनीयता (औद्योगिक-मानक संज्ञा देखील) डेटामध्‍ये गणितीय स्पष्ट न केलेली माहिती जोडणे. भिन्नतेवर आधारित गोपनीयतेसह, कोणतीही एक व्यक्ती डेटा संचाचा भाग आहे किंवा नाही ते निर्धारित करणे अवघड आहे कारण कोणत्याही एका व्यक्तीची माहिती समाविष्‍ट केली आहे किंवा वगळली आहे त्याचा विचार न करता, दिलेल्या अल्गोरिथमचा आउटपुट समान दिसेल. उदाहरणार्थ, आम्ही एखाद्या भौगोलिक स्थानातील फ्लू या रोगासाठी केलेल्या शोधामधील एकंदर कलाविषयी मापन करत आहोत अशी कल्पना करा. भिन्नतेवर आधारित गोपनीयता साध्य करण्‍यासाठी, आम्ही डेटामध्‍ये स्पष्ट न केलेली माहिती जोडतो. याचा अर्थ दिलेल्या आसपासच्या क्षेत्रातील फ्लू या रोगासाठी शोध केलेले लोक जोडू शकतो किंवा कमी करू शकतो परंतु तसे केल्यामुळे विस्तृत भौगोलिक प्रदेशातील कलाचे मापन करणे प्रभावित होणार नाही. हे लक्षात घेणे देखील महत्त्वाचे आहे की डेटा संचात स्पष्ट न केलेली माहिती जोडणे कदाचित त्यास कमी उपयुक्त बनवू शकते.

अनामिकरण ही वापरकर्त्याच्या गोपनीयतेसाठी असलेली आमची वचनबद्धता राखण्‍यासाठी आम्ही वापरतो ती केवळ एक प्रक्रिया आहे. Google वरील सुसंगत संरक्षण स्तराची खात्री करण्‍यासाठी अन्य प्रक्रियांमध्‍ये वापरकर्त्याच्या डेटा प्रवेशावरील काटेकोर नियंत्रणांचा, वापरकर्त्यांना ओळखू शकणार्‍या डेटा संचात सामील होण्यास नियंत्रित आणि प्रतिबंधित करणार्‍या धोरणांचा आणि अनामिकरणाचे आणि डेटा नियमनाचे केंद्रीय पुनरावलोकन करणे यांचा समावेश होतो.