কিভাবে Google ডেটার পরিচয় গোপন করে

পরিচয় গোপন করা হল একটি ডেটা প্রসেসিংয়ের কৌশল যা ব্যক্তিগতভাবে শনাক্তকরণযোগ্য তথ্যকে সরিয়ে ফেলে বা সংশোধন করে; এর ফলস্বরূপ ডেটার পরিচয় গোপন করা হয় ও এটিকে কোনও একজন ব্যক্তির সাথে যুক্ত করা যায় না। গোপনীয়তার প্রতি Google-এর দায়বদ্ধতার এটিও একটি গুরুত্বপূর্ণ অংশ।

ডাটার পরিচয় গোপন করে বিশ্লেষণ করে আমরা নিরাপদ এবং হিতকর পণ্য ও বৈশিষ্ট্য নির্মাণ করতে সক্ষম হই, যেমন যখন কোনও সার্চ জিজ্ঞাস্য লেখা হয় তখন তা স্বতঃসম্পূর্ণ করতে, ফিশিং ও ক্ষতিকারক সাইটের মত নিরাপত্তা হুমকি আরও ভালোভাবে শনাক্ত করতে, এই সবকিছুই করা হয় ব্যবহারকারীর পরিচয় সুরক্ষিত রেখে। এছাড়া আমরা আমাদের ব্যবহারকারীদের গোপনীয়তাকে কোনও ঝুঁকির মধ্যে না ফেলে ডাটার পরিচয় গোপন রেখে অন্যদের উপযোগী করে তুলে নিরাপদে বাহ্যিকভাবে শেয়ার করতেও পারি।

আপনার ডেটাকে সুরক্ষিত করতে আমরা দুটি কৌশল ব্যবহার করি

ডেটা সরলীকরণ

এমন কিছু নির্দিষ্ট ডেটা উপাদান আছে যা নির্দিষ্ট ব্যক্তির সাথে অতি সহজে সংযুক্ত হয়। আমরা সেই সব ব্যক্তিদেরকে সুরক্ষিত রাখার জন্য ডেটার একটি অংশ সরিয়ে ফেলতে বা এর কিছু অংশ কোনও সাধারণ বাস্তবতার সাথে প্রতিস্থাপন করতে সরলীকরণ ব্যবহার করি। উদাহরণস্বরূপ, আমরা সমস্ত এলাকা কোডের অংশ বা ফোন নম্বরকে সংখ্যার একই ক্রম দিয়ে প্রতিস্থাপন করতে সরলীকরণ ব্যবহার করতে পারি।

সরলীকরণ আমাদেরকে k-anonymity অর্জন করার অনুমোদন দেয়, এটি একটি শিল্প-নির্ধারিত শব্দ যা একই ধরনের ব্যক্তিদের নিয়ে তৈরি একটি গোষ্ঠীর মধ্যে থাকা ব্যক্তির পরিচয় লুকানোর কৌশল বর্ণনা করতে ব্যবহৃত হয়। k-anonymity-তে k হল একটি সংখ্যা যা গোষ্ঠীর আকার উপস্থাপন করে। ডেটা সেটে থাকা কোনও ব্যক্তির ক্ষেত্রে যদি কমপক্ষে k-1 জন ব্যক্তি থাকেন যার বিশিষ্টতা একই তাহলে আমরা সেই ডেটা সেটের জন্য k-anonymity অর্জন করি। উদাহরণস্বরূপ, এমন একটি ডেটা সেটের কল্পনা করুন যেখানে k সমান 50 জন এবং বিশিষ্টতা জিপ কোড। আমরা যদি সেই ডেটা সেটের মধ্যে থাকা কোনও ব্যক্তিকে দেখি তাহলে আমরা সর্বদা একই জিপ কোড সহ অন্য 49 জনকে খুঁজে পাব। কাজেই আমরা কোনও একজন ব্যক্তিকে শুধুমাত্র তার জিপ কোড দিয়ে শনাক্ত করতে সক্ষম হব না।

যদি একটি ডেটা সেটের সব ব্যক্তিই একই মানের কোনও সংবেদনশীল তথ্য শেয়ার করেন তাহলে সংবেদনশীল তথ্য শুধুমাত্র এই জেনে প্রকাশিত হতে পারে যে এই সব ব্যক্তি এই ডেটা সেটটির অংশ। এই ঝুঁকি কমাতে আমরা l-diversity-র সুবিধা নিতে পারি, এটি একটি শিল্প-নির্ধারিত শব্দ যা সংবেদনশীল তথ্যের মধ্যে থাকা বৈচিত্র্যর কিছু স্তর বর্ণনা করতে ব্যবহৃত হয়। উদাহরণস্বরূপ, একদল লোক একই ধরনের সংবেদনশীল স্বাস্থ্য সংক্রান্ত প্রসঙ্গ (যেমন জ্বরের বিভিন্ন উপসর্গ) একই সময়ে অনুসন্ধান করেছেন। আমরা যদি এই ডেটা সেটে দেখি তাহলে আমরা বলতে পারব না যে প্রসঙ্গটি কে খুঁজেছেন, এর জন্য k-anonymity-কে ধন্যবাদ। তবে, এর পরেও কিছু গোপনীয়তা উদ্বেগ থেকে যায়, কেন না সকলেই সংবেদনশীল তথ্য (যেমন প্রশ্নের প্রসঙ্গ) শেয়ার করেছেন। L-diversity-র অর্থ হল এক্ষেত্রে অজ্ঞাতনামা ডেটা সেটে শুধু জ্বর অনুসন্ধানই থাকবে না, তার পরিবর্তে ব্যবহারকারীর গোপনীয়তাকে আরও সুরক্ষিত করার জন্য এতে জ্বর অনুসন্ধানের পাশাপাশি অন্য অনুসন্ধানও থাকতে পারে।

ডেটাতে অতিরিক্ত তথ্য যোগ করা

পার্থক্যমূলক গোপনীয়তা (এটিও একটি শিল্প-নির্ধারিত শব্দ) যা ডেটাতে গাণিতিক অতিরিক্ত তথ্য যোগ করার কৌশল হিসেবে বর্ণিত হয়। কোনও ব্যক্তি কোনও ডেটা সেটের অংশ কিনা পার্থক্যমূলক গোপনীয়তার সাহায্যে তা নির্ধারণ করা মুশকিল হয়ে যায় কারণ প্রদত্ত অ্যালগরিদমের অনির্বাচন মূলত একই প্রদর্শিত হবে, তাতে কোনও ব্যক্তির তথ্য অন্তর্ভুক্ত করা বা বাদ দেওয়া যাই হোক না কেন। উদাহরণস্বরূপ, কল্পনা করুন আমরা একটি ভৌগলিক অঞ্চল জুড়ে জ্বর অনুসন্ধানের সামগ্রিক প্রবণতা পরিমাপ করছি। পার্থক্যমূলক গোপনীয়তা অর্জন করার জন্য আমরা ডেটা সেটে অতিরিক্ত তথ্য যোগ করেছি। এর অর্থ আমরা কোনও প্রদত্ত এলাকাতে জ্বর অনুসন্ধানকারী লোকেদের সংখ্যা যোগ বা বিয়োগ করতে পারি, তবে এমনটি করা হলে তা বৃহত্তর ভৌগলিক অঞ্চল জুড়ে আমাদের প্রবণতা পরিমাপকে প্রভাবিত করবে না। এটাও মনে রাখা গুরুত্বপূর্ণ যে কোনও ডেটা সেটে তথ্য যোগ করা হলে তা সেটিকে কম উপযোগী হিসেবেও উপস্থাপন করতে পারে।

পরিচয় গোপন করা হল শুধুমাত্র একটি প্রসেস যা আমরা ব্যবহারকারীদের গোপনীয়তার প্রতি আমাদের দায়বদ্ধতা বজায় রাখতে ব্যবহার করি। অন্যান্য প্রসেসের মধ্যে আছে ব্যবহারকারীর ডেটা অ্যাক্সেসে কঠোর নিয়ন্ত্রণ, ব্যবহারকারীদেরকে শনাক্ত করতে পারে এমন ডেটা সেটগুলিতে যোগদান নিয়ন্ত্রণ ও সীমিত করার নীতি এবং সমগ্র Google জুড়ে সুরক্ষার ধারাবাহিক স্তর নিশ্চিত করতে পরিচয় গোপন ও ডেটা নিয়ন্ত্রণ কৌশলের কেন্দ্রীভূত পর্যালোচনা।