Cách Google ẩn danh dữ liệu

Ẩn danh là một kỹ thuật xử lý dữ liệu nhằm loại bỏ hoặc sửa đổi thông tin nhận dạng cá nhân. Kỹ thuật này tạo ra dữ liệu ẩn danh mà không thể dùng để liên kết với bất kỳ cá nhân nào. Đây cũng là một thành phần quan trọng trong cam kết bảo vệ quyền riêng tư của Google.

Bằng cách phân tích dữ liệu ẩn danh, chúng tôi có thể xây dựng các sản phẩm và tính năng vừa an toàn vừa có giá trị, chẳng hạn như tính năng tự động hoàn thành một cụm từ tìm kiếm đã nhập và phát hiện các mối đe dọa bảo mật tốt hơn, chẳng hạn như trang web lừa đảo và phần mềm độc hại, trong khi vẫn bảo vệ được danh tính của người dùng. Chúng tôi cũng có thể chia sẻ dữ liệu ẩn danh ra bên ngoài một cách an toàn, giúp dữ liệu này trở nên hữu ích với những người khác mà không đe dọa đến quyền riêng tư của người dùng.

Sau đây là 2 kỹ thuật mà chúng tôi dùng để bảo vệ dữ liệu của bạn

Khái quát hóa dữ liệu

Một số thành phần dữ liệu nhất định có thể dễ dàng liên kết với các cá nhân cụ thể nào đó hơn. Để bảo vệ các cá nhân đó, chúng tôi dùng kỹ thuật khái quát hóa nhằm loại bỏ một phần dữ liệu hoặc thay thế phần dữ liệu nào đó bằng một giá trị chung. Ví dụ: chúng tôi có thể dùng kỹ thuật khái quát hóa để thay thế các phần chứa toàn mã vùng hoặc số điện thoại bằng cùng một chuỗi số.

Kỹ thuật khái quát hóa cho phép chúng tôi đạt được giải pháp có tên k-anonymity, một thuật ngữ tiêu chuẩn của ngành dùng để mô tả kỹ thuật che giấu danh tính của các cá nhân trong một nhóm người tương tự. Trong giải pháp k-anonymity, k là một số biểu thị quy mô của nhóm. Với bất kỳ cá nhân nào trong tập dữ liệu, nếu có ít nhất k-1 cá nhân có cùng thuộc tính, thì chúng tôi đã đạt được giải pháp k-anonymity cho tập dữ liệu đó. Ví dụ: hãy hình dung một tập dữ liệu nhất định có k bằng 50 và thuộc tính là mã bưu chính. Nếu xem xét bất kỳ cá nhân nào trong tập dữ liệu đó, chúng tôi sẽ luôn tìm thấy 49 người khác có cùng mã bưu chính. Do đó, chúng tôi sẽ không thể nhận dạng bất kỳ cá nhân nào chỉ bằng mã bưu chính của họ.

Nếu mọi cá nhân trong một tập dữ liệu có chung giá trị là một thuộc tính nhạy cảm, thì thông tin nhạy cảm có thể dễ dàng bị tiết lộ thông qua việc chỉ cần biết rằng các cá nhân này thuộc tập dữ liệu được đề cập. Để giảm thiểu rủi ro này, chúng tôi đã tận dụng thuật toán l-diversity, một thuật ngữ tiêu chuẩn của ngành dùng để mô tả một số mức độ đa dạng trong các giá trị nhạy cảm. Ví dụ: hãy hình dung một nhóm người đã tìm kiếm cùng một chủ đề sức khỏe nhạy cảm (ví dụ: triệu chứng cúm) cùng lúc. Nếu xem xét tập dữ liệu này, chúng tôi sẽ không thể biết ai đã tìm kiếm chủ đề đó, nhờ vào thuật toán k-anonymity. Tuy nhiên, vẫn tiềm ẩn mối lo ngại về quyền riêng tư vì mọi người đều có chung một thuộc tính nhạy cảm (nghĩa là chủ đề của cụm từ tìm kiếm này). L-diversity có nghĩa là tập dữ liệu ẩn danh sẽ không chỉ chứa nội dung tìm kiếm về cúm mà còn có thể bao gồm các nội dung tìm kiếm khác nhằm tăng cường khả năng bảo vệ quyền riêng tư của người dùng.

Thêm nhiễu toán học vào dữ liệu

Giải pháp có tên sự riêng tư biệt lập (cũng là một thuật ngữ tiêu chuẩn của ngành) mô tả kỹ thuật thêm nhiễu toán học vào dữ liệu. Với giải pháp sự riêng tư biệt lập, rất khó để xác định xem một cá nhân bất kỳ có thuộc một tập dữ liệu hay không bởi vì dữ liệu đầu ra của một thuật toán nhất định về cơ bản sẽ giống nhau, bất kể thông tin của một cá nhân bất kỳ được thêm vào hay bỏ đi. Ví dụ: hãy hình dung chúng tôi đang đo lường xu hướng chung cho nội dung tìm kiếm cúm trên một khu vực địa lý. Để thực hiện được giải pháp sự riêng tư biệt lập, chúng tôi sẽ thêm nhiễu toán học vào tập dữ liệu đó. Điều này có nghĩa là chúng tôi có thể cộng hoặc trừ số người đang tìm kiếm nội dung về cúm trong một khu vực lân cận nhất định, nhưng làm như vậy sẽ không ảnh hưởng đến hoạt động đo lường xu hướng trên khu vực địa lý rộng hơn. Ngoài ra, cũng phải lưu ý rằng việc thêm nhiễu toán học vào tập dữ liệu có thể khiến dữ liệu kém hữu ích.

Ẩn danh chỉ là một quy trình mà chúng tôi dùng để giữ vững cam kết bảo vệ quyền riêng tư của người dùng. Các quy trình khác bao gồm kiểm soát chặt chẽ quyền truy cập vào dữ liệu của người dùng, chính sách kiểm soát và giới hạn việc kết hợp các tập dữ liệu có thể nhận dạng người dùng, cũng như xem xét tập trung các chiến lược ẩn danh và quản lý dữ liệu để đảm bảo mức độ bảo vệ nhất quán trên toàn Google.