Google에서 데이터를 익명화하는 방법

익명화란 개인 식별 정보를 삭제하거나 수정하는 데이터 처리 기술입니다. 이 방법을 사용하면 어떤 개인과도 연관 지을 수 없는 익명화된 데이터를 얻을 수 있습니다. 또한 개인정보를 보호하기 위한 Google의 노력에 있어 필수 요소이기도 합니다.

Google에서는 익명화된 데이터를 분석하여 사용자의 신원을 보호하는 동시에 입력된 검색어 자동 완성 등의 안전하고 가치 있는 제품과 기능을 개발하고 보안 위협(피싱, 멀웨어 사이트 등) 감지 기능을 강화할 수 있습니다. 또한 사용자의 개인정보를 보호하면서도 데이터를 유용하게 사용할 수 있도록 익명화된 데이터를 Google 외부에 안전하게 공유할 수 있습니다.

Google에서 사용자 데이터를 보호하기 위해 사용하는 두 가지 기술

데이터 일반화

어떤 데이터 요소는 특정 개인과 연관 짓기가 더 쉽습니다. 이러한 개인을 보호하기 위해 Google에서는 일반화 기술을 사용해 데이터의 일부분을 삭제하거나 일반적인 값으로 대체합니다. 예를 들어, 일반화 기술을 사용하여 모든 지역 코드 또는 전화번호 세그먼트를 동일한 숫자로 대체할 수 있습니다.

Google에서는 일반화를 사용하여 k-익명성을 달성할 수 있습니다. k-익명성이란 유사한 사람들이 모인 그룹에서 개인의 신원을 숨기는 데 사용하는 기술을 이르는 업계 표준 용어입니다. k-익명성에서 k는 그룹의 크기를 나타내는 숫자입니다. 데이터 세트에 포함된 개인마다 동일한 속성을 지닌 개인이 최소 k-1명 있으면 데이터 세트에서 k-익명성을 달성한 것입니다. 예를 들어, k 값이 50이고 속성은 우편번호인 데이터 세트가 있다고 가정하겠습니다. 이 데이터 세트에 포함된 사람이라면 누구든지 우편번호가 같은 49명의 다른 사람을 찾을 수 있는 상태입니다. 따라서 우편번호만으로는 어떤 한 사람을 식별해 낼 수 없습니다.

데이터 세트에 속한 모든 개인이 민감한 속성값을 동일하게 갖고 있다면 개인이 이러한 데이터 세트에 포함된다는 사실만으로 민감한 정보가 밝혀질 수 있습니다. 이러한 위험을 완화하기 위해 Google에서는 l-다양성을 활용할 수 있습니다. l-다양성이란 민감한 값에 포함된 일정 수준의 다양성을 나타내는 업계 표준 용어입니다. 예를 들어, '독감 증상'과 같이 민감한 건강 관련 주제를 동시에 검색한 사람들의 그룹이 있다고 가정하겠습니다. 이 데이터 세트를 보면 k-익명성 덕분에 누가 이러한 주제를 검색했는지 알아낼 수 없습니다. 하지만 모두가 민감한 속성(검색어의 주제)을 공유하기 때문에 여전히 개인정보와 관련된 문제가 발생할 수 있습니다. l-다양성을 활용하면 익명화된 데이터 세트에 독감에 관련된 검색어뿐만 아니라 다른 검색어도 포함되기 때문에 사용자의 개인정보를 더 강력하게 보호할 수 있습니다.

데이터에 노이즈 추가

개인정보 차등보호(업계 표준 용어)란 데이터에 수학적인 노이즈를 추가하는 기술을 말합니다. 개인정보 차등보호를 활용하면 어떤 개인의 정보가 포함되어 있는지에 관계없이 주어진 알고리즘의 출력값이 근본적으로 동일하게 나타나기 때문에 개인이 특정 데이터 세트에 속하는지 알아내기 어려워집니다. 예를 들어, 어떤 지역의 독감 관련 검색이 전반적으로 어떠한 추세를 보이는지 측정한다고 가정하겠습니다. 개인정보 차등보호를 위해 데이터 세트에 노이즈를 추가합니다. 즉, 한 마을에서 독감을 검색한 사람의 수를 더하거나 뺍니다. 하지만 그런다고 해서 더 넓은 지역에서 나타나는 추세를 측정하는 데는 아무런 영향이 없습니다. 한편 데이터 세트에 노이즈를 추가하면 데이터의 유용성이 줄어들 수 있다는 사실에도 주의해야 합니다.

익명화는 Google에서 사용자의 개인정보를 보호하는 데 사용하는 프로세스 중 하나에 불과합니다. 그밖에도 Google에서는 사용자의 데이터 액세스를 엄격하게 관리하고, 사용자를 식별하는 데 사용할 수 있는 데이터 세트의 결합을 관리 및 제한하는 정책을 마련하고, Google 전체에서 일관된 수준의 개인정보 보호를 제공하기 위해 익명화 및 데이터 거버넌스 전략을 중앙집중식으로 검토하고 있습니다.