Como a Google torna os dados anónimos

A anonimização é uma técnica de processamento de dados que remove ou modifica as informações de identificação pessoal. Resulta em dados anonimizados que não podem ser associados a qualquer indivíduo. Além disso, é um componente crítico do compromisso da Google para com a privacidade.

Ao analisar os dados anonimizados, podemos criar funcionalidades e produtos seguros e valiosos, como o preenchimento automático de uma consulta de pesquisa introduzida, e detetar melhor as ameaças à segurança, como sites de phishing e de software malicioso, protegendo sempre a identidade dos utilizadores. Além disso, podemos partilhar os dados anonimizados externamente em segurança, o que os torna úteis para outras pessoas, sem colocar a privacidade dos nossos utilizadores em risco.

Duas das técnicas que utilizamos para proteger os seus dados

Generalizar os dados

Existem alguns elementos de dados que são mais facilmente associados a certos indivíduos. Para proteger esses indivíduos, utilizamos a generalização para remover uma parte dos dados ou substituir alguma parte dos dados por um valor comum. Por exemplo, podemos utilizar a generalização para substituir segmentos de todos os indicativos ou números de telefone pela mesma sequência de números.

A generalização permite-nos alcançar o k-anonimato, um termo de norma da indústria utilizado para descrever uma técnica para ocultar a identidade de indivíduos num grupo de pessoas semelhantes. No k-anonimato, o k é um número que representa o tamanho de um grupo. Para cada indivíduo no conjunto de dados, se existirem, no mínimo, k-1 indivíduos com as mesmas propriedades, significa que alcançamos o k-anonimato para o conjunto de dados. Por exemplo, imagine um determinado conjunto de dados em que k equivale a 50 e a propriedade é o código postal. Se olharmos para qualquer pessoa nesse conjunto de dados, encontramos sempre mais 49 pessoas com o mesmo código postal. Como tal, não conseguimos identificar qualquer pessoa apenas pelo seu código postal.

Se todos os indivíduos num conjunto de dados partilharem o mesmo valor de um atributo confidencial, as informações confidenciais podem ser reveladas simplesmente ao saber que estes indivíduos fazem parte do conjunto de dados em questão. Para mitigar este risco, podemos tirar partido da l-diversidade, um termo de norma da indústria utilizado para descrever algum nível de diversidade nos valores confidenciais. Por exemplo, imagine que um grupo de pessoas pesquisou o mesmo tópico de saúde confidencial (por exemplo, sintomas de gripe) em simultâneo. Se observamos este conjunto de dados, não conseguimos compreender quem pesquisou o tópico, graças ao k-anonimato. Porém, ainda pode existir uma preocupação de privacidade, uma vez que todas as pessoas partilham um atributo confidencial (ou seja, o tópico da consulta). A l-diversidade significa que o conjunto de dados anonimizados não contém apenas pesquisas de gripe. Pode incluir outras pesquisas além da gripe para proteger ainda mais a privacidade do utilizador.

Adicionar ruído aos dados

A privacidade diferencial (que também é um termo de norma da indústria) descreve uma técnica para adicionar ruído matemático aos dados. Com a privacidade diferencial, é difícil determinar se um indivíduo em questão faz parte de um conjunto de dados, uma vez que o resultado de um determinado algoritmo tem um aspeto praticamente idêntico, independentemente de as informações de um indivíduo estarem incluídas ou omitidas. Por exemplo, imagine que estamos a medir a tendência global em pesquisas de gripe numa região geográfica. Para alcançar a privacidade diferencial, adicionamos ruído ao conjunto de dados. Tal significa que podemos adicionar ou subtrair o número de pessoas que pesquisam por gripe num determinado bairro, mas ao fazê-lo, não afetamos a nossa medição da tendência na região geográfica mais alargada. De igual modo, é importante salientar que a adição de ruído a um conjunto de dados pode torná-lo menos útil.

A anonimização é apenas um processo que utilizamos para manter o nosso compromisso para com a privacidade do utilizador. Outros processos incluem controlos rigorosos sobre o acesso aos dados do utilizador, políticas para controlar e limitar a adição de conjuntos de dados que possam identificar os utilizadores e a revisão centralizada de estratégias de governação de dados e de anonimização para garantir um nível consistente de proteção em toda a Google.