Como o Google anonimiza os dados
A anonimização é uma técnica de processamento de dados que remove ou modifica informações que possam identificar uma pessoa. Essa técnica resulta em dados anonimizados, que não podem ser associados a nenhum indivíduo específico. É também um componente importante do compromisso do Google com a privacidade.
Com a análise de dados anonimizados, podemos criar produtos e recursos seguros e valiosos, como o preenchimento automático de uma consulta de pesquisa inserida, e detectar com mais precisão as ameaças à segurança, como sites de phishing e malware, além de proteger a identidade dos usuários. Podemos também compartilhar externamente e com segurança os dados anonimizados, tornando-os úteis para outras pessoas sem colocar a privacidade dos nossos usuários em risco.
Duas técnicas que usamos para proteger seus dados
Generalização dos dados
Alguns elementos de dados podem ser associados a certos indivíduos com mais facilidade. Para proteger essas pessoas, usamos a generalização para remover parte dos dados ou substituir alguma parte deles por um valor comum. Por exemplo, podemos usar a generalização para substituir segmentos de todos os códigos de área ou números de telefone pela mesma sequência de números.
A generalização nos permite alcançar o k-anonimato, um termo padrão do setor usado para descrever uma técnica que esconde a identidade dos indivíduos em um grupo de pessoas semelhantes. No k-anonimato, k é um número que representa o tamanho de um grupo. Se, para qualquer indivíduo do conjunto de dados, houver pelo menos k-1 indivíduos que tenham as mesmas propriedades, teremos alcançado o k-anonimato para esse conjunto de dados. Por exemplo, imagine um conjunto de dados específico em que k seja igual a 50 e a propriedade seja o CEP. Se observarmos qualquer pessoa desse conjunto de dados, sempre encontraremos 49 outras pessoas com o mesmo CEP. Portanto, não conseguiremos identificar nenhuma pessoa a partir do CEP dela.
Se todos os indivíduos de um conjunto de dados compartilham do mesmo valor de um atributo confidencial, informações confidenciais podem ser reveladas quando se sabe que essas pessoas fazem parte do conjunto de dados em questão. Para reduzir esse risco, podemos utilizar a l-diversidade, um termo padrão do setor usado para descrever algum nível de diversidade nos valores confidenciais. Por exemplo, imagine que um grupo de pessoas tenha pesquisado o mesmo tópico de saúde (por exemplo, sintomas da gripe), todas ao mesmo tempo. Se analisarmos esse conjunto de dados, não conseguiremos dizer quem pesquisou o tópico, graças ao k-anonimato. No entanto, ainda poderá haver alguma preocupação em relação à privacidade, uma vez que todos compartilham do mesmo atributo de confidencialidade (ou seja, o tópico da pesquisa). Com a l-diversidade, o conjunto de dados anonimizados não incluiria apenas pesquisas sobre a gripe, mas poderia incluir também outras pesquisas para proteger ainda mais a privacidade do usuário.
Adição de ruídos aos dados
A privacidade diferencial (outro termo padrão do setor) descreve uma técnica para adição de ruído matemático aos dados. Com a privacidade diferencial, é difícil determinar se um indivíduo faz parte de um conjunto de dados, porque o resultado de um algoritmo específico parecerá essencialmente o mesmo, independentemente de as informações dos indivíduos estarem incluídas ou omitidas. Por exemplo, imagine que estejamos medindo a tendência geral nas pesquisas sobre a gripe em uma região geográfica. Para alcançarmos a privacidade diferencial, adicionamos ruído ao conjunto de dados. Isso significa que podemos adicionar ou subtrair o número de pessoas que estão pesquisando sobre a gripe em uma área específica. Isso, no entanto, não afetaria nossa medição da tendência em uma região geográfica mais ampla. É importante notar também que a adição de ruído a um conjunto de dados pode torná-lo menos útil.
A anonimização é apenas um dos processos que usamos para manter nosso compromisso com a privacidade do usuário. Outros processos incluem controles rígidos do acesso a dados dos usuários, políticas para controlar e limitar a inclusão de conjuntos de dados que possam identificar usuários e a análise centralizada de estratégias de anonimização e governança de dados para garantir um nível consistente de proteção em todo o Google.