Cómo Google hace que los datos sean anónimos

Conservar el anonimato es una técnica de procesamiento de datos que elimina o modifica la información de identificación personal. Como resultado, los datos anónimos no se pueden asociar a ninguna persona. Es un componente fundamental del compromiso de Google con la privacidad.

Mediante el análisis de datos anónimos, podemos desarrollar productos y funciones seguros y valiosos, como autocompletar una búsqueda, y detectar mejor las amenazas de seguridad, como sitios con software malicioso y suplantación de identidad (phishing), mientras protegemos la identidad de los usuarios. Además, compartimos la información anónima de forma segura con terceros para que puedan usarla sin comprometer la privacidad de nuestros usuarios.

Usamos dos técnicas para proteger sus datos:

Generalización de los datos

Existen ciertos datos que resultan más fáciles de conectar con determinadas personas. A fin de protegerlas, usamos la generalización para quitar una parte de los datos o reemplazar una parte con un valor común. Por ejemplo, podemos usar la generalización para reemplazar segmentos de todos los códigos de área o números telefónicos con la misma secuencia de números.

La generalización nos permite lograr la anonimización k, un término propio de la industria que se usa para describir una técnica que tiene como objeto ocultar la identidad de personas en un grupo de individuos similares. En este tipo de anonimización, "k" es el número que indica el tamaño de un grupo. Si para cada persona en el conjunto de datos, existen al menos k-1 personas con las mismas propiedades, se logra la anonimización k del conjunto. Por ejemplo, imagine un determinado conjunto de datos, en el que "k" equivale a 50 y la propiedad es el código postal. Si buscamos a una persona en ese conjunto de datos, siempre encontraremos a otras 49 con el mismo código. Por lo tanto, no se podrá identificar a ninguna persona solo por el código postal.

Si todas las personas de un conjunto de datos comparten el mismo valor para un atributo confidencial, es posible divulgar información confidencial con solo saber que estas personas son parte de dicho conjunto. Para reducir el riesgo, es posible que usemos la diversidad l, un término de la industria que se usa para describir un nivel de diversidad en los valores confidenciales. Por ejemplo, imagine que un grupo de personas realizaron búsquedas sobre el mismo tema de salud confidencial (p. ej., síntomas de gripe) al mismo tiempo. Si analizamos este conjunto de datos, no podríamos saber quién buscó el tema, gracias a la anonimización k. Sin embargo, puede existir un problema de privacidad, dado que todos comparten un atributo confidencial (es decir, el tema de la búsqueda). La diversidad L implica que los datos anonimizados no solo contienen búsquedas sobre la gripe. En cambio, pueden incluir otras búsquedas para proteger aún más la privacidad de los usuarios.

Agregar contaminación a los datos

La privacidad diferencial (otro término propio del sector) describe una técnica para agregar contaminación matemática a los datos. Con la privacidad diferencial, es difícil determinar si una persona es parte de un conjunto de datos porque el resultado de un algoritmo determinado será básicamente igual, más allá de que se incluya o no la información de una persona. Por ejemplo, imagine que medimos la tendencia general en búsquedas de gripe en una región geográfica. Para lograr la privacidad diferencial, agregamos contaminación al conjunto de datos. Esto quiere decir que podemos modificar la cantidad de personas que realizan búsquedas sobre gripe en un determinado vecindario, pero sin afectar nuestra medición de la tendencia en la región geográfica más amplia. Además, es importante tener en cuenta que si se agrega contaminación a un conjunto de datos se puede reducir su relevancia.

La anonimización es solo uno de los procesos que usamos para mantener nuestro compromiso con la privacidad de los usuarios. Otros procesos incluyen controles estrictos sobre el acceso a los datos de usuarios, políticas para controlar y limitar la combinación de conjuntos de datos que puedan identificar a los usuarios y la revisión centralizada de las estrategias de anonimización y control de datos para lograr una protección uniforme en todo Google.