Cómo Google anonimiza los datos
La anonimización es una técnica de tratamiento de datos que elimina o modifica los datos personales identificables para obtener datos anónimos que no se pueden asociar con ninguna persona. Además, es un componente fundamental del compromiso de Google con la privacidad.
Analizar datos anonimizados nos permite crear productos y funciones seguros y valiosos, por ejemplo, para autocompletar consultas de búsqueda o detectar mejor las amenazas de seguridad, como los ataques de phishing y los sitios maliciosos, a la vez que protegemos la identidad de los usuarios. También nos permite compartir datos anonimizados con terceros de forma que resulten útiles sin poner en riesgo la privacidad de nuestros usuarios.
Dos de las técnicas que utilizamos para proteger tus datos:
Generalizar los datos
Hay ciertos datos que se pueden conectar más fácilmente con determinadas personas. Para proteger a estas personas, utilizamos la generalización para eliminar una parte de los datos o sustituirla por un valor común. Por ejemplo, podemos usar la generalización para sustituir segmentos de todos prefijos o números de teléfono por la misma secuencia de números.
Con la generalización, conseguimos el anonimato k, un término estándar del sector que se utiliza para describir la técnica de ocultar la identidad de las personas en un grupo de personas similares. La k es un número que representa el tamaño de un grupo. Un conjunto de datos es k-anónimo si, por cada individuo del conjunto, hay al menos k-1 individuos con las mismas propiedades. Por ejemplo, pensemos en un conjunto de datos en el que k es igual a 50 y la propiedad es el código postal. Si nos fijamos en cualquier persona del conjunto de datos, siempre habrá otros 49 individuos con el mismo código postal y no podremos identificar a ninguna persona únicamente por su código postal.
Si todos los individuos de un conjunto de datos comparten el mismo valor de un atributo sensible, sería posible obtener datos sensibles solo con saber que estas personas forman parte del conjunto de datos en cuestión. Para minimizar este riesgo, podemos utilizar la diversidad l, un término estándar del sector que se utiliza para describir el nivel de diversidad de los valores sensibles. Por ejemplo, imaginemos que un grupo de personas hace una búsqueda del mismo tema de salud sensible (p. ej., los síntomas de la gripe) al mismo tiempo. Si nos fijamos en este conjunto de datos, no podremos saber quién ha buscado información sobre el tema gracias al anonimato k. No obstante, es posible que exista un problema de privacidad, ya que todos comparten un atributo sensible, es decir, el tema de la consulta. Gracias a la diversidad l, el conjunto de datos no contendría únicamente las búsquedas relacionadas con la gripe, sino que podría incluir también otras búsquedas para proteger la privacidad de los usuarios.
Añadir ruido a los datos
La privacidad diferencial (otro término estándar del sector) describe una técnica que consiste en añadir ruido matemático a los datos. Con la privacidad diferencial, es difícil verificar si un individuo es parte de un conjunto de datos, ya que el resultado de un algoritmo determinado tendría el mismo aspecto independientemente de si incluye u omite datos de esa persona. Por ejemplo, imaginemos que queremos medir la tendencia general en las búsquedas sobre la gripe en una región geográfica. Para lograr la privacidad diferencial, añadimos ruido al conjunto de datos. Esto quiere decir que podríamos sumar o restar el número de personas que buscan información sobre la gripe en un barrio concreto, pero esto no afectaría a nuestra medición de la tendencia en la región geográfica en su conjunto. También es importante tener en cuenta que añadir ruido a un conjunto de datos puede hacerlo menos útil.
La anonimización es solo uno de los procesos que utilizamos para mantener nuestro compromiso con la privacidad de los usuarios. Además, incluimos controles estrictos del acceso a los datos de usuario, políticas para controlar y limitar la combinación de conjuntos de datos que puedan identificar a los usuarios y una revisión centralizada de la anonimización y de las estrategias de control de datos para asegurarnos de que el nivel de protección es uniforme en todos los productos de Google.