Google-k datuak anonimo bihurtzeko duen modua

Datuak prozesatzeko teknika bat da anonimo bihurtzea. Pertsonak identifikatzeko balio duen informazioa kendu edo aldatu egiten du, anonimo bihurtuz, inorekin erlazionatu ezin izan dadin. Halaber, funtsezko osagaia da Google-k erabiltzaileekiko duen pribatutasun-konpromisoan.

Anonimo bihurtutako datuak aztertuta, produktu eta eginbide seguru eta baliagarriak sor ditzakegu; esaterako, idatzitako bilaketa-kontsulta baten osatze automatikoa. Halaber, hobeto hautematen ditugu segurtasun-mehatxuak (adibidez, phishingak eta malwareak dituzten guneak) eta hobeto babesten dugu erabiltzaileen identitatea. Kanpoan ere segurtasunez parteka ditzakegu anonimo bihurtutako datuak, erabiltzaileen pribatutasuna arriskuan jarri gabe, besteentzako erabilgarria izan dadin.

Hona hemen datuak babesteko erabilitako tekniketako bi.

Datuak orokortzea

Badaude zenbait pertsonarekin errazago erlaziona daitezkeen datu-elementu batzuk. Pertsona horiek babesteko, datuak orokortzen ditugu, datuen zati bat ezabatuz edo zatiren bat orokorragoa den balioren batekin ordezkatuz. Esaterako, area-kode edo telefono-zenbaki guztien segmentu batzuk zenbakien sekuentzia berarekin ordezkatzen ditugu.

Datuak orokortzeari esker, K-anonimotasuna delakoa lor dezakegu. Antzekoak diren pertsonen talde batean pertsona bakoitzaren identitatea ezkutatzeko teknikari derizo "K-anonimotasun". K-anonimotasunean, talde baten tamaina adierazten duen zenbakia da K letra. Datu multzoan pertsonaren bati dagozkion ezaugarri berak dituzten K-1 pertsona badaude, orduan lortu dugu K-anonimotasuna datu multzoan. Esaterako, demagun datu multzo baten K balioa 50 dela, eta propietate gisa posta-kodea duela. Datu multzo horretan dagoen pertsonaren bati erreparatzen badiogu, beti aurkituko ditugu posta-kode bera duten beste 49 pertsona. Beraz, ez ginateke gai izango pertsona bat bera ere identifikatzeko haren posta-kodea soilik jakinda.

Datu multzo bateko pertsona guztiek partekatzen badute kontuzko atributuren baten balio bera, kontuzko informazioa agerian geldi daiteke pertsona horiek datu multzo horretan daudela jakite hutsarekin. Arrisku hori txikitzeko, L-dibertsitatea azter dezakegu. Kontuzko balioen dibertsitate-maila jakin bat deskribatzeko erabiltzen da termino hori. Esaterako, demagun pertsona talde batek kontuzko osasun-gai bera bilatu duela (adibidez, gripearen sintomak), denek aldi berean. Datu multzo horri erreparatuko bagenio, ez ginateke gai izango bilaketa hori nork egin duen jakiteko, K-anonimotasunari esker. Hala ere, baliteke oraindik ere pribatutasun-arazoren bat egotea, denek partekatzen baitute kontuzko atributuren bat (adibidez, kontsultaren gaia). L-dibertsitatearen bidez, anonimo bihurtutako datu multzoak ez lituzke izango gripearen inguruko bilaketak soilik. Gripearen inguruko bilaketekin batera, beste bilaketa batzuk hartuko lituzke barne, erabiltzaileen pribatutasuna are gehiago babesteko.

Datuei "zarata" gehitzea

Pribatutasun diferentziala (sektoreko terminoa hau ere) datuei "zarata" matematikoa gehitzeko teknika da. Pribatutasun diferentzialaren bidez, zaila da ziurtatzea pertsona bat datu multzo baten parte den ala ez; izan ere, algoritmo jakin baten emaitza beti izango da berdina, pertsona baten informazioa gehitzen edo alde batera uzten bada ere. Esaterako, demagun eskualde batean gripearen inguruko bilaketen joera orokorra neurtzen ari garela. Pribatutasun diferentziala lortzeko, "zarata" gehitzen diogu datu multzoari. Horrela, pertsonak gehitu ala ken diezazkiokegu auzo jakin batean gripearen inguruko bilaketak egiten ari diren pertsona multzoari. Hala ere, horrek ez luke eragingo eskualde zabaleko joeren neurketan. Garrantzitsua da kontuan izatea datu multzoari "zarata" gehitzeak haren erabilgarritasuna txiki lezakeela.

Erabiltzaileen pribatutasunarekiko konpromisoa mantentzeko erabiltzen dugun prozesuetako bat da datuak anonimo bihurtzea. Beste prozesu hauek ere erabiltzen ditugu: erabiltzaileen datuak atzitzeko kontrol zorrotza egitea, erabiltzaileak identifika litzaketen datu multzoetarako sarbidea kontrolatzen eta mugatzen duten gidalerroak aplikatzea, eta datuak anonimo ezartzearen eta datuen arautze-estrategien inguruko berrikuspen zentralizatua aplikatzea, babes-maila koherentea bermatzeko Google-ren zerbitzu guztietan.