Како Google чини податке анонимним
Анонимизација је техника за обраду података која уклања или модификује податке који могу да открију идентитет; резултат су анонимни подаци који не могу да се повежу са било којим појединцем. Она је и важна компонента Google-ове посвећености приватности.
Анализом анонимних података смо успели да направимо безбедне и вредне производе и функције, попут аутоматског довршавања унетог упита за претрагу, и да боље откривамо безбедносне претње као што су сајтови са „пецањем“ и малвером, штитећи притом идентитет корисника. Можемо и да безбедно делимо анонимне податке екстерно, чиме ће постати корисни другима без угрожавања приватности корисника.
Две технике које користимо за заштиту података
Генерализовање података
Постоје одређени елементи података који се лакше повезују са одређеним појединцима. Да бисмо заштитили те појединце, користимо генерализацију да бисмо уклонили део података или заменили неки део уобичајеном вредношћу. На пример, можемо да користимо генерализацију да бисмо заменили сегменте свих позивних или телефонских бројева који садрже исти низ бројева.
Генерализација нам омогућава да постигнемо к-анонимност, струковни стандардни термин који описује технику за сакривање идентитета појединаца у групи сличних особа. Код к-анонимности, к је број који представља величину групе. Ако за сваког појединца у скупу података постоји барем к-1 појединац који има иста својства, онда смо постигли к-анонимност за овај скуп података. На пример, замислите одређени скуп података где је к једнако 50, а заједничко својство је поштански број. Ако потражимо било коју особу у том скупу података, увек ћемо пронаћи још 49 других особа са истим поштанским бројем. Због тога нећемо моћи да идентификујемо ниједну појединачну особу само на основу поштанског броја.
Ако сви појединци у скупу података деле исту вредност осетљивог атрибута, самим сазнањем да су ови појединци део скупа података о коме је реч могу да се открију осетљиве информације. Да бисмо ублажили овај ризик, можемо да искористимо л-разноликост, струковни стандардни термин који се користи да опише одређени ниво разноликости у осетљивим вредностима. На пример, замислите да је група људи истовремено претраживала исту осетљиву здравствену тему (на пример, симптоме грипа). Ако погледамо овај скуп података, нећемо моћи да закључимо ко је претраживао ову тему захваљујући к-анонимности. Међутим, можда ће и даље постојати проблем у вези са приватношћу јер сви деле осетљив атрибут (на пример, тему упита). Л-разноликост значи да скуп анонимних података неће садржати само претраге у вези са грипом. Уместо тога, могао би да садржи и друге претраге поред оних у вези са грипом ради још боље заштите приватности корисника.
Додавање „буке“ подацима
Диференцијална приватност (такође струковни стандардни термин) описује технику за додавање математичке буке подацима. Диференцијална приватност отежава утврђивање да ли је неки појединац део скупа података зато што ће сваки алгоритам у суштини приказивати исти резултат без обзира на то да ли су подаци неког појединца укључени или изостављени. На пример, замислите да меримо укупан тренд у претрагама симптома грипа у одређеном географском региону. Да бисмо постигли диференцијалну приватност, додајемо буку скупу података. То значи да можемо да додамо или одузмемо број људи који претражују грип у одређеном делу града, али то неће утицати на наше мерење тренда у оквиру ширег географског региона. Важно је и да имате на уму да додавање буке скупу података може да умањи његову корисност.
Анонимизација је само један од процеса које користимо за одржавање посвећености приватности корисника. Други процеси укључују строге контроле приступа подацима корисника, смернице за контролисање и ограничавање прављење скупова података који могу да идентификују кориснике и централизовани преглед стратегија за анонимизацију и управљање подацима да бисмо осигурали константан ниво заштите широм Google-а.