Diferenciálne súkromie
Diferenciálne súkromie je prísny štatistický rámec, ktorý umožňuje organizáciám zverejňovať súhrnné údaje – počty, priemery, modely strojového učenia – s matematickými zárukami, že jednotlivých prispievateľov nemožno spätne analyzovať. Je to motor analýzy pre písanie od spoločnosti Apple, telemetria používania prehliadača Chrome od spoločnosti Google a vydanie amerického sčítania ľudu v roku 2020.
Celé telo článku je uvedené v angličtine nižšie.
Diferenciálne súkromie (DP) je matematická definícia súkromia navrhnutá Cynthiou Dworkovou a kolegami v roku 2006. Výpočet spĺňa rozdielne súkromie, ak pridanie alebo odstránenie akéhokoľvek jednotlivca zo vstupu zmení výstup nanajvýš o malú, kvantifikovateľnú hodnotu. Výsledok: analytik môže získať súhrnné poznatky, ale nevie povedať, či k údajom prispela nejaká konkrétna osoba.
Intuícia
Predstavte si prieskum s otázkou: „Užili ste drogu X v minulom roku?“ Ak zverejníme presný počet, útočník, ktorý pozná odpoveď všetkých okrem vás, môže odvodiť vašu. Ak do počtu pred zverejnením pripočítame starostlivo kalibrovaný náhodný šum, útočník si nemôže byť istý, či za rozdiel zodpovedá šum alebo vaša odpoveď.
Množstvo šumu je určené parametrom s názvom epsilon (ε) — rozpočet na ochranu osobných údajov. Nižšie epsilon = viac hluku = viac súkromia. Vyššie epsilon = menej hluku = viac užitočných údajov. Voľba epsilon je politickým rozhodnutím, nie technickým rozhodnutím.
Matematická záruka
Formálne: algoritmus A je ε-rozdielne súkromný, ak pre akékoľvek dva susedné súbory údajov DXPLZ19DifferX v 20XPLZ19D záznam) a ľubovoľný výstup S:
P[A(D) ∈ S] ≤ e^ε · P[A(D') ∈ S]
Pravdepodobnosť, že algoritmus na dátovej množine XPLZ29S vytvorí výstup XPLXZ2XZ3 D nie je viac ako e^ε násobok pravdepodobnosti na mierne odlišnom súbore údajov D'. Pre malé ε (0,1, 0,5, 1) je e^ε blízko 1, čo znamená, že správanie algoritmu sotva závisí od zahrnutia jedného záznamu.
Dva hlavné mechanizmy
- Laplaceov mechanizmus distribúcie hluku. Používa sa pre numerické dotazy: počty, súčty, priemery.
- Exponenciálny mechanizmus. Používa sa pre dopyty vracajúce kategorické odpovede (napr. „ktorá kategória mala najviac záznamov?“). Vyberá odpovede s pravdepodobnosťou váženou užitočnosťou a tlmenou epsilon.
- Gaussov mechanizmus. Ako Laplace, ale používa normálne rozložený šum; páry so súvisiacou (ε, δ)-diferenciálnou definíciou súkromia. Bežné v aplikáciách ML.
Lokálne verzus globálne DP
Dva modely nasadenia:
- Globálne/Centrálne DP. Dôveryhodný kurátor zhromažďuje nespracované údaje a potom zverejní vydanie. Kurátor vidí všetko. Používa US Census Bureau.
- Local DP. Každý používateľ pridá k svojim údajom šum pred ich odoslaním kurátorovi. Kurátor nikdy nevidí nespracované údaje. Menšia užitočnosť na ε, ale oveľa silnejší model dôvery. Používané spoločnosťou Apple, RAPPOR.
spoločnosti Google nasadenia v reálnom svete
- Apple (2016) – miestne DP na písanie analýz, frekvenciu emodži a ďalšiu telemetriu na zariadení. Náhodný šum pridaný na používateľa pred odoslaním.
- Google RAPPOR (2014) – miestne DP pre štatistiky používania prehliadača Chrome.
- US Census Bureau (2020 Census) – celosvetové vydanie 2020 DP za celé sčítanie ľudu Najväčšie nasadenie DP v histórii.
- Microsoft — DP pre rôzne telemetrické programy Office a Windows.
- OpenAI — Techniky DP v niektorých tréningových kanáloch na obmedzenie zapamätania jednotlivých záznamov. Prehľady DP pre zapojenie publika.
- Uber, Lyft, DoorDash — DP pre rôzne analytické tabule vystavené tretím stranám.
Rozpočet na ochranu osobných údajov
epsilon spotrebuje niekoľko dotazov. Po vyčerpaní rozpočtu nie je možné odpovedať na žiadne ďalšie otázky bez porušenia záruky ochrany osobných údajov. Toto je jedna z najťažších prevádzkových vlastností DP: databáza, ktorá v priebehu času dostáva veľa dotazov, hromadí stratu súkromia a rozpočet je potrebné prideľovať opatrne medzi dotazy.
Niektoré nasadenia používajú zosilnenie ochrany súkromia pomocou podvzorkovania – iba spúšťanie každého dotazu na náhodnú podmnožinu spotreby používateľov. výsledky.
DP pre strojové učenie
Jedna z aplikácií s najvyšším dosahom: trénovanie modelov ML s rozdielnym súkromím. Štandardná technika je DP-SGD (Differentially Private Stochastic Gradient Descent): zostrihnite prechody na príklad na maximálnu normu, pridajte gaussovský šum k priemeru, urobte krok gradientu. Výsledný model má preukázateľné vlastnosti ochrany súkromia – nedokáže si zapamätať žiadny individuálny príklad školenia presahujúci malé ohraničené množstvo.
DP-SGD sa používa na trénovanie modelov údajov o zdravotnom stave pacienta, finančných transakciách a iných citlivých súboroch údajov. Náklady na presnosť sú skutočné (modely DP sú zvyčajne o niekoľko percentuálnych bodov horšie ako ekvivalenty bez DP), ale záruka ochrany osobných údajov je prísna.
Ak DP zlyhá,
- Spotreba rozpočtu na dotaz. Reálne nasadenia často spúšťajú dopyty, ktoré prekračujú prísne teoretické hranice. Praktické použitie ohýba matematiku; O tom, či je ohyb akceptovateľný, sa diskutuje.
- Epsilon voľba. Výber epsilonu je hodnotový úsudok. Rôzne možnosti znamenajú rôzne úrovne ochrany osobných údajov v reálnom svete; neexistuje žiadna objektívna „správna“ odpoveď.
- Composition. Kombinácia viacerých dopytov DP znásobuje stratu súkromia. Ľahko podhodnotiť celkový rozpočet.
- Nechráni pred prepojením s externými údajmi. Ak má útočník o vás samostatné informácie, vydanie výstupu DP v kombinácii s týmito údajmi môže niekedy stále znova identifikovať.
DP je teraz regulačným nástrojom v oblasti ochrany osobných údajov28XX2 DPX v jurisdikcii ochrany osobných údajov legislatívy. Rozhodnutie amerického úradu pre sčítanie ľudu v roku 2020 použiť DP na zverejnenie je najvýraznejším príkladom; právne a etické diskusie o prijateľných úrovniach epsilon formovali spôsob, akým sa rámec používa vo výrobe. Technické a politické komunity sa naďalej zbližujú na osvedčených postupoch.
Často kladené otázky
- Čo v praxi znamená epsilon = 0,5?
- Nízka hodnota epsilon (≤ 1) poskytuje silné súkromie – pridanie alebo odstránenie jednotlivca sotva zmení výstup. Miestne DP spoločnosti Apple používa hodnoty epsilon v rozsahu jedného čísla na dotaz. Americké sčítanie ľudu použilo väčší epsilon (okolo 2-12 v závislosti od súboru údajov) z dôvodov užitočnosti, čo vyvolalo významnú akademickú diskusiu.
- Je rozdielne súkromie neprelomiteľné?
- Matematická záruka je preukázateľná. Chyby implementácie, nesprávna analýza citlivosti, vedľajšie kanály a vyčerpanie rozpočtu môžu oslabiť alebo narušiť ochranu. Robené správne, DP poskytuje prísne súkromie; vykonané nesprávne, poskytuje falošnú dôveru.
- Môžem použiť DP sám?
- Áno, prostredníctvom knižníc: knižnica diferenciálnej ochrany osobných údajov Google (C++/Java/Go), SmartNoise od spoločnosti Microsoft, OpenDP, Opacus (PyTorch DP-SGD), Tensorflow Privacy. Knižnice zvládajú matematiku; výber epsilon a overenie analýzy citlivosti je inžinierska práca.
- Spomaľuje DP veci?
- Pridáva miernu výpočtovú réžiu (generovanie šumu, orezávanie gradientu v DP-SGD). Väčšie náklady sú štatistické: potrebujete viac údajov, aby ste zachovali rovnakú presnosť, keď sa pridá šum.
- Ako sa DP líši od anonymizácie?
- Tradičná anonymizácia (odstraňovanie mien, zovšeobecňovanie polí) bola opakovane porazená útokmi na opätovnú identifikáciu. DP poskytuje matematickú záruku, nie len zahmlievanie. „Anonymizované“ údaje nemajú žiadne preukázateľné súkromie; Dáta chránené DP áno, parametrizované pomocou epsilon.