Differentiële privacy
Differentiële privacy is het rigoureuze statistische raamwerk waarmee organisaties geaggregeerde gegevens (tellingen, gemiddelden, machine-learning-modellen) kunnen publiceren met wiskundige garanties dat individuele bijdragers niet kunnen worden teruggevonden. Het is de motor achter de typanalyses van Apple, de Chrome-gebruikstelemetrie van Google en de US Census-release van 2020.
De volledige artikeltekst vindt u hieronder in het Engels.
Differentiële privacy (DP) is een wiskundige definitie van privacy voorgesteld door Cynthia Dwork en collega's in 2006. Een berekening voldoet aan differentiële privacy als het toevoegen of verwijderen van een enkel individu uit de invoer de uitvoer met maximaal een kleine, kwantificeerbare hoeveelheid verandert. Het resultaat: een analist kan geaggregeerde inzichten verkrijgen, maar kan niet zeggen of een specifieke persoon heeft bijgedragen aan de gegevens.
De intuïtie
Stel je een enquête voor waarin wordt gevraagd: "Hebt u het afgelopen jaar medicijn X gebruikt?" Als we de exacte telling publiceren, kan een aanvaller die het antwoord van iedereen kent, behalve het jouwe, het jouwe afleiden. Als we vóór publicatie zorgvuldig gekalibreerde willekeurige ruis aan de telling toevoegen, weet de aanvaller niet zeker of de ruis of uw antwoord het verschil verklaart.
De hoeveelheid ruis wordt bepaald door een parameter genaamd epsilon (ε): het privacybudget. Lagere epsilon = meer ruis = meer privacy. Hogere epsilon = minder ruis = meer bruikbare gegevens. De keuze voor epsilon is een beleidsbeslissing, geen technische beslissing.
De wiskundige garantie
Formeel: een algoritme A is ε-differentieel privé als voor twee aangrenzende datasets D en D' (verschillend in één record) en elke uitvoer S:
P[A(D) ∈ S] ≤ e^ε · P[A(D') ∈ S]
De kans dat het algoritme output S produceert op dataset D is niet meer dan e^ε maal de waarschijnlijkheid op de iets andere dataset D'. Voor kleine ε (0,1, 0,5, 1) ligt e^ε dicht bij 1, wat betekent dat het gedrag van het algoritme nauwelijks afhankelijk is van de opname van een enkel record.
Ttwee hoofdmechanismen
- Laplace-mechanisme. Voeg ruis toe van een Laplace-distributie die is geschaald op basis van de gevoeligheid van de query. Gebruikt voor numerieke zoekopdrachten: tellingen, sommen, gemiddelden.
- Exponentieel mechanisme. Gebruikt voor zoekopdrachten die categorische antwoorden opleveren (bijvoorbeeld "welke categorie had de meeste vermeldingen?"). Selecteert antwoorden met waarschijnlijkheid gewogen op basis van bruikbaarheid en gedempt door epsilon.
- Gaussisch mechanisme. Net als Laplace, maar gebruikt normaal verdeelde ruis; paren met de gerelateerde (ε, δ)-differentiële-privacydefinitie. Gebruikelijk in ML-toepassingen.
Laal versus mondiaal DP
Ttwee implementatiemodellen:
- Globaal/Centraal DP. Een vertrouwde curator verzamelt onbewerkte gegevens en publiceert vervolgens een DP-behoudende release. De curator ziet alles. Gebruikt door het US Census Bureau.
- Locaal DP. Elke gebruiker voegt ruis toe aan zijn gegevens voordat deze naar de curator wordt verzonden. De curator ziet nooit ruwe data. Minder nut per ε maar veel sterker vertrouwensmodel. Gebruikt door Apple, Google's RAPPOR.
Real-world implementaties
- Apple (2016) - lokale DP voor typanalyse, emoji-frequentie en andere telemetrie op het apparaat. Willekeurige ruis toegevoegd per gebruiker vóór indiening.
- Google RAPPOR (2014) - lokale DP voor Chrome-gebruiksstatistieken.
- US Census Bureau (2020 Census) - wereldwijde DP toegepast op de volledige tienjaarlijkse censusversie van 2020. De grootste DP-implementatie in de geschiedenis.
- Microsoft — DP voor verschillende Office- en Windows-telemetrieprogramma's.
- OpenAI — DP-technieken in sommige trainingspijplijnen om het onthouden van individuele records te beperken.
- LinkedIn — DP voor Rapporten over doelgroepbetrokkenheid.
- Uber, Lyft, DoorDash - DP voor verschillende analysedashboards die aan derden worden getoond.
Het privacybudget
Elke zoekopdracht verbruikt wat epsilon. Nadat een budget is uitgeput, kunnen er geen vragen meer worden beantwoord zonder de privacygarantie te schenden. Dit is een van de moeilijkste operationele eigenschappen van DP: een database die in de loop van de tijd veel zoekopdrachten ontvangt, leidt tot verlies van privacy, en het budget moet zorgvuldig over de zoekopdrachten worden verdeeld.
Sommige implementaties gebruiken privacyversterking door subsampling, waarbij elke zoekopdracht alleen wordt uitgevoerd op een willekeurige subset van gebruikers, waardoor het epsilon-verbruik wordt verminderd ten koste van de variantie in de resultaten.
DP voor machinaal leren
Een van de toepassingen met de grootste impact: het trainen van ML-modellen met differentiële privacy. De standaardtechniek is DP-SGD (Differentially Private Stochastic Gradient Descent): clip gradiënten per voorbeeld tot een maximale norm, voeg Gaussiaanse ruis toe aan het gemiddelde, voer de gradiëntstap uit. Het resulterende model heeft aantoonbare privacy-eigenschappen; het kan geen enkel individueel trainingsvoorbeeld onthouden dat verder gaat dan een klein begrensd aantal.
DP-SGD is gebruikt om modellen te trainen op het gebied van de gezondheidsgegevens van patiënten, financiële transacties en andere gevoelige datasets. De nauwkeurigheidskosten zijn reëel (DP-modellen zijn doorgaans een paar procentpunten slechter dan niet-DP-equivalenten), maar de privacygarantie is rigoureus.
Waar DP faalt
- Per-query budgetverbruik. Real-world implementaties voeren vaak query's uit die de strikte theoretische grenzen overschrijden. Praktisch gebruik verdraait de wiskunde; of de bocht acceptabel is, wordt besproken.
- Epsilon-keuze. Het kiezen van epsilon is een waardeoordeel. Verschillende keuzes impliceren verschillende privacyniveaus in de echte wereld; er is geen objectief "juist" antwoord.
- Composition. Het combineren van meerdere DP-query's vermenigvuldigt het privacyverlies. Makkelijk om het totale budget te onderschatten.
- Beschermt niet tegen koppeling met externe data. Als een aanvaller aparte informatie over jou heeft, kan DP-output release in combinatie met die data soms toch opnieuw identificeren.
DP is nu een regelgevend hulpmiddel
Verschillende rechtsgebieden verwijzen naar DP in de privacywetgeving. Het Census-besluit van het US Census Bureau uit 2020 om DP te gebruiken voor releases is het meest spraakmakende voorbeeld; de juridische en ethische debatten over aanvaardbare epsilon-niveaus hebben bepaald hoe het raamwerk in de productie wordt gebruikt. De technische en beleidsgemeenschappen blijven convergeren op het gebied van best practices.
Veelgestelde vragen
- Wat betekent epsilon = 0,5 in de praktijk?
- Lage epsilon (≤ 1) biedt sterke privacy; het toevoegen of verwijderen van een persoon verandert nauwelijks de uitvoer. De lokale DP van Apple gebruikt epsilon-waarden in een bereik van één cijfer per zoekopdracht. De US Census gebruikte grotere epsilon (ongeveer 2-12, afhankelijk van de dataset) om nutsredenen, wat leidde tot aanzienlijke academische discussies.
- Is differentiële privacy onbreekbaar?
- De wiskundige garantie is aantoonbaar. Implementatiefouten, onjuiste gevoeligheidsanalyses, nevenkanalen en budgetuitputting kunnen de bescherming verzwakken of breken. Als het correct wordt uitgevoerd, biedt DP strenge privacy; als het verkeerd wordt gedaan, geeft het vals vertrouwen.
- Kan ik DP zelf gebruiken?
- Ja, via bibliotheken: de differentiële privacybibliotheek van Google (C++/Java/Go), Microsoft's SmartNoise, OpenDP, Opacus (PyTorch DP-SGD), Tensorflow Privacy. De bibliotheken zorgen voor de wiskunde; het kiezen van epsilon en het valideren van de gevoeligheidsanalyse is het engineeringwerk.
- Vertraagt DP de zaken?
- Voegt een bescheiden rekenkundige overhead toe (ruisgeneratie, gradiëntclipping in DP-SGD). De hogere kosten zijn statistisch: je hebt meer gegevens nodig om dezelfde nauwkeurigheid te behouden als er ruis wordt toegevoegd.
- Hoe verschilt DP van anonimisering?
- Traditionele anonimisering (namen verwijderen, velden generaliseren) is herhaaldelijk verslagen door heridentificatieaanvallen. DP biedt een wiskundige garantie, niet slechts een verduistering. "Geanonimiseerde" gegevens hebben geen aantoonbare privacy; DP-beveiligde gegevens wel, geparametreerd door epsilon.