Confidentialité différentielle
La confidentialité différentielle est le cadre statistique rigoureux qui permet aux organisations de publier des données globales (décomptes, moyennes, modèles d'apprentissage automatique) avec des garanties mathématiques que les contributeurs individuels ne peuvent pas être éliminés par ingénierie inverse. C'est le moteur derrière l'analyse de frappe d'Apple, la télémétrie d'utilisation de Chrome de Google et la publication du recensement américain de 2020.
Le corps complet de l’article est fourni en anglais ci-dessous.
Confidentialité différentielle (DP) est une définition mathématique de la confidentialité proposée par Cynthia Dwork et ses collègues en 2006. Un calcul satisfait à la confidentialité différentielle si l'ajout ou la suppression d'un individu de l'entrée modifie la sortie d'au plus une petite quantité quantifiable. Résultat : un analyste peut extraire des informations globales, mais ne peut pas dire si une personne spécifique a contribué aux données.
L'intuition
Imaginez une enquête demandant « avez-vous consommé la drogue X au cours de la dernière année ? » Si nous publions le décompte exact, un attaquant qui connaît la réponse de tout le monde sauf la vôtre peut en déduire la vôtre. Si nous ajoutons du bruit aléatoire soigneusement calibré au décompte avant la publication, l'attaquant ne peut pas être sûr que le bruit ou votre réponse explique la différence.
La quantité de bruit est déterminée par un paramètre appelé epsilon (ε) — le budget de confidentialité. Epsilon inférieur = plus de bruit = plus d'intimité. Epsilon plus élevé = moins de bruit = plus de données utiles. Le choix d'epsilon est une décision politique, pas technique.
La garantie mathématique
Formellement : un algorithme A est ε-différentiellement privé si pour deux ensembles de données adjacents D et D' (différents par un enregistrement) et toute sortie S:
P[A(D) ∈ S] ≤ e^ε · P[A(D') ∈ S]
La probabilité que l'algorithme produise une sortie S sur l'ensemble de données D n'est pas supérieure à e^ε fois la probabilité sur l'ensemble de données légèrement différent D'. Pour un petit ε (0,1, 0,5, 1), e^ε est proche de 1, ce qui signifie que le comportement de l'algorithme dépend à peine de l'inclusion d'un seul enregistrement.
Teux mécanismes principaux
- Lécanisme de Laplace. Ajout du bruit d'une distribution de Laplace adaptée à la sensibilité de la requête. Utilisé pour les requêtes numériques : comptes, sommes, moyennes.
- Mécanisme exponentiel. Utilisé pour les requêtes renvoyant des réponses catégoriques (par exemple, "quelle catégorie avait le plus d'entrées ?"). Sélectionne les réponses avec une probabilité pondérée par l'utilité et atténuée par epsilon.
- Mécanisme gaussien. Comme Laplace mais utilise un bruit distribué normalement ; s'associe à la définition de confidentialité différentielle (ε, δ) associée. Courant dans les applications ML.
Local vs global DP
Teux modèles de déploiement :
- Global/Central DP. Un conservateur de confiance collecte des données brutes, puis publie une version préservant DP. Le conservateur voit tout. Utilisé par le US Census Bureau.
- Local DP. Chaque utilisateur ajoute du bruit à ses données avant de les envoyer au conservateur. Le conservateur ne voit jamais les données brutes. Moins d'utilité par ε mais un modèle de confiance beaucoup plus fort. Utilisé par Apple, RAPPOR.
Déploiements dans le monde réel
- Apple (2016) de Google — DP local pour l'analyse de saisie, la fréquence des emoji et d'autres télémétries sur l'appareil. Bruit aléatoire ajouté par utilisateur avant la soumission.
- Google RAPPOR (2014) — DP local pour les statistiques d'utilisation de Chrome.
- US Bureau du recensement (recensement 2020) — DP global appliqué à l'ensemble de la publication du recensement décennal de 2020. Le plus grand déploiement DP de l'histoire.
- Microsoft — DP pour divers programmes de télémétrie Office et Windows.
- OpenAI — Techniques DP dans certains pipelines de formation pour limiter la mémorisation des enregistrements individuels.
- LinkedIn — DP pour l'engagement du public. rapports.
- Uber, Lyft, DoorDash — DP pour divers tableaux de bord d'analyse exposés à des tiers.
Le budget de confidentialité
Chaque requête consomme de l'epsilon. Une fois le budget épuisé, plus aucune requête ne peut recevoir de réponse sans rompre la garantie de confidentialité. Il s'agit de l'une des propriétés opérationnelles les plus difficiles de DP : une base de données qui reçoit de nombreuses requêtes au fil du temps accumule des pertes de confidentialité et le budget doit être alloué avec soin entre les requêtes.h2>DP pour l'apprentissage automatique
L'une des applications à plus fort impact : formation de modèles ML avec confidentialité différentielle. La technique standard est DP-SGD (Descente de gradient stochastique différentiellement privée) : coupez les gradients par exemple à une norme maximale, ajoutez du bruit gaussien à la moyenne, effectuez l'étape de gradient. Le modèle résultant possède des propriétés de confidentialité prouvables : il ne peut mémoriser aucun exemple de formation individuel au-delà d'une petite quantité limitée.
DP-SGD a été utilisé pour former des modèles sur les données de santé des patients, les transactions financières et d'autres ensembles de données sensibles. Le coût en termes de précision est réel (les modèles DP sont généralement inférieurs de quelques points de pourcentage à ceux de leurs équivalents non DP), mais la garantie de confidentialité est rigoureuse. L'utilisation pratique déforme les mathématiques ; la question de savoir si le virage est acceptable est débattue.
DP est désormais un outil réglementaire
Plusieurs juridictions font référence à DP dans la législation sur la confidentialité. La décision du recensement de 2020 du US Census Bureau d'utiliser DP pour les diffusions en est l'exemple le plus médiatisé ; les débats juridiques et éthiques autour des niveaux d'epsilon acceptables ont façonné la manière dont le cadre est utilisé en production. Les communautés techniques et politiques continuent de converger vers les meilleures pratiques.
Questions fréquemment posées
- Que signifie epsilon = 0,5 en pratique ?
- Un epsilon faible (≤ 1) offre une forte confidentialité : l'ajout ou la suppression d'un individu ne modifie pratiquement pas la sortie. Le DP local d'Apple utilise des valeurs epsilon dans une plage à un chiffre par requête. Le recensement américain a utilisé un epsilon plus grand (environ 2 à 12 selon l'ensemble de données) pour des raisons d'utilité, générant un débat universitaire important.
- La confidentialité différentielle est-elle incassable ?
- La garantie mathématique est prouvable. Des bugs de mise en œuvre, une analyse de sensibilité incorrecte, des canaux secondaires et un épuisement du budget peuvent affaiblir ou briser la protection. Effectué correctement, DP offre une confidentialité rigoureuse ; mal fait, cela donne une fausse confiance.
- Puis-je utiliser DP moi-même ?
- Oui, via des bibliothèques : la bibliothèque de confidentialité différentielle de Google (C++/Java/Go), SmartNoise de Microsoft, OpenDP, Opacus (PyTorch DP-SGD), Tensorflow Privacy. Les bibliothèques s'occupent des calculs ; Choisir Epsilon et valider l'analyse de sensibilité est le travail d'ingénierie.
- Est-ce que DP ralentit les choses ?
- Ajoute une surcharge de calcul modeste (génération de bruit, écrêtage de dégradé dans DP-SGD). Le coût le plus élevé est statistique : vous avez besoin de plus de données pour conserver la même précision lorsque du bruit est ajouté.
- En quoi la DP est-elle différente de l’anonymisation ?
- L’anonymisation traditionnelle (suppression de noms, généralisation de champs) a été vaincue à plusieurs reprises par des attaques de réidentification. DP fournit une garantie mathématique, pas seulement une obscurcissement. Les données « anonymisées » n'ont aucune confidentialité prouvable ; Les données protégées par DP le font, paramétrées par epsilon.