aggregate + Laplace noise → ε-DPno individual reconstructable

الخصوصية التفاضلية

11 دقيقة قراءةخصوصية

الخصوصية التفاضلية هي إطار إحصائي صارم يسمح للمؤسسات بنشر البيانات المجمعة - الأعداد والمتوسطات ونماذج التعلم الآلي - مع ضمانات رياضية بعدم إمكانية إجراء هندسة عكسية للمساهمين الأفراد. إنه المحرك وراء تحليلات الكتابة من Apple، وقياس استخدام Chrome عن بعد من Google، وإصدار التعداد السكاني الأمريكي لعام 2020.

يتم توفير نص المقالة الكامل باللغة الإنجليزية أدناه.

الخصوصية التفاضلية (DP) هو تعريف رياضي للخصوصية اقترحته سينثيا دورك وزملاؤها في عام 2006. يرضي الحساب الخصوصية التفاضلية إذا كانت إضافة أو إزالة أي فرد من المدخلات تؤدي إلى تغيير المخرجات بمقدار صغير وقابل للقياس على الأكثر. النتيجة: يمكن للمحلل استخلاص رؤى مجمعة، لكنه لا يستطيع معرفة ما إذا كان أي شخص معين قد ساهم في البيانات.

الحدس

تخيل استطلاعًا يسأل "هل استخدمت العقار X في العام الماضي؟" إذا قمنا بنشر العدد الدقيق، فيمكن للمهاجم الذي يعرف إجابات الجميع باستثناء إجابتك أن يستنتج إجابتك. إذا أضفنا ضجيجًا عشوائيًا تمت معايرته بعناية إلى العدد قبل النشر، فلن يتمكن المهاجم من التأكد مما إذا كان الضجيج أو إجابتك مسؤولة عن الفرق.

يتم تحديد مقدار الضجيج بواسطة معلمة تسمى epsilon (ε) - ميزانية الخصوصية. إبسيلون أقل = المزيد من الضوضاء = المزيد من الخصوصية. إبسيلون أعلى = ضوضاء أقل = بيانات أكثر فائدة. يعد اختيار epsilon قرارًا سياسيًا، وليس قرارًا تقنيًا.

الضمان الرياضي

رسميًا: خوارزمية A تكون خاصة بشكل تفاضلي إذا كانت لأي مجموعتي بيانات متجاورتين D وD' (تختلفان في سجل واحد) وأي مخرجات S:

P[A(D) ∈ S] ≥ e^ε · P[A(D') ∈ S]

احتمال أن تنتج الخوارزمية مخرجات S في مجموعة البيانات D ليست أكثر من e^ε يضاعف الاحتمالية في مجموعة البيانات المختلفة قليلاً D'. بالنسبة لـ ε الصغيرة (0.1، 0.5، 1)، تكون e^ε قريبة من 1، مما يعني أن سلوك الخوارزمية بالكاد يعتمد على تضمين أي سجل فردي.

آليتان رئيسيتان

  • Lآلية مكان. أضف ضوضاء من توزيع لابلاس تم ضبطه وفقًا لحساسية الاستعلام. تستخدم للاستعلامات الرقمية: الأعداد والمجاميع والمتوسطات.
  • آلية الأسية. تستخدم للاستعلامات التي تعرض إجابات فئوية (على سبيل المثال، "ما هي الفئة التي تحتوي على أكبر عدد من الإدخالات؟"). يختار الإجابات ذات الاحتمالية الموزونة حسب المنفعة والمخففة بواسطة epsilon.
  • Gaussian آلية. مثل لابلاس ولكنه يستخدم الضوضاء الموزعة بشكل طبيعي؛ أزواج مع تعريف الخصوصية التفاضلية (ε، δ). شائع في تطبيقات تعلم الآلة.

Local vs global DP

نموذجان للنشر:

  • Global / Central DP. يجمع المنسق الموثوق به البيانات الأولية، ثم ينشر إصدارًا يحافظ على DP. يرى المنسق كل شيء. يستخدم من قبل مكتب الإحصاء الأمريكي.
  • Local DP. يضيف كل مستخدم ضجيجًا إلى بياناته قبل إرسالها إلى المنسق. لا يرى المنسق البيانات الأولية أبدًا. فائدة أقل لكل نموذج ثقة ولكن أقوى بكثير. تستخدمه شركة Apple، RAPPOR.

عمليات النشر في العالم الحقيقي

  • Apple (2016) - DP المحلي لكتابة التحليلات وتكرار الرموز التعبيرية وغيرها من أدوات القياس عن بعد على الجهاز. تمت إضافة ضوضاء عشوائية لكل مستخدم قبل الإرسال.
  • Google RAPPOR (2014) — DP المحلي لإحصاءات استخدام Chrome.
  • US Census Bureau (2020 Census) — DP العالمي المطبق على إصدار التعداد السكاني العشري لعام 2020 بأكمله. أكبر عملية نشر DP في التاريخ.
  • Microsoft — DP للعديد من برامج القياس عن بعد لـ Office وWindows.
  • OpenAI — تقنيات DP في بعض مسارات التدريب للحد من حفظ السجلات الفردية.
  • LinkedIn — DP لتقارير تفاعل الجمهور.
  • Uber وLyft وDoorDash — DP للوحات المعلومات التحليلية المختلفة المعرضة لأطراف ثالثة.

ميزانية الخصوصية

يستهلك كل استعلام بعضًا من epsilon. بعد استنفاد الميزانية، لا يمكن الرد على المزيد من الاستفسارات دون انتهاك ضمان الخصوصية. هذه واحدة من أصعب الخصائص التشغيلية لـ DP: قاعدة البيانات التي تحصل على العديد من الاستعلامات بمرور الوقت تؤدي إلى تراكم فقدان الخصوصية، ويجب تخصيص الميزانية بعناية عبر الاستعلامات.

تستخدم بعض عمليات النشر تضخيم privacy عن طريق أخذ عينات فرعية - تشغيل كل استعلام فقط على مجموعة فرعية عشوائية من المستخدمين - مما يقلل من استهلاك إبسيلون على حساب التباين في النتائج.

DP للتعلم الآلي

أحد التطبيقات ذات التأثير الأعلى: تدريب نماذج تعلم الآلة مع الخصوصية التفاضلية. التقنية القياسية هي DP-SGD (نسب التدرج العشوائي الخاص التفاضلي): قص التدرجات لكل مثال إلى الحد الأقصى، وإضافة ضوضاء غاوسية إلى المتوسط، والقيام بخطوة التدرج. يتمتع النموذج الناتج بخصائص خصوصية يمكن إثباتها - فهو لا يمكنه حفظ أي مثال تدريبي فردي يتجاوز كمية صغيرة محددة. وقد تم استخدام

DP-SGD لتدريب النماذج على بيانات صحة المرضى، والمعاملات المالية، ومجموعات البيانات الحساسة الأخرى. تكلفة الدقة حقيقية (عادةً ما تكون نماذج DP أسوأ ببضع نقاط مئوية من معادلاتها غير DP) ولكن ضمان الخصوصية صارم.

حيث تفشل DP

  • استهلاك ميزانية الاستعلام. غالبًا ما تقوم عمليات النشر في العالم الحقيقي بتشغيل استعلامات تتجاوز الحدود النظرية الصارمة. الاستخدام العملي يثني الرياضيات. ما إذا كان الانحناء مقبولًا هو أمر محل نقاش.
  • Epsilon Choice. اختيار إبسيلون هو حكم قيم. تشير الاختيارات المختلفة إلى مستويات خصوصية مختلفة في العالم الحقيقي؛ لا توجد إجابة "صحيحة" موضوعية.
  • Composition. يؤدي الجمع بين استعلامات DP المتعددة إلى مضاعفة فقدان الخصوصية. من السهل التقليل من إجمالي الميزانية.
  • لا يحمي من الارتباط بالبيانات الخارجية. إذا كان لدى المهاجم معلومات منفصلة عنك، فيمكن في بعض الأحيان إعادة تحديد إصدار مخرجات DP مع تلك البيانات.

DP أصبح الآن أداة تنظيمية

تشير العديد من الولايات القضائية إلى DP في الخصوصية التشريع. يعد قرار مكتب الإحصاء الأمريكي لعام 2020 باستخدام DP للإصدارات هو المثال الأكثر شهرة؛ لقد شكلت المناقشات القانونية والأخلاقية حول مستويات إبسيلون المقبولة كيفية استخدام الإطار في الإنتاج. تواصل المجتمعات الفنية والسياسية التقارب حول أفضل الممارسات.

الأسئلة المتداولة

ماذا يعني إبسيلون = 0.5 في الممارسة العملية؟
يوفر الإبسيلون المنخفض (≥ 1) خصوصية قوية - فإضافة أو إزالة أي فرد بالكاد يؤدي إلى تغيير المخرجات. يستخدم DP المحلي لشركة Apple قيم epsilon في نطاق مكون من رقم واحد لكل استعلام. استخدم التعداد السكاني الأمريكي إبسيلونًا أكبر (حوالي 2-12 اعتمادًا على مجموعة البيانات) لأسباب تتعلق بالمنفعة، مما أدى إلى إثارة جدل أكاديمي كبير.
هل الخصوصية التفاضلية غير قابلة للكسر؟
الضمان الرياضي يمكن إثباته. قد تؤدي أخطاء التنفيذ، وتحليل الحساسية غير الصحيح، والقنوات الجانبية، واستنفاد الميزانية إلى إضعاف الحماية أو كسرها. إذا تم تنفيذه بشكل صحيح، يوفر DP خصوصية صارمة؛ إذا تم القيام به بشكل غير صحيح، فإنه يوفر ثقة زائفة.
هل يمكنني استخدام DP بنفسي؟
نعم، من خلال المكتبات: مكتبة الخصوصية التفاضلية من Google (C++/Java/Go)، وSmartNoise من Microsoft، وOpenDP، وOpacus (PyTorch DP-SGD)، وTensorflow Privacy. المكتبات تتعامل مع الرياضيات. اختيار إبسيلون والتحقق من صحة تحليل الحساسية هو العمل الهندسي.
هل يبطئ DP الأمور؟
يضيف نفقات حسابية متواضعة (توليد الضوضاء، وقص التدرج في DP-SGD). التكلفة الأكبر هي إحصائية: فأنت بحاجة إلى المزيد من البيانات للحفاظ على نفس الدقة عند إضافة الضوضاء.
كيف يختلف DP عن إخفاء الهوية؟
تم هزيمة إخفاء الهوية التقليدي (إزالة الأسماء، وتعميم الحقول) بشكل متكرر من خلال هجمات إعادة تحديد الهوية. يوفر DP ضمانًا رياضيًا، وليس مجرد تشويش. البيانات "مجهولة المصدر" ليس لها خصوصية يمكن إثباتها؛ البيانات المحمية بواسطة DP، يتم تحديد معلماتها بواسطة epsilon.
شرح الخصوصية التفاضلية: كيف تشارك Apple وGoogle ومكتب الإحصاء الأمريكي الإحصائيات دون مشاركتك