aggregate + Laplace noise → ε-DPno individual reconstructable

Quyền riêng tư khác biệt

11 đọc tối thiểuSự riêng tư

Quyền riêng tư khác biệt là khung thống kê nghiêm ngặt cho phép các tổ chức xuất bản dữ liệu tổng hợp — số lượng, mức trung bình, mô hình học máy — với sự đảm bảo về mặt toán học rằng từng người đóng góp không thể bị đảo ngược kỹ thuật. Đó là công cụ đằng sau phân tích đánh máy của Apple, đo từ xa việc sử dụng Chrome của Google và bản phát hành Điều tra dân số Hoa Kỳ năm 2020.

Toàn bộ nội dung bài viết được cung cấp bằng tiếng Anh bên dưới.

Quyền riêng tư khác biệt (DP) là một định nghĩa toán học về quyền riêng tư do Cynthia Dwork và các đồng nghiệp đề xuất vào năm 2006. Một phép tính đáp ứng quyền riêng tư khác biệt nếu việc thêm hoặc xóa bất kỳ cá nhân nào khỏi đầu vào sẽ làm thay đổi đầu ra tối đa một lượng nhỏ có thể định lượng được. Kết quả: một nhà phân tích có thể trích xuất những hiểu biết tổng hợp nhưng không thể biết liệu có người cụ thể nào đã đóng góp vào dữ liệu hay không.

Trực giác

Hãy tưởng tượng một cuộc khảo sát hỏi "bạn có sử dụng ma túy X trong năm ngoái không?" Nếu chúng tôi công bố số lượng chính xác, kẻ tấn công biết câu trả lời của mọi người ngoại trừ câu trả lời của bạn có thể suy ra câu trả lời của bạn. Nếu chúng tôi thêm tiếng ồn ngẫu nhiên đã được hiệu chỉnh cẩn thận vào số lượng trước khi xuất bản, kẻ tấn công không thể chắc chắn liệu tiếng ồn hay câu trả lời của bạn có tạo nên sự khác biệt hay không.

Lượng nhiễu được xác định bởi một tham số có tên là epsilon (ε) — mức bảo mật. Epsilon thấp hơn = nhiều tiếng ồn hơn = nhiều quyền riêng tư hơn. Epsilon cao hơn = ít tiếng ồn hơn = nhiều dữ liệu hữu ích hơn. Việc lựa chọn epsilon là một quyết định chính sách, không phải là một quyết định kỹ thuật.

Đảm bảo toán học

Chính thức: một thuật toán A là riêng tư ε-khác biệt nếu đối với bất kỳ hai tập dữ liệu liền kề nào DD' (khác nhau trong một bản ghi) và bất kỳ đầu ra nào S:

P[A(D) ∈ S] ≤ e^ε · P[A(D') ∈ S]

Xác suất thuật toán tạo ra đầu ra S trên tập dữ liệu D không lớn hơn e^ε nhân với xác suất trên tập dữ liệu hơi khác một chút D'. Đối với ε nhỏ (0,1, 0,5, 1), e^ε gần bằng 1, nghĩa là hoạt động của thuật toán hầu như không phụ thuộc vào bất kỳ bản ghi nào được đưa vào.

Hai cơ chế chính

  • Cơ chế Laplace. Thêm nhiễu từ phân phối Laplace được điều chỉnh theo độ nhạy của truy vấn. Được sử dụng cho các truy vấn số: số đếm, tổng, giá trị trung bình.
  • cơ chế số mũ. Được sử dụng cho các truy vấn trả về các câu trả lời phân loại (ví dụ: "danh mục nào có nhiều mục nhập nhất?"). Chọn các câu trả lời có xác suất được tính theo tiện ích và bị giảm bớt bởi epsilon.
  • Cơ chế Gaussian. Giống như Laplace nhưng sử dụng nhiễu phân bố chuẩn; cặp với định nghĩa liên quan đến (ε, δ)-vi sai-quyền riêng tư. Phổ biến trong các ứng dụng ML.

Local so với toàn cầu DP

Hai mô hình triển khai:

  • Global / Central DP. Một người quản lý đáng tin cậy thu thập dữ liệu thô, sau đó xuất bản bản phát hành bảo quản DP. Người phụ trách nhìn thấy mọi thứ. Được sử dụng bởi Cục điều tra dân số Hoa Kỳ.
  • Local DP. Mỗi người dùng sẽ thêm nhiễu vào dữ liệu của họ trước khi gửi dữ liệu đó cho người quản lý. Người phụ trách không bao giờ nhìn thấy dữ liệu thô. Ít tiện ích hơn trên mỗi ε nhưng mô hình tin cậy mạnh mẽ hơn nhiều. Được sử dụng bởi Apple, RAPPOR.

Triển khai trong thế giới thực

  • Apple (2016) của Google — DP cục bộ để phân tích cách nhập, tần số biểu tượng cảm xúc và đo từ xa trên thiết bị khác. Tiếng ồn ngẫu nhiên được thêm vào cho mỗi người dùng trước khi gửi.
  • Google RAPPOR (2014) — DP cục bộ cho số liệu thống kê sử dụng Chrome.
  • US Cục điều tra dân số (Điều tra dân số năm 2020) — DP toàn cầu áp dụng cho toàn bộ bản phát hành điều tra dân số mười năm một lần năm 2020. Triển khai DP lớn nhất trong lịch sử.
  • Microsoft — DP cho nhiều chương trình đo từ xa Office và Windows.
  • OpenAI — Kỹ thuật DP trong một số quy trình đào tạo để hạn chế ghi nhớ hồ sơ cá nhân.
  • LinkedIn — DP cho sự tham gia của khán giả báo cáo.
  • Uber, Lyft, DoorDash — DP cho các bảng thông tin phân tích khác nhau được hiển thị cho bên thứ ba.

Ngân sách bảo mật

Mỗi truy vấn tiêu tốn một số epsilon. Sau khi cạn kiệt ngân sách, bạn sẽ không thể trả lời thêm truy vấn nào nữa mà không vi phạm cam kết về quyền riêng tư. Đây là một trong những đặc tính vận hành khó khăn nhất của DP: cơ sở dữ liệu nhận được nhiều truy vấn theo thời gian sẽ gây mất quyền riêng tư và ngân sách cần được phân bổ cẩn thận cho các truy vấn.

Một số hoạt động triển khai sử dụng tính năng khuếch đại privacy bằng cách lấy mẫu con — chỉ chạy từng truy vấn trên một tập hợp con người dùng ngẫu nhiên — giúp giảm mức tiêu thụ epsilon với chi phí chênh lệch trong kết quả.

DP cho machine learning

Một trong những ứng dụng có tác động lớn nhất: đào tạo các mô hình ML với quyền riêng tư khác biệt. Kỹ thuật tiêu chuẩn là DP-SGD (Giảm dần độ dốc ngẫu nhiên riêng tư khác nhau): cắt độ dốc trên mỗi ví dụ thành định mức tối đa, thêm nhiễu Gaussian vào mức trung bình, thực hiện bước chuyển màu. Mô hình kết quả có các đặc tính về quyền riêng tư có thể chứng minh được — nó không thể ghi nhớ bất kỳ ví dụ đào tạo riêng lẻ nào vượt quá một lượng giới hạn nhỏ.

DP-SGD đã được sử dụng để đào tạo các mô hình về dữ liệu sức khỏe bệnh nhân, giao dịch tài chính và các bộ dữ liệu nhạy cảm khác. Chi phí về độ chính xác là có thật (các mô hình DP thường kém hơn vài điểm phần trăm so với các mô hình tương đương không phải DP) nhưng đảm bảo quyền riêng tư rất nghiêm ngặt.

Trường hợp DP không thành công

  • P mức tiêu thụ ngân sách truy vấn. Việc triển khai trong thế giới thực thường chạy các truy vấn vượt quá giới hạn lý thuyết nghiêm ngặt. Sử dụng thực tế bẻ cong toán học; Việc uốn cong có chấp nhận được hay không vẫn đang được tranh luận.
  • Epsilon lựa chọn. Chọn epsilon là một đánh giá có giá trị. Các lựa chọn khác nhau ngụ ý mức độ riêng tư trong thế giới thực khác nhau; không có câu trả lời "đúng" khách quan.
  • Composition. Việc kết hợp nhiều truy vấn DP sẽ làm tăng mức độ mất quyền riêng tư. Dễ dàng đánh giá thấp tổng ngân sách.
  • Không bảo vệ khỏi liên kết với dữ liệu bên ngoài. Nếu kẻ tấn công có thông tin riêng về bạn, bản phát hành đầu ra DP kết hợp với dữ liệu đó đôi khi vẫn có thể nhận dạng lại.

DP hiện là công cụ quản lý

Một số khu vực pháp lý tham chiếu DP trong luật về quyền riêng tư. Quyết định điều tra dân số năm 2020 của Cục điều tra dân số Hoa Kỳ về việc sử dụng DP để phát hành là ví dụ điển hình nhất; các cuộc tranh luận về pháp lý và đạo đức xung quanh mức epsilon có thể chấp nhận được đã định hình cách sử dụng khung này trong sản xuất. Các cộng đồng chính sách và kỹ thuật tiếp tục hội tụ các phương pháp hay nhất.

Câu hỏi thường gặp

Epsilon = 0,5 có nghĩa là gì trong thực tế?
Epsilon thấp (≤ 1) mang lại sự riêng tư cao — việc thêm hoặc xóa bất kỳ cá nhân nào hầu như không thay đổi kết quả. DP cục bộ của Apple sử dụng các giá trị epsilon trong phạm vi một chữ số cho mỗi truy vấn. Cuộc điều tra dân số Hoa Kỳ đã sử dụng epsilon lớn hơn (khoảng 2-12 tùy thuộc vào tập dữ liệu) vì lý do tiện ích, tạo ra cuộc tranh luận học thuật quan trọng.
Quyền riêng tư khác biệt có thể bị phá vỡ không?
Sự đảm bảo về mặt toán học là có thể chứng minh được. Lỗi triển khai, phân tích độ nhạy không chính xác, các kênh phụ và cạn kiệt ngân sách có thể làm suy yếu hoặc phá vỡ khả năng bảo vệ. Thực hiện chính xác, DP cung cấp quyền riêng tư nghiêm ngặt; thực hiện không chính xác, nó mang lại sự tự tin sai lầm.
Tôi có thể tự mình sử dụng DP không?
Có, thông qua các thư viện: thư viện về quyền riêng tư khác biệt của Google (C++/Java/Go), SmartNoise, OpenDP, Opacus (PyTorch DP-SGD) của Microsoft, Tensorflow Privacy. Các thư viện xử lý các phép toán; việc chọn epsilon và xác nhận phân tích độ nhạy là công việc kỹ thuật.
DP có làm mọi thứ chậm lại không?
Thêm chi phí tính toán khiêm tốn (tạo nhiễu, cắt độ dốc trong DP-SGD). Chi phí lớn hơn là về mặt thống kê: bạn cần nhiều dữ liệu hơn để duy trì độ chính xác tương tự khi thêm nhiễu.
DP khác với ẩn danh như thế nào?
Việc ẩn danh truyền thống (xóa tên, khái quát hóa các trường) đã nhiều lần bị đánh bại bởi các cuộc tấn công tái nhận dạng. DP cung cấp sự đảm bảo về mặt toán học chứ không chỉ là sự che giấu. Dữ liệu "ẩn danh" không có quyền riêng tư có thể chứng minh được; Dữ liệu được bảo vệ DP cũng được tham số hóa bởi epsilon.
Giải thích về quyền riêng tư khác biệt: Cách Apple, Google và Cục điều tra dân số Hoa Kỳ chia sẻ số liệu thống kê mà không chia sẻ thông tin về bạn