Информационная безопасность
Privacy Engineering: GDPR и Privacy by Design
2018 год. Facebook Cambridge Analytica. 87 миллионов пользователей. Психологические профили на основе лайков. Данные использованы для таргетированной политической рекламы в президентских выборах. Facebook собрала эти данные 'на всякий случай', годами. GDPR и Privacy by Design существуют для предотвращения именно этого: собирай только что нужно, храни только сколько нужно.
- Cambridge Analytica 2018: 87M психологических профилей из Facebook лайков. Data minimization предотвратила бы это
- Netflix Prize 2006: 100M анонимных просмотров -> 96% пользователей идентифицированы через IMDb. Re-identification атака
- Meta GDPR штрафы: 2019 50M EUR (France), 2022 265M EUR (Ireland), 2023 1.2B EUR. Сумма: >1.5 млрд евро
GDPR: правовая основа и технические обязательства
2018 год. Введение GDPR. 2019: British Airways - первый крупный штраф, 183M фунтов (1.5% оборота) за утечку данных 500 000 пассажиров. 2022: Meta - 265M евро за Facebook Data Breach. 2023: Meta снова - 1.2 млрд евро за передачу данных европейских пользователей в США без адекватных гарантий. GDPR - не compliance checkbox, это изменение архитектуры систем. Privacy by Design - статья 25: privacy должна быть встроена в систему, не добавлена post-factum.
Data Protection Officer (DPO) обязателен: публичные органы, массовая обработка sensitive данных (здоровье, биометрия), систематический мониторинг. DPO должен быть независим от IT management. Нарушения GDPR: два уровня штрафов. Низший: 10M евро или 2% оборота. Высший: 20M евро или 4% оборота (за нарушение основных принципов, consent, права субъектов).
Пользователь запрашивает удаление аккаунта. Данные в: PostgreSQL, ElasticSearch для поиска, S3 backup, Redis кеш. Что достаточно?
Data Minimization: собирать только необходимое
Facebook Cambridge Analytica 2018. 87 млн пользователей. Facebook собирала: лайки, друзья, политические взгляды, психологические профили. Данные переданы Cambridge Analytica без явного согласия. Если бы Facebook применяла data minimization - меньше данных = меньше утечка = меньше impact. Data minimization: не собирать данные 'на всякий случай'. Каждое поле в форме требует обоснования.
Data Inventory (ROPA - Record of Processing Activities) обязателен по GDPR Article 30. Для каждого типа данных: что, зачем, где хранится, кто имеет доступ, как долго. Инструменты: OneTrust, BigID автоматически сканируют системы и строят ROPA. Без ROPA нельзя ответить на DSAR за 30 дней.
E-commerce сайт. Регистрация требует: имя, email, дата рождения, номер телефона (обязательно). Проблема?
Анонимизация и псевдонимизация
2006 год. Netflix Prize. Netflix опубликовал 'анонимизированный' датасет 100 млн просмотров. Arvind Narayanan и Vitaly Shmatikoff: сопоставили с публичными IMDb рецензиями и de-anonymized 96% пользователей. 2008: AOL Search Data. 650 000 анонимных пользователей. NY Times нашёл Thelma Arnold по её поисковым запросам. k-anonymity, l-diversity, differential privacy - инструменты настоящей анонимизации.
Netflix de-anonymization иск завершён 9M долларов settlement. Netflix отменила Netflix Prize 2. Урок: датасеты с high-dimensional data практически невозможно анонимизировать через naive suppression/generalization. Differential Privacy - математически строгая гарантия: даже с дополнительными знаниями об одном человеке, нельзя определить присутствует ли он в датасете.
Медицинская компания публикует 'анонимизированный' датасет: возраст (точный), пол, диагноз, город. Проблема?
Differential Privacy: математически строгая приватность
2006 год. Cynthia Dwork формализовала Differential Privacy (DP). 2014: Apple начала использовать DP для iOS keyboard suggestions. 2020: US Census впервые использовал DP для защиты данных переписи. Apple применяет DP для Health, Safari suggestions, QuickType. Google использует RAPPOR (DP для Chrome telemetry). DP даёт математическую гарантию: результат запроса не раскрывает присутствие любого конкретного человека.
Apple Local DP (epsilon per feature): контакты - 4, emoji - 8, health категории - 2. Чем ниже epsilon, тем сильнее приватность. На уровне всей системы Apple добавляет daily budget: не более N запросов в день от одного устройства. OpenDP library (Harvard/Microsoft) и Google DP library - production-ready реализации.
Удаление имён и email делает данные анонимными
Quasi-identifiers (возраст, пол, местоположение, время событий) часто уникально идентифицируют человека. Настоящая анонимизация требует k-anonymity, l-diversity или Differential Privacy
Netflix Prize 2006: анонимный датасет без имён -> 96% пользователей de-anonymized через IMDb. 87% американцев уникально идентифицируются по DOB+gender+ZIP (Sweeney 2002). Удаление прямых идентификаторов - необходимое но недостаточное условие.
DP механизм использует epsilon=0.1 vs epsilon=10. Что верно?
Итоги
- GDPR: lawful basis для каждой обработки, right to erasure (cascade все системы), 72ч breach notification, DPO обязателен для high-risk
- Data Minimization: каждое поле с обоснованием. Retention policy. ROPA (Article 30) - инвентарь всех данных
- Anonymization: удаление имён недостаточно. k-anonymity, l-diversity для датасетов. Псевдонимизация != анонимизация
- Differential Privacy: математическая гарантия. epsilon трейдофф приватность/точность. Apple, Google, US Census используют в production
Связанные темы
Privacy Engineering пересекается с шифрованием, контролем доступа и ML безопасностью:
- Шифрование данных — Шифрование at-rest и in-transit - техническая мера privacy по GDPR
- Безопасность AI/ML — Training data требует GDPR compliance; DP в federated learning
- Аутентификация и авторизация — Access control определяет кто видит персональные данные
Вопросы для размышления
- Почему soft delete (is_deleted=true) не выполняет требование GDPR right to erasure?
- Как k-anonymity защищает от re-identification и в чём её ограничения?
- Что означает 'privacy by design' на практике при проектировании новой функции?