AI-инжиниринг
AI Ethics и Legal: EU AI Act, copyright, liability - юридическая сторона AI
Цели урока
- Разобрать EU AI Act: risk classification, требования для каждого уровня, timeline
- Понять copyright landscape: обучение на copyrighted данных, ownership AI-output, C2PA
- Освоить bias detection: типы bias, тестирование, fairness метрики
- Применить практический compliance checklist для AI-продукта
2023 год. Samsung разрешает инженерам использовать ChatGPT для ревью кода. Три недели спустя выясняется: в промпты утекли исходный код чипов, внутренние meeting notes и данные о производительности. Samsung немедленно банит ChatGPT корпоративно. Параллельно - Getty Images подаёт иск против Stability AI за несанкционированное использование `12 миллионов` фотографий для обучения Stable Diffusion. В Европе GDPR уже выписал штраф Meta на `1.2 млрд EUR`. AI Ethics - это не митинги за справедливость, это конкретные правовые и технические риски, которые игнорируют только до первого иска.
- Samsung data leak (2023): три инцидента с ChatGPT за три недели - исходный код чипов, встречи, тест-данные. Итог: полный корпоративный бан
- Getty vs Stability AI: иск за `12M` фотографий без лицензии - settled 2025, условия не раскрыты
- Meta GDPR штраф `1.3 млрд` (2023) - крупнейший в истории GDPR, за передачу данных EU-пользователей в США без адекватной защиты
- Amazon AI recruiting tool (2018): система обучена на 10-летних данных о найме - воспроизвела gender bias и была тихо закрыта
Год, когда право об AI стало реальным
Десять лет регулирование AI жило в рекомендациях и этических комитетах. Это быстро изменилось. 27 декабря 2023 года The New York Times подала в федеральный суд иск против OpenAI и Microsoft, утверждая, что миллионы её статей были скопированы для обучения ChatGPT - самое громкое дело об авторском праве эпохи AI, до сих пор не разрешённое. Через несколько месяцев Европейский союз принял AI Act (Regulation 2024/1689, вступил в силу 1 августа 2024) - первый в мире комплексный закон об AI, разделяющий системы на четыре уровня риска от минимального до запрещённого. Поверх GDPR (действует с 2018 года) это превратило AI-комплаенс из приятного дополнения в жёсткое инженерное ограничение.
Предварительные знания
EU AI Act: первый в мире закон об AI
**EU AI Act** вступил в силу 1 августа 2024, поэтапное применение - до 2027. Первое в мире комплексное регулирование AI. Закон классифицирует системы по **уровню риска** - и ставит ответственность за compliance на deployer, а не только на разработчика модели. Штрафы по GPAI-нарушениям уже прописаны: до `35M EUR` или `7%` global turnover - сопоставимо с GDPR.
**General Purpose AI Models (GPAI)** - отдельная категория для фундаментальных моделей (GPT-4, Claude, Llama). С августа 2025 года для них обязательны:
- Техническая документация (model card)
- Соблюдение EU copyright law при обучении
- Раскрытие summary обучающих данных
- Для **systemic risk** моделей (>10^25 FLOP при обучении): adversarial testing, incident reporting, cybersecurity measures
**EU AI Act применяется к ЛЮБОЙ компании, чьи AI-системы работают в EU.** Неважно, где зарегистрирована компания - если продукт доступен в EU, закон применяется. Это аналог GDPR для AI.
**Timeline применения:**
| Дата | Что вступает в силу |
|---|---|
| Февраль 2025 | Запрет unacceptable risk AI-систем |
| Август 2025 | Требования к GPAI (фундаментальные модели) |
| Август 2026 | Требования к high-risk AI-системам |
| Август 2027 | Полное применение всех требований |
AI-система для скрининга резюмов кандидатов в EU классифицируется как:
Copyright и AI: кому принадлежит AI-generated контент
Два независимых вопроса copyright в AI: 1. **Можно ли использовать copyrighted данные для обучения?** (2) **Кому принадлежит AI-generated контент?** Ответы различаются по юрисдикциям и переписываются с каждым судебным решением. Getty Images vs Stability AI (settled 2025) показал: `12 миллионов` фото без лицензии - это не fair use, это коммерческий ущерб. NYT vs OpenAI (в процессе) потенциально угрожает всей модели обучения на web-данных.
**Практические решения для AI-продуктов - что реально делать прямо сейчас:**
- **Terms of Service:** чётко определить права на AI-generated контент. Кто владеет output - пользователь или платформа?
- **Disclosure:** маркировать AI-generated контент ("Generated with AI" или metadata тег). EU AI Act требует это для limited risk систем
- **Training data audit:** документировать источники данных. EU GPAI rules требуют summary обучающих данных
- **Opt-out механизм:** поддерживать robots.txt / ai.txt для web crawling. Уважать do-not-train requests
- **Human-in-the-loop для copyrightable output:** если контент должен быть protected, human должен существенно contributed
**C2PA (Coalition for Content Provenance and Authenticity)** - стандарт от Adobe, Microsoft, BBC для маркировки AI-контента. Встраивает cryptographic metadata в файл: кто создал, каким инструментом, когда. Camera manufacturers (Nikon, Sony) уже поддерживают для фото.
По позиции US Copyright Office (2023), AI-generated изображение, созданное только по промпту:
Bias и Fairness: предвзятость AI-систем
AI-модели наследуют bias из обучающих данных - без злого умысла, механически. Amazon's recruiting tool отбирал резюме, обученный на 10 годах найма, где senior позиции занимали преимущественно мужчины. Результат: система понижала резюме с упоминанием слова "women's" (как в "women's chess club"). Для **high-risk систем** (HR, credit scoring, медицинская диагностика) bias testing обязателен по EU AI Act - и должен быть непрерывным, не разовым.
**Bias testing - не однократная процедура.** Модели обновляются, данные меняются, use cases расширяются. Bias audit должен быть частью CI/CD pipeline для high-risk AI-систем. EU AI Act требует ongoing monitoring.
AI-система для скрининга резюмов показывает bias: оценивает мужские резюме на 15% выше. Наиболее вероятная причина?
Practical Compliance Checklist для AI-продукта
После Samsung data leak, Getty lawsuit и Meta GDPR-штрафа паттерн очевиден: юридические риски в AI реализуются не "когда-нибудь", а на первом же масштабировании. Ниже - **конкретный checklist**, применимый к любому AI-продукту. Структура по приоритетам: must-have (без этого - нельзя запускаться в EU), should-have (сильная рекомендация), nice-to-have (differentiator).
**Liability** - кто получает иск, когда AI навредит. EU AI Liability Directive (в процессе принятия) вводит презумпцию причинно-следственной связи: если AI-система нарушила регуляторные требования, пострадавший не обязан доказывать прямую связь вреда с системой:
| Ситуация | Кто отвечает | Почему |
|---|---|---|
| AI-чатбот даёт вредный медицинский совет | Разработчик продукта | Deployer обязан обеспечить safety guardrails |
| AI-модель галлюцинирует ложную информацию | Разработчик продукта | Duty of care: validation output обязательна |
| AI resume screener дискриминирует | Разработчик + deployer | High-risk система: bias testing обязателен |
| Пользователь использует AI для вреда | Пользователь (primarily) | Но deployer обязан иметь moderation |
| Model provider (OpenAI/Anthropic) outputs harmful content | Shared liability | Provider: safety training, Deployer: guardrails |
**Practical advice:** для большинства AI-продуктов (chatbot, summarization, code assistant) достаточно MUST-HAVE checklist + базовое bias testing. Full compliance нужен только для high-risk систем. Не оверинжинирить compliance для low-risk продуктов.
AI-чатбот для customer support. Из checklist, что является MUST-HAVE?
Итоги
- EU AI Act risk mapping: до запуска AI-фичи - определить категорию риска. HR, кредиты, медицина = high risk, полный compliance обязателен с августа 2026
- Copyright: pure AI output не защищён copyright (US Copyright Office, 2023). Обучение на чужих данных без opt-out механизма - прямой путь к иску по образцу Getty vs Stability AI
- PII-фильтрация до LLM: Samsung-кейс показал - без неё корпоративные данные утекают в промптах. Data Processing Agreement с провайдером - юридический минимум
- Bias audit в CI/CD: Amazon закрыл recruiting tool после четырёх лет использования. Одноразовое тестирование не работает - модели обновляются, данные меняются
- Liability цепочка: model provider отвечает за safety training, deployer - за guardrails и moderation. Если AI-чатбот навредил - первый иск получает deployer
Что дальше
Юридические и этические рамки понятны. Финальный урок - capstone project: проектирование и построение полноценного AI-приложения от requirements до deployment, с учётом всего изученного.
- Capstone Project — Финальный проект - design doc для production AI-приложения
- Guardrails — Технические средства защиты AI-систем, дополняющие юридический compliance
Связанные уроки
- aie-33-guardrails — Комплаенс применяет guardrails к выводу
- aie-35-observability — Аудит-логи требуют observability и трассировки
- aie-64-synthetic-data — Синтетика снижает риски приватности и копирайта
- sd-23-security — Приватность данных переиспользует контроли безопасности
- stat-20-causal — Аудит предвзятости опирается на причинный анализ
- stat-05-hypothesis