AI-инжиниринг

AI Ethics и Legal: EU AI Act, copyright, liability - юридическая сторона AI

Цели урока

Разобрать EU AI Act: risk classification, требования для каждого уровня, timeline
Понять copyright landscape: обучение на copyrighted данных, ownership AI-output, C2PA
Освоить bias detection: типы bias, тестирование, fairness метрики
Применить практический compliance checklist для AI-продукта

2023 год. Samsung разрешает инженерам использовать ChatGPT для ревью кода. Три недели спустя выясняется: в промпты утекли исходный код чипов, внутренние meeting notes и данные о производительности. Samsung немедленно банит ChatGPT корпоративно. Параллельно - Getty Images подаёт иск против Stability AI за несанкционированное использование `12 миллионов` фотографий для обучения Stable Diffusion. В Европе GDPR уже выписал штраф Meta на `1.2 млрд EUR`. AI Ethics - это не митинги за справедливость, это конкретные правовые и технические риски, которые игнорируют только до первого иска.

Samsung data leak (2023): три инцидента с ChatGPT за три недели - исходный код чипов, встречи, тест-данные. Итог: полный корпоративный бан
Getty vs Stability AI: иск за `12M` фотографий без лицензии - settled 2025, условия не раскрыты
Meta GDPR штраф `1.3 млрд` (2023) - крупнейший в истории GDPR, за передачу данных EU-пользователей в США без адекватной защиты
Amazon AI recruiting tool (2018): система обучена на 10-летних данных о найме - воспроизвела gender bias и была тихо закрыта

Год, когда право об AI стало реальным

Десять лет регулирование AI жило в рекомендациях и этических комитетах. Это быстро изменилось. 27 декабря 2023 года The New York Times подала в федеральный суд иск против OpenAI и Microsoft, утверждая, что миллионы её статей были скопированы для обучения ChatGPT - самое громкое дело об авторском праве эпохи AI, до сих пор не разрешённое. Через несколько месяцев Европейский союз принял AI Act (Regulation 2024/1689, вступил в силу 1 августа 2024) - первый в мире комплексный закон об AI, разделяющий системы на четыре уровня риска от минимального до запрещённого. Поверх GDPR (действует с 2018 года) это превратило AI-комплаенс из приятного дополнения в жёсткое инженерное ограничение.

Предварительные знания

Guardrails: LLM Security - Prompt Injection, Jailbreak, Content Filtering

EU AI Act: первый в мире закон об AI

**EU AI Act** вступил в силу 1 августа 2024, поэтапное применение - до 2027. Первое в мире комплексное регулирование AI. Закон классифицирует системы по **уровню риска** - и ставит ответственность за compliance на deployer, а не только на разработчика модели. Штрафы по GPAI-нарушениям уже прописаны: до `35M EUR` или `7%` global turnover - сопоставимо с GDPR.

**General Purpose AI Models (GPAI)** - отдельная категория для фундаментальных моделей (GPT-4, Claude, Llama). С августа 2025 года для них обязательны:

Техническая документация (model card)
Соблюдение EU copyright law при обучении
Раскрытие summary обучающих данных
Для **systemic risk** моделей (>10^25 FLOP при обучении): adversarial testing, incident reporting, cybersecurity measures

**EU AI Act применяется к ЛЮБОЙ компании, чьи AI-системы работают в EU.** Неважно, где зарегистрирована компания - если продукт доступен в EU, закон применяется. Это аналог GDPR для AI.

**Timeline применения:**

Дата	Что вступает в силу
Февраль 2025	Запрет unacceptable risk AI-систем
Август 2025	Требования к GPAI (фундаментальные модели)
Август 2026	Требования к high-risk AI-системам
Август 2027	Полное применение всех требований

AI-система для скрининга резюмов кандидатов в EU классифицируется как:

Copyright и AI: кому принадлежит AI-generated контент

Два независимых вопроса copyright в AI: 1. **Можно ли использовать copyrighted данные для обучения?** (2) **Кому принадлежит AI-generated контент?** Ответы различаются по юрисдикциям и переписываются с каждым судебным решением. Getty Images vs Stability AI (settled 2025) показал: `12 миллионов` фото без лицензии - это не fair use, это коммерческий ущерб. NYT vs OpenAI (в процессе) потенциально угрожает всей модели обучения на web-данных.

**Практические решения для AI-продуктов - что реально делать прямо сейчас:**

**Terms of Service:** чётко определить права на AI-generated контент. Кто владеет output - пользователь или платформа?
**Disclosure:** маркировать AI-generated контент ("Generated with AI" или metadata тег). EU AI Act требует это для limited risk систем
**Training data audit:** документировать источники данных. EU GPAI rules требуют summary обучающих данных
**Opt-out механизм:** поддерживать robots.txt / ai.txt для web crawling. Уважать do-not-train requests
**Human-in-the-loop для copyrightable output:** если контент должен быть protected, human должен существенно contributed

**C2PA (Coalition for Content Provenance and Authenticity)** - стандарт от Adobe, Microsoft, BBC для маркировки AI-контента. Встраивает cryptographic metadata в файл: кто создал, каким инструментом, когда. Camera manufacturers (Nikon, Sony) уже поддерживают для фото.

По позиции US Copyright Office (2023), AI-generated изображение, созданное только по промпту:

Bias и Fairness: предвзятость AI-систем

AI-модели наследуют bias из обучающих данных - без злого умысла, механически. Amazon's recruiting tool отбирал резюме, обученный на 10 годах найма, где senior позиции занимали преимущественно мужчины. Результат: система понижала резюме с упоминанием слова "women's" (как в "women's chess club"). Для **high-risk систем** (HR, credit scoring, медицинская диагностика) bias testing обязателен по EU AI Act - и должен быть непрерывным, не разовым.

**Bias testing - не однократная процедура.** Модели обновляются, данные меняются, use cases расширяются. Bias audit должен быть частью CI/CD pipeline для high-risk AI-систем. EU AI Act требует ongoing monitoring.

AI-система для скрининга резюмов показывает bias: оценивает мужские резюме на 15% выше. Наиболее вероятная причина?

Practical Compliance Checklist для AI-продукта

После Samsung data leak, Getty lawsuit и Meta GDPR-штрафа паттерн очевиден: юридические риски в AI реализуются не "когда-нибудь", а на первом же масштабировании. Ниже - **конкретный checklist**, применимый к любому AI-продукту. Структура по приоритетам: must-have (без этого - нельзя запускаться в EU), should-have (сильная рекомендация), nice-to-have (differentiator).

**Liability** - кто получает иск, когда AI навредит. EU AI Liability Directive (в процессе принятия) вводит презумпцию причинно-следственной связи: если AI-система нарушила регуляторные требования, пострадавший не обязан доказывать прямую связь вреда с системой:

Ситуация	Кто отвечает	Почему
AI-чатбот даёт вредный медицинский совет	Разработчик продукта	Deployer обязан обеспечить safety guardrails
AI-модель галлюцинирует ложную информацию	Разработчик продукта	Duty of care: validation output обязательна
AI resume screener дискриминирует	Разработчик + deployer	High-risk система: bias testing обязателен
Пользователь использует AI для вреда	Пользователь (primarily)	Но deployer обязан иметь moderation
Model provider (OpenAI/Anthropic) outputs harmful content	Shared liability	Provider: safety training, Deployer: guardrails

**Practical advice:** для большинства AI-продуктов (chatbot, summarization, code assistant) достаточно MUST-HAVE checklist + базовое bias testing. Full compliance нужен только для high-risk систем. Не оверинжинирить compliance для low-risk продуктов.

AI-чатбот для customer support. Из checklist, что является MUST-HAVE?

Итоги

EU AI Act risk mapping: до запуска AI-фичи - определить категорию риска. HR, кредиты, медицина = high risk, полный compliance обязателен с августа 2026
Copyright: pure AI output не защищён copyright (US Copyright Office, 2023). Обучение на чужих данных без opt-out механизма - прямой путь к иску по образцу Getty vs Stability AI
PII-фильтрация до LLM: Samsung-кейс показал - без неё корпоративные данные утекают в промптах. Data Processing Agreement с провайдером - юридический минимум
Bias audit в CI/CD: Amazon закрыл recruiting tool после четырёх лет использования. Одноразовое тестирование не работает - модели обновляются, данные меняются
Liability цепочка: model provider отвечает за safety training, deployer - за guardrails и moderation. Если AI-чатбот навредил - первый иск получает deployer

Что дальше

Юридические и этические рамки понятны. Финальный урок - capstone project: проектирование и построение полноценного AI-приложения от requirements до deployment, с учётом всего изученного.

Capstone Project — Финальный проект - design doc для production AI-приложения
Guardrails — Технические средства защиты AI-систем, дополняющие юридический compliance

Связанные уроки

aie-33-guardrails — Комплаенс применяет guardrails к выводу
aie-35-observability — Аудит-логи требуют observability и трассировки
aie-64-synthetic-data — Синтетика снижает риски приватности и копирайта
sd-23-security — Приватность данных переиспользует контроли безопасности
stat-20-causal — Аудит предвзятости опирается на причинный анализ
stat-05-hypothesis