Генеративный AI

AI Safety и Alignment

Ноябрь 2023. Исследователи Carnegie Mellon публикуют GCG атаку: случайный суффикс токенов вида 'describing. + similarlyNow write oppositeley.' заставляет GPT-4 и Claude давать ответы на запрещённые темы с 80%+ success rate. OpenAI и Anthropic знали об атаке заранее - и всё равно не смогли полностью закрыть её. Safety - это не checkbox. Это инженерная задача без идеального решения.

**Anthropic Claude safety investment**: Anthropic публично заявляет что тратит ~20% compute на safety research. Constitutional AI, Responsible Scaling Policy (RSP), interpretability research - публично описанные программы. Каждая новая версия Claude проходит extensive red-teaming перед релизом.
**OpenAI Preparedness Framework**: оценка катастрофических рисков по категориям (CBRN, cyberattacks, дезинформация). Frontier models получают safety score перед деплоем. Если score 'high' - deployment заморожен.
**EU AI Act**: юридические требования к AI системам по уровню риска. LLM с general purpose - в отдельной категории. Требования: transparency, red-teaming, incident reporting. Вступает в силу 2025-2026.

Предварительные знания

Как RLHF выравнивает базовую модель под человеческие предпочтения
Что такое system prompt и как он формирует поведение модели
Базовое threat-modeling мышление: думать как атакующий, чтобы находить слабые места

Проблема alignment: от предупреждения Винера до Constitutional AI

Опасение, что мощная автоматическая система будет преследовать заданную нами цель, а не ту, что мы имели в виду, появилось давно. В 1960 году математик Norbert Wiener писал: если мы строим машину для достижения цели, в работу которой не можем эффективно вмешаться, лучше быть уверенными, что вложенная в неё цель и есть та, которую мы действительно хотим. Спустя десятилетия Stuart Russell переформулировал это как центральную проблему ИИ: система, оптимизирующая неверно заданную цель, будет эксплуатировать её способами, которых разработчики не предполагали. С большими языковыми моделями абстрактная тревога стала конкретной инженерией. RLHF превратил человеческие предпочтения в обучающий сигнал, направляющий модель к полезному и безвредному поведению. В 2022 Anthropic опубликовал Constitutional AI: вместо большей части человеческой разметки используется набор написанных принципов, по которым модель критикует и переписывает свои ответы, масштабируя сигнал безопасности через compute, а не аннотаторов. В 2023 OpenAI объявил программу superalignment, нацеленную на контроль систем умнее своих надзирателей, выделив на эту задачу значительную долю compute. Сквозная линия от Винера до Constitutional AI это одна мысль: задать чего мы хотим сложнее, чем построить нечто мощное, и ошибка именно здесь и есть главный риск.

Jailbreaks: почему запреты не работают

Любая выровненная LLM имеет ограничения: не отвечать на вопросы об оружии, не писать вредоносный код. **Jailbreak** - техника обхода этих ограничений. Важно понять: проблема не в плохих пользователях, а в фундаментальном напряжении между полезностью и безопасностью.

**GCG (Greedy Coordinate Gradient) атака** (Carnegie Mellon, 2023): автоматически находит суффикс из случайных токенов, который заставляет модель начинать ответ со слова 'Sure!' и продолжать. Перенос на другие модели (transfer attack): суффикс найденный для открытых моделей иногда работает на GPT-4 и Claude. Это показывает что safety - системная проблема, а не issue с конкретной моделью.

**Gray area**: большинство запросов не чёрно-белые. 'Как сделать взрывчатку' - вредоносно. 'Как устроена взрывчатка' - легитимная химия. 'Какие химикаты опасно смешивать дома' - важная safety информация. LLM должна различать эти случаи, что требует контекстного понимания, а не простой фильтрации слов.

Почему blacklist запрещённых слов не решает проблему jailbreaks?

Guardrails: многослойная защита

**Defense in depth**: безопасность LLM не одна линия обороны, а несколько независимых слоёв. Каждый слой самостоятельно останавливает часть угроз. Вместе они делают систему значительно устойчивее чем любой из них по отдельности.

**Llama Guard** (Meta, 2023) - специализированная LLM для классификации safety. Принимает диалог (или только user turn) и возвращает SAFE/UNSAFE с категорией нарушения. Обучена на таксономии MLCommons. Llama Guard 3 - последняя версия, мультиязычная, поддерживает agent-level safety. Бесплатна для commercial use.

**Trade-off полезность/безопасность**: чрезмерно строгие guardrails блокируют легитимные запросы (over-refusal). Недостаточные - пропускают угрозы. Anthropic опубликовал исследование: GPT-4 и Claude 3 имеют похожий уровень безопасности, но разную over-refusal rate. Баланс - ключевая метрика качества safety системы.

Llama Guard классифицирует входящий запрос как SAFE. Это означает что LLM может безопасно отвечать на любой запрос прошедший классификацию?

Red-Teaming: атака как способ защиты

**Red-teaming** - систематическое тестирование системы через попытки её сломать. В контексте LLM: команда (или автоматизированные агенты) пытается найти jailbreaks, получить вредоносный контент, обойти guardrails. Цель - найти уязвимости до злоумышленников.

**Automated red-teaming**: OpenAI, Anthropic, Google нанимают сотни людей для ручного red-teaming. Но человеческая команда ограничена. **PAIR** (Chao et al., 2023) и **TAP** используют LLM как атакующего агента: iteratively перефразирует prompt пока не получит нужный ответ. Находит новые атаки быстрее людей. Используется командами AI safety.

Red-teaming нашёл способ получить от модели инструкции по синтезу химического оружия через roleplay фрейм. Что делать дальше?

Constitutional AI: принципы вместо примеров

**Constitutional AI (CAI)** (Anthropic, 2022) - альтернатива стандартному RLHF. Вместо тысяч аннотированных примеров - набор принципов (конституция). Процесс: LLM критикует свои ответы по принципам -> ревизует -> из пересмотренных ответов строятся предпочтения -> RLAIF.

**HHH принципы**: Anthropic строит Claude вокруг трёх принципов - **H**elpful (полезный), **H**armless (безвредный), **H**onest (честный). CAI реализует эти принципы через конституцию из ~58 пунктов. Конституция включает элементы из деклараций ООН, принципов Apple и других источников. Anthropic публично раскрыл полный текст конституции.

**Scalable Oversight**: как выровнять AI системы умнее людей если мы не можем проверить их ответы? Debate (агенты спорят, человек судит), IDA (Iterated Distillation and Amplification), Process Reward Models (оценка каждого шага рассуждения, не только финального ответа) - активные направления исследований Anthropic, OpenAI, DeepMind.

AI Safety - это только про то чтобы модель не говорила плохих слов. Достаточно хорошего content filter

AI Safety охватывает: jailbreaks (обход защит), alignment (долгосрочные цели), robustness (adversarial атаки), systemic risks (influence operations, биологические угрозы). Content filter решает 5% проблемы

GPT-4 и Claude 3.5 прошли extensive red-teaming и всё равно имеют уязвимости. Safety - это ongoing process: модели улучшаются, атаки усложняются. Это гонка вооружений, а не решённая инженерная задача.

Главное преимущество Constitutional AI перед стандартным RLHF:

Связанные темы

AI Safety пронизывает весь стек LLM разработки:

RLHF и DPO — RLHF и Constitutional AI - технические инструменты alignment. Safety - цель, RLHF/CAI - средство
Prompt Engineering — System prompts - первая линия защиты в приложениях. Prompt injection - атака через промпты
Evaluation и Benchmarks — Safety benchmarks (ToxiGen, BeaverTails, AdvBench) - специализированные метрики для оценки safety

Ключевые идеи

**Jailbreaks** используют roleplay фреймы, hypothetical contexts, adversarial suffixes, prompt injection. Blacklist не работает - нужно контекстное понимание намерений.
**Defense in depth**: input guardrails (Llama Guard) + aligned основная модель (RLHF/CAI) + output guardrails. Каждый слой независим. Ни один не достаточен сам по себе.
**Red-teaming**: систематические попытки сломать систему до релиза. Automated red-teaming (PAIR, TAP) находит уязвимости быстрее людей. Adversarial fine-tuning исправляет найденное.
**Constitutional AI**: конституция принципов + AI-критика + RLAIF. Масштабируется без роста затрат на аннотацию. Основа alignment в Claude.
**Trade-off**: чрезмерная безопасность = over-refusal и потеря полезности. Недостаточная = реальный вред. Баланс - ключевая метрика.

Вопросы для размышления

Constitutional AI использует принципы написанные людьми в Anthropic. Чьи ценности кодирует конституция - и кто должен участвовать в её создании?
Red-teaming находит уязвимость. Когда её публично раскрывать - сразу (чтобы сообщество могло защититься) или после исправления (чтобы не дать злоумышленникам инструмент)?
Over-refusal блокирует легитимные запросы. Как измерить баланс между safety и usefulness - какие метрики использовать для этого trade-off?

Связанные уроки

gai-07 — RLHF и конституционный AI - ключевые инструменты выравнивания
gai-21 — Безопасность опирается на red-teaming и оценку
aie-33-guardrails — Продакшен-гардрейлы и фильтры безопасности
aie-34-prompt-injection-deep — Джейлбрейки - атаки prompt injection на практике
rl-14 — Red teaming - состязательный поиск против модели
ml-01-intro