Генеративный AI

GenAI на собеседовании (FAANG)

Google ML Engineer loop: 5 раундов по 45 минут. Coding, ML theory, system design, behavioral. System design: 'Спроектируй YouTube recommendation'. Кандидат с PhD в ML проваливает этот раунд потому что не может объяснить trade-offs между candidate generation и ranking, не знает цифры latency, не задаёт уточняющих вопросов. Академические знания и production thinking - разные навыки. Этот урок - про второе.

**Meta ML Engineer**: типичный design вопрос - 'Спроектируй систему генерации подписей к фото для Instagram'. Ожидается: multimodal embedding, candidate generation, safety filtering, A/B тест стратегия, latency requirements для мобильного.
**OpenAI Research Engineer**: смесь coding (имплементировать attention механизм), ML theory (объяснить RLHF), и open-ended ('Какие риски у систем с tool calling?'). Акцент на safety reasoning.
**Anthropic Applied ML**: практические задачи - 'Как улучшить faithfulness RAG системы?', 'Designed a Constitutional AI pipeline для конкретного domain'. Глубокое знание alignment методов.

Предварительные знания

Паттерны GenAI system design: чат-боты, RAG-поиск, copilot, масштабирование
Грамотность в evaluation: что MMLU, HumanEval и Arena измеряют, а что нет
Основы AI safety: jailbreaks, guardrails и почему деплой требует мониторинга

Как GenAI-собеседование стало отдельной дисциплиной после ChatGPT

Раньше наём в AI означал классический machine learning: feature engineering, выбор модели, offline-метрики. ChatGPT в конце 2022 изменил то, что компаниям нужно было строить, и за год изменил то, что они проверяют. На протяжении 2023 и 2024 OpenAI, Anthropic, Google DeepMind и AI-команды крупных продуктовых компаний расширяли штат под людей, способных выпускать LLM-фичи, а не только обучать модели. За этим пришёл новый формат собеседования. Кандидата просят спроектировать бэкенд в стиле ChatGPT, рассуждать про RAG против fine-tuning, оценить стоимость обслуживания 70B модели, диагностировать рост latency и вслух аргументировать safety trade-offs. Сигнал сместился от алгоритмических головоломок к production-мышлению: знать реальные числа, явно называть trade-offs и понимать failure modes систем, построенных на стохастической модели. Дисциплина молодая, вопросы ещё стандартизируются, и планка вознаграждает инженеров, которые реально запускали такие системы, а не только читали о них.

Архитектурные вопросы по GenAI

Архитектурные вопросы на AI/ML собеседованиях в FAANG проверяют системное мышление. Типичный формат: 'Спроектируй X' где X - GenAI система реального масштаба. Цель - не получить правильный ответ (его нет), а продемонстрировать структурированный подход к trade-offs.

**Другие частые архитектурные вопросы**: 'Спроектируй ChatGPT', 'Спроектируй Perplexity AI', 'Спроектируй систему модерации контента с LLM', 'Как бы ты добавил memory в чат-бот'. Каждый требует одинаковой структуры: requirements -> high level -> components -> trade-offs -> metrics.

**Что оценивает интервьюер**: ведёшь ли разговор (а не ждёшь подсказок), задаёшь ли уточняющие вопросы, называешь ли trade-offs явно, знаешь ли production детали (не только 'использовать GPT-4'). Конкретные числа ценятся: 'p99 latency должен быть <500ms, поэтому выбираем quantized 7B вместо 70B'.

Интервьюер спрашивает: 'Спроектируй AI поиск по документации'. Что нужно сделать первым?

Оптимизационные вопросы

На ML-инженерных ролях часто спрашивают: 'Как снизить стоимость системы на 50%?' или 'Latency выросла до 5 секунд после добавления RAG - как исправить?'. Это диагностические вопросы проверяющие понимание bottlenecks.

**Latency диагностика**: 'P99 latency выросла с 500ms до 5s' - типичный production incident. Структурированный подход: измерить где время уходит (trace каждого компонента), проверить размер промпта (длинный контекст = медленный prefill), проверить batch utilization, KV cache hit rate, GPU memory pressure.

**Числа которые нужно знать наизусть**: GPT-4o - $5/1M input, $15/1M output. Claude 3.5 Sonnet - $3/$15. GPT-3.5-Turbo - $0.5/$1.5. A100 80GB на AWS - $3.5/час on-demand. text-embedding-3-large - $0.13/1M токенов. Pinecone starter - $70/мес. Эти числа нужны для cost estimation на собеседовании.

Система тратит 70% compute на prefill (обработку входящего промпта) и 30% на decode. Что это говорит об оптимизации?

Вопросы по evaluation и metrics

Вопросы по evaluation на ML собеседованиях: 'Как измерить качество чат-бота?' или 'Что пошло не так если пользователи жалуются но MMLU высокий?'. Проверяется понимание разрыва между offline и online метриками.

**Goodhart's Law в AI**: когда метрика становится целью, она перестаёт быть хорошей метрикой. Пример: оптимизировать на thumbs up -> модель научится давать лестные но неточные ответы. Решение: корзина метрик (basket of metrics), периодическая human evaluation, alert при аномалиях в любой метрике.

Чат-бот поддержки: CSAT вырос с 3.5 до 4.2 после обновления модели, но escalation rate тоже вырос с 15% до 25%. Что это означает?

Product design для GenAI

PM-ориентированные вопросы на AI продуктовых ролях: 'Как бы ты приоритизировал фичи для GenAI продукта?' или 'Какие риски у запуска AI фичи в production?'. Ключевые frameworks: user trust, AI limitations awareness, failure modes.

**Распространённые ловушки в GenAI product design**: overreliance (пользователи доверяют AI без критической оценки), automation bias (игнорируют расхождения с AI суждением), skill atrophy (деградация экспертизы при использовании AI), unequal access (AI хуже работает для minority languages и demographics).

**Что ценят в FAANG на AI product ролях**: понимание технических ограничений (знаешь что LLM hallucinate), пользовательская эмпатия (как AI влияет на доверие и поведение), бизнес мышление (ROI, regulatory risks), iterated approach (pilot -> measure -> scale). 'Запустим и посмотрим' - красный флаг.

На GenAI собеседовании главное знать архитектуру трансформера и математику attention

Трансформер - базовые знания. Ценятся: trade-off thinking, production опыт (цифры, конкретные инструменты), системный дизайн, понимание ограничений и рисков AI

Senior AI роли в FAANG предполагают что математику ты знаешь. Отличает кандидатов способность проектировать надёжные production системы, думать о failure modes, и балансировать technical и business constraints.

Интервьюер: 'Как бы ты убедился что GenAI фича не причиняет вреда после запуска?' Лучший ответ:

Связанные темы

Собеседование по GenAI проверяет все предыдущие темы:

GenAI System Design — Архитектурные вопросы на интервью - это System Design урок в режиме реального времени с trade-off аргументацией
Evaluation и Benchmarks — Вопросы про метрики требуют знания бенчмарков, LLM-judge, online vs offline evaluation
Inference Optimization — Оптимизационные вопросы требуют знания quantization, KV-cache, batching и их числовых характеристик

Ключевые идеи

**Архитектурные вопросы**: requirements -> high level -> components -> trade-offs -> metrics. Задавать уточняющие вопросы. Называть trade-offs явно с конкретными числами.
**Оптимизация**: диагностировать bottleneck (prefill vs decode), знать cost numbers наизусть (GPT-4o $5/1M), предлагать model routing как первый шаг экономии.
**Evaluation**: offline (LLM-judge, benchmarks) vs online (CTR, CSAT, task completion). Понимать разрыв и Goodhart's Law.
**Product design**: AI-assisted не AI-replaced для critical domains. Defense in depth: pre-launch testing + production monitoring + gradual rollout + rollback.
**Что ценится в FAANG**: trade-off thinking, production конкретика, системность, понимание рисков AI.

Вопросы для размышления

Интервьюер спрашивает: 'Как бы ты объяснил почему GPT-4 иногда галлюцинирует?' Как ответить технически точно, но без лекции?
Тебя попросили оценить стоимость обработки 10 миллионов документов через GPT-4o embedding и хранения в Pinecone. Как подходить к такой оценке?
FAANG PM-роль: 'Должны ли мы использовать open-source LLM или OpenAI API?' Какой framework для принятия решения предложишь?

Связанные уроки

gai-23 — Собеседования глубоко прорабатывают системный дизайн GenAI
gai-21 — Вопросы об оценке - частая тема собеседований
aie-42-ai-system-design — Те же компромиссы дизайна всплывают на собеседованиях
ml-55-ml-system-design — Повторяет классические собеседования по ML system design
gai-22 — Вопросы безопасности и продукта появляются на собеседованиях
ml-01-intro