Глубокое обучение

DL на собеседовании (FAANG)

ML-интервью в Google, Meta и Anthropic - это не тест на знание формул. Это проверка инженерного мышления: способности декомпозировать сложную систему, обосновать архитектурные решения и честно сформулировать trade-offs. Кандидаты, выучившие 100 архитектур наизусть, проваливаются. Кандидаты с глубоким пониманием 10 базовых идей - проходят.

**Google ML Engineer Interview** включает coding round (ML algorithms from scratch), ML design round (система рекомендаций или fraud detection), и behavioral round - три отдельных секции
**Meta AI Research Scientist** задаёт вопросы на глубокое понимание: 'почему work works', не 'что это такое' - ожидается умение объяснить интуицию за математикой
**Anthropic ML Safety** фокусируется на interpretability и alignment вопросах, а не классическом ML engineering - понимание механистической интерпретируемости критично
**OpenAI** после каждого интервью дают feedback loop - кандидат получает объяснение, что именно оценивалось в каждом вопросе

AlexNet and the deep learning hiring boom

В 2012 Alex Krizhevsky, Ilya Sutskever и Geoffrey Hinton выиграли ImageNet с AlexNet, вдвое снизив error rate лучших классических методов и запустив бум deep learning. Рынок найма последовал за этим: Google купил стартап Hinton в 2013, и за несколько лет 'machine learning engineer' стал одной из самых востребованных ролей в индустрии. Формат интервью эволюционировал вместе с ним. Сначала кандидатов просили вывести backpropagation вручную; сегодня планка - system design и количественные рассуждения о scaling, потому что фреймворки сделали математику рутиной, а надёжность в production осталась трудной.

Предварительные знания

Архитектурные вопросы

**На FAANG ML-интервью архитектурные вопросы** проверяют понимание trade-offs, а не способность воспроизвести формулу. Типичный формат: «Спроектируй систему для X» или «Почему архитектура Y лучше Z для задачи W». Интервьюер ожидает структурированного мышления: задача → constraints → baseline → improvements → trade-offs.

Распространённая ошибка на интервью: сразу предлагать сложное решение. Сильный кандидат начинает с простого baseline (логистическая регрессия, простая CNN), объясняет её ограничения, и итеративно усложняет. Это показывает понимание проблемы, а не зазубренные ответы.

На интервью просят спроектировать систему классификации медицинских снимков (рентген, 50K размеченных примеров). Какой правильный первый шаг?

Вопросы по оптимизации

**Оптимизационные вопросы** проверяют глубокое понимание, почему обучение идёт плохо и как это исправить. Интервьюер даёт симптом - кандидат должен построить дерево гипотез и предложить диагностику. Loss не убывает? Модель переобучается? Обучение нестабильно?

«Sanity checks» перед полным обучением - признак опытного ML инженера: (1) overfit on single batch - убедиться, что модель в принципе учится; (2) linear scaling rule - при удвоении batch size удваивать LR; (3) проверить loss при random init - для cross-entropy должен быть log(num_classes).

Training loss стабильно убывает, validation loss не убывает с первой эпохи и остаётся на уровне random. При этом датасет сбалансирован. Что наиболее вероятно?

Scaling Laws и LLM вопросы

**Chinchilla scaling laws (DeepMind, 2022)** перевернули понимание оптимального обучения LLM. Вывод: для данного compute budget C оптимально иметь число параметров N ~ C^0.5 и число токенов D ~ C^0.5. Большинство моделей до 2022 (GPT-3) были underfitted - слишком большие для своих данных. LLaMA обучен на 1T токенов, в 20x больше Chinchilla-optimal для 7B - осознанный выбор ради inference efficiency.

Flash Attention (Dao et al., 2022) - алгоритмическая оптимизация, изменившая training LLM. Стандартный attention хранит attention matrix (N×N) в HBM - для N=4096 это 64GB. Flash Attention вычисляет attention тайлами, используя только SRAM (20MB), без материализации полной матрицы. Результат: 4x быстрее, 10x меньше памяти при математически идентичном результате.

Компания хочет развернуть LLM для продукта. Бюджет на inference критичен. Что лучше согласно Chinchilla: обучить 70B модель на 1T токенов или 175B модель на 400B токенов при том же compute?

Trade-offs и практические вопросы

**Senior ML инженер отличается от junior** способностью формулировать trade-offs, а не просто знать ответы. На FAANG часто нет «правильного» решения - есть решения с разными компромиссами. Типичные оси trade-off: accuracy vs latency, memory vs compute, training cost vs inference cost, complexity vs maintainability.

Популярные вопросы про нормализацию: почему transformer использует Layer Norm, а не Batch Norm? Ответ: последовательности разной длины в одном батче - batch statistics нестабильны. При авторегрессивном инференсе batch size=1, Batch Norm вообще не работает. Layer Norm нормализует по feature dimension - не зависит от батча.

На ML-интервью FAANG нужно знать все последние state-of-the-art архитектуры

Важнее показать структурированное мышление, понимание trade-offs и способность разложить сложную задачу на компоненты

Интервьюеры в Google и Meta сами занимаются конкретными узкими областями. Они хотят видеть, как кандидат думает под неопределённостью - это важнее энциклопедических знаний. Вопрос 'почему' всегда важнее 'что'

Рекомендательная система обновляется раз в день (batch retraining). Пользователь кликнул на новый тренд 10 минут назад - модель этого не знает. Как решить проблему без real-time retraining?

Ключевые идеи

**Архитектурные вопросы:** начинать с clarifying questions и baseline, итеративно усложнять, явно называть trade-offs - CNN vs ViT, LSTM vs Transformer
**Диагностика обучения:** строить дерево гипотез по симптомам; sanity checks (overfit on batch) - первый шаг; data leakage - самая коварная проблема
**Chinchilla scaling:** N параметров ≈ D токенов для оптимального compute; меньшая модель на большем числе токенов лучше для inference cost
**Trade-offs:** quantization (speed/memory) vs pruning (moderate speedup) vs distillation (training cost); двухуровневые архитектуры для real-time + batch сигналов

Связанные темы

Подготовка к интервью требует понимания всего DL стека:

Deep Learning System Design — ML System Design round - отдельная секция на senior интервью: serving infrastructure, monitoring, feature stores
Quantization и Pruning — Вопросы про inference optimization - стандарт на production ML engineer роли в FAANG
Self-Supervised Learning — SSL архитектуры (DINO, MAE, CLIP) - горячая тема на Research Scientist интервью в Meta AI, Google Brain, OpenAI

Вопросы для размышления

На интервью просят спроектировать систему поиска изображений по тексту (как Google Images). Как структурировать ответ: какие компоненты нужны, как обучать embedding модели, как строить approximate nearest neighbor index для миллиарда изображений?
Кандидат предлагает использовать BERT для классификации 10M документов в реальном времени (< 50ms). Интервьюер говорит, что это слишком медленно. Какие оптимизации предложить последовательно, начиная с самых простых?
Scaling laws говорят: больше данных и параметров = лучше. Но GPT-4o mini лучше GPT-3 при 10x меньшем размере. Это contradicts scaling laws или подтверждает их? Что это говорит о роли distillation в будущем LLM развития?

Связанные уроки

dl-20 — Вопросы по дизайну систем используют знание продакшена
dl-12 — Вопросы про масштабирование проверяют распределённое обучение
dl-02 — Основы backpropagation встречаются в вопросах по оптимизации
ml-55-ml-system-design — Собеседования FAANG по дизайну ML-систем того же формата
alg-01-big-o — Анализ сложности структурирует ответы про масштабирование
stat-05-hypothesis — Логика A/B-тестов помогает в вопросах об оценке
la-01-vectors-intro