Data Science

Data Science Case Studies

Meta DS interview, 2023. Кандидат с PhD по ML. Технические вопросы - безупречно. Product case: 'Stories DAU упал. Что делать?' Ответ: 'Обучу anomaly detection модель'. Конец интервью. DS в продукте - это 20% ML и 80% product thinking, SQL и коммуникация.

Airbnb DS: кейс об аномалии в поиске - оказался баг в ранжировании для mobile Safari, не ML проблема. Диагностика за 2 часа через сегментирование логов
Spotify: рост Skip Rate на 12% - через дерево метрик нашли что Skip Rate вырос только для Morning Podcast категории. Причина: автоплей с неправильным порядком эпизодов
LinkedIn Experiment: тест алгоритма feed. Engagement +8%, но response rate на messages -3%. Guardrail метрика остановила запуск - бизнес-ценность LinkedIn в соединениях, не в пассивном листании

Product Sense: мышление продукт-аналитика

Product sense - способность переводить бизнес-вопросы в аналитические задачи. Структура ответа на кейс: понять продукт и цели, сформулировать гипотезы, предложить данные для проверки, интерпретировать результаты, дать рекомендацию. Без этой структуры - хаотичный анализ.

Пример кейса: 'DAU Instagram Stories упал на 15%. Что делать?' Framework: (1) уточнить метрику - абсолютный или относительный DAU? (2) сегментировать - по платформе, гео, версии; (3) проверить технические проблемы; (4) внешние факторы (праздники, конкуренты); (5) продуктовые изменения недавно; (6) гипотезы о поведении.

DAU упал на 15% вчера. Первый шаг диагностики:

Metric Design в кейсах: North Star и деревья метрик

North Star Metric (NSM) - одна метрика, отражающая ценность продукта для пользователей. Дерево метрик: NSM = f(driver metrics). Изменение driver metric -> изменение NSM. Позволяет найти рычаги влияния на бизнес.

Примеры North Star Metrics: Airbnb - nights booked, Slack - messages sent, WhatsApp - messages delivered, Netflix - hours watched, LinkedIn - professional connections made. NSM плохая когда легко накручивается (клики) или не коррелирует с монетизацией. Facebook перешёл с DAU на 'meaningful social interactions'.

Почему 'количество регистраций' - плохая North Star Metric для SaaS продукта?

Experiment Design: структура A/B теста для кейса

Типичный вопрос на собеседовании: 'Как проверить гипотезу о новом онбординге?' Структура ответа: гипотеза (чёткий if/then), единица рандомизации (пользователь, сессия, устройство), метрика успеха (primary + guardrails), длительность, риски.

Почему единица рандомизации 'сессия' хуже 'пользователь' для теста онбординга?

Business Impact: перевод DS результатов в деньги

Финал кейса: перевести результаты эксперимента в бизнес-ценность. Интервьюер хочет видеть, что DS понимает бизнес. Формула: Lift в метрике -> Impact на revenue/retention -> ROI инвестиции в разработку.

На собеседовании в FAANG: интервьюер хочет видеть конкретные числа. 'Retention вырос' - слабый ответ. 'Retention вырос на 3pp, это +3000 удержанных пользователей в месяц, при LTV $25 это $75K/мес или $900K/год при стоимости разработки $80K - ROI 11x' - сильный ответ.

Тест онбординга показал +3pp retention, p=0.04. Но команда разработки потратит 3 месяца на внедрение. Как рассуждать о приоритизации?

Ключевые идеи

Product sense: диагностика метрики = сегментация (платформа/гео/версия) + техника + продуктовые изменения. Не сразу ML.
Metric design: North Star Metric коррелирует с ценностью, декомпозируется в driver metrics - находит рычаги.
Business impact: статистическая значимость не = практическая ценность. Revenue impact / ROI - язык приоритизации.

Связанные темы

Case studies объединяют все инструменты DS workflow:

Experimentation и A/B Testing — Структура эксперимента - часть любого product case: гипотеза, рандомизация, метрики, sample size
DS на собеседовании (FAANG) — Case studies - центральная часть DS интервью в FAANG, требует product sense + stats + SQL

Вопросы для размышления

Как диагностировать падение метрики когда нет доступа к raw данным - только агрегированные дашборды?
Когда guardrail метрика должна блокировать запуск даже если primary метрика победила?
Как коммуницировать результат A/B теста с отрицательным ROI но важными product insights?

Связанные уроки

stat-31-eda