Статистика
Многомерный анализ: MANOVA и дискриминантный анализ
Как сравнить две группы клиентов сразу по 12 метрикам качества, если корреляции между метриками превращают наивный подход в гонку ложных открытий?
- **Sephora продуктовая аналитика:** MANOVA сравнивает 40 SKU по 8 метрикам поведения покупателей (CTR, AOV, return rate, ...) одновременно — раздельные ANOVA дали бы FWER > 30%
- **Биомедицинская диагностика:** LDA на 30 биомаркерах рака молочной железы классифицирует доброкачественные/злокачественные опухоли с AUC 0.97 (Wisconsin Breast Cancer dataset)
- **Нейровизуализация fMRI:** каноническая корреляция выравнивает 50 000 вокселей мозга с 200 поведенческими тестами, выявляя связь активности префронтальной коры с рабочей памятью
- **Финансовая стабильность:** регуляторы используют QDA на 25 показателях балансов банков для раннего предупреждения о кризисе ликвидности
Предварительные знания
- Матрицы, собственные значения и SVD
- ANOVA и F-распределение
- Многомерное нормальное распределение и ковариация
Многомерный анализ объединяет методы, которые работают с векторными наблюдениями целиком, а не с каждой координатой отдельно. Это меняет интуицию: тест на равенство средних превращается в задачу о различии центров эллипсоидов, классификация — в построение гиперповерхностей в ℝ^p, измерение зависимости — в поиск канонических осей между двумя облаками точек. Общий ингредиент — спектральные разложения симметричных или обобщённо-симметричных матриц.
Геометрический взгляд: ANOVA сравнивает положение точек на прямой → MANOVA сравнивает положение эллипсоидов в ℝ^p; t-тест и LDA — частные случаи одного и того же дискриминантного направления Σ⁻¹(μ₁ - μ₂); регрессия и CCA — частные случаи поиска осей максимальной корреляции.
Современные продолжения: sparse LDA (с L1-регуляризацией) для p >> n, kernel CCA и Deep CCA для нелинейных связей, RDA для регуляризации QDA при малых n_k, нелинейные дискриминанты через нейросети с softmax-выходом — все они интерпретируются как обобщения базовых формул многомерного анализа.
Многомерное нормальное распределение
Многомерное нормальное распределение N_p(μ, Σ) обобщает одномерное нормальное на вектор размерности p. Параметры: вектор средних μ ∈ ℝ^p и положительно определённая ковариационная матрица Σ ∈ ℝ^{p×p}. Плотность зависит от наблюдения только через расстояние Махаланобиса (x-μ)ᵀΣ⁻¹(x-μ), которое корректно учитывает корреляции между переменными.
Тест многомерной нормальности Мардиа использует обобщённую асимметрию b₁,p и эксцесс b₂,p. При нарушении нормальности применяют преобразование Бокса-Кокса или ранговые многомерные методы.
Почему при проверке многомерных выбросов используют расстояние Махаланобиса, а не евклидово?
D²_M = (x-μ)ᵀΣ⁻¹(x-μ) превращает эллипсоид концентрации в сферу: данные сначала декоррелируются (через Σ⁻¹), затем масштабируются по собственным дисперсиям. Евклид игнорирует корреляции и завышает «нормальность» точек вдоль направлений малой дисперсии.
MANOVA: сравнение векторных средних
MANOVA (Multivariate ANOVA) обобщает ANOVA на случай p откликов одновременно. Нулевая гипотеза H₀: μ₁ = μ₂ = ... = μ_g, где μ_k — вектор средних k-й группы. Преимущество над раздельными ANOVA: контроль ошибки первого рода при коррелированных откликах и обнаружение различий, видимых только в линейной комбинации признаков.
Чем MANOVA принципиально лучше p отдельных ANOVA при тестировании равенства групп по p откликам?
Раздельные ANOVA дают FWER ≈ 1 - (1-α)^p и игнорируют корреляции. MANOVA через W⁻¹B находит направление максимального межгруппового сигнала: две группы могут совпадать по каждой координате, но различаться в линейной комбинации (классический пример — кластеры, повёрнутые на 45° к осям).
Линейный и квадратичный дискриминантный анализ
LDA (Linear Discriminant Analysis) строит классификатор, предполагая, что классы N_p(μ_k, Σ) имеют общую ковариацию. Граница решения между классами линейна. QDA (Quadratic) допускает разные Σ_k для каждого класса — граница становится квадратичной поверхностью.
Регуляризованный дискриминантный анализ (RDA) интерполирует между LDA и QDA через Σ̂_k(α) = α·Σ̂_k + (1-α)·Σ̂_pooled, выбирая α на кросс-валидации.
Когда LDA предпочтительнее QDA на практике?
QDA оценивает g·p(p+1)/2 параметров ковариаций против p(p+1)/2 у LDA. При малом n_k оценки Σ̂_k нестабильны, и QDA проигрывает по MSE. Правило практики: LDA при n_k < 5·p или при близких ковариациях; QDA при n_k >> p и явно разных формах рассеяния классов.
Каноническая корреляция
Канонический корреляционный анализ (CCA) ищет линейные комбинации двух наборов переменных X ∈ ℝ^p и Y ∈ ℝ^q, корреляция между которыми максимальна. Векторы a и b называются каноническими нагрузками, корреляция corr(aᵀX, bᵀY) — каноническим коэффициентом ρ. Обобщает корреляцию Пирсона на векторные случайные величины.
CCA — основа для multi-view learning (текст+изображения), DCCA (глубокая CCA через нейросети) и связана с PLS-регрессией. В нейронауке используется для выравнивания мозговых сигналов с поведением.
Чему равны канонические корреляции ρ_i алгебраически?
После «отбеливания» обоих наборов переменных (умножения на Σ_{XX}^{-1/2} и Σ_{YY}^{-1/2}) ковариация превращается в корреляцию, а её SVD даёт ρ_i как сингулярные значения. Это эквивалентно решению обобщённой задачи на собственные значения Σ_{XX}^{-1}Σ_{XY}Σ_{YY}^{-1}Σ_{YX} a = ρ² a.
Связи многомерного анализа с другими методами
Многомерные методы — мост между классической статистикой и машинным обучением.
- Логистическая регрессия — Альтернатива LDA с другими допущениями
- Машинное обучение и классификация — QDA и LDA как байесовские классификаторы
- PCA и SVD — Общий математический аппарат
Итоги
- Многомерное нормальное: плотность определяется μ и Σ; контуры — эллипсоиды с осями вдоль eigenvectors Σ
- Расстояние Махаланобиса D²_M ~ χ²_p — стандарт для многомерных выбросов
- MANOVA: Λ = |W|/|B+W|; следы Pillai/Hotelling/Roy — альтернативы Wilks при разных типах альтернатив
- LDA: общая Σ → линейная граница δ_k(x) = xᵀΣ⁻¹μ_k - ½μ_kᵀΣ⁻¹μ_k + log π_k
- QDA: отдельные Σ_k → квадратичная граница; RDA интерполирует между LDA и QDA через α
- CCA: ρ_i = сингулярные значения Σ_{XX}^{-1/2}Σ_{XY}Σ_{YY}^{-1/2}; тест Бартлетта на значимость остаточных корреляций