Статистика

Многомерный анализ: MANOVA и дискриминантный анализ

Как сравнить две группы клиентов сразу по 12 метрикам качества, если корреляции между метриками превращают наивный подход в гонку ложных открытий?

**Sephora продуктовая аналитика:** MANOVA сравнивает 40 SKU по 8 метрикам поведения покупателей (CTR, AOV, return rate, ...) одновременно — раздельные ANOVA дали бы FWER > 30%
**Биомедицинская диагностика:** LDA на 30 биомаркерах рака молочной железы классифицирует доброкачественные/злокачественные опухоли с AUC 0.97 (Wisconsin Breast Cancer dataset)
**Нейровизуализация fMRI:** каноническая корреляция выравнивает 50 000 вокселей мозга с 200 поведенческими тестами, выявляя связь активности префронтальной коры с рабочей памятью
**Финансовая стабильность:** регуляторы используют QDA на 25 показателях балансов банков для раннего предупреждения о кризисе ликвидности

Предварительные знания

Матрицы, собственные значения и SVD
ANOVA и F-распределение
Многомерное нормальное распределение и ковариация

Многомерный анализ объединяет методы, которые работают с векторными наблюдениями целиком, а не с каждой координатой отдельно. Это меняет интуицию: тест на равенство средних превращается в задачу о различии центров эллипсоидов, классификация — в построение гиперповерхностей в ℝ^p, измерение зависимости — в поиск канонических осей между двумя облаками точек. Общий ингредиент — спектральные разложения симметричных или обобщённо-симметричных матриц.

Геометрический взгляд: ANOVA сравнивает положение точек на прямой → MANOVA сравнивает положение эллипсоидов в ℝ^p; t-тест и LDA — частные случаи одного и того же дискриминантного направления Σ⁻¹(μ₁ - μ₂); регрессия и CCA — частные случаи поиска осей максимальной корреляции.

Современные продолжения: sparse LDA (с L1-регуляризацией) для p >> n, kernel CCA и Deep CCA для нелинейных связей, RDA для регуляризации QDA при малых n_k, нелинейные дискриминанты через нейросети с softmax-выходом — все они интерпретируются как обобщения базовых формул многомерного анализа.

Многомерное нормальное распределение

Многомерное нормальное распределение N_p(μ, Σ) обобщает одномерное нормальное на вектор размерности p. Параметры: вектор средних μ ∈ ℝ^p и положительно определённая ковариационная матрица Σ ∈ ℝ^{p×p}. Плотность зависит от наблюдения только через расстояние Махаланобиса (x-μ)ᵀΣ⁻¹(x-μ), которое корректно учитывает корреляции между переменными.

Тест многомерной нормальности Мардиа использует обобщённую асимметрию b₁,p и эксцесс b₂,p. При нарушении нормальности применяют преобразование Бокса-Кокса или ранговые многомерные методы.

Почему при проверке многомерных выбросов используют расстояние Махаланобиса, а не евклидово?

D²_M = (x-μ)ᵀΣ⁻¹(x-μ) превращает эллипсоид концентрации в сферу: данные сначала декоррелируются (через Σ⁻¹), затем масштабируются по собственным дисперсиям. Евклид игнорирует корреляции и завышает «нормальность» точек вдоль направлений малой дисперсии.

MANOVA: сравнение векторных средних

MANOVA (Multivariate ANOVA) обобщает ANOVA на случай p откликов одновременно. Нулевая гипотеза H₀: μ₁ = μ₂ = ... = μ_g, где μ_k — вектор средних k-й группы. Преимущество над раздельными ANOVA: контроль ошибки первого рода при коррелированных откликах и обнаружение различий, видимых только в линейной комбинации признаков.

Чем MANOVA принципиально лучше p отдельных ANOVA при тестировании равенства групп по p откликам?

Раздельные ANOVA дают FWER ≈ 1 - (1-α)^p и игнорируют корреляции. MANOVA через W⁻¹B находит направление максимального межгруппового сигнала: две группы могут совпадать по каждой координате, но различаться в линейной комбинации (классический пример — кластеры, повёрнутые на 45° к осям).

Линейный и квадратичный дискриминантный анализ

LDA (Linear Discriminant Analysis) строит классификатор, предполагая, что классы N_p(μ_k, Σ) имеют общую ковариацию. Граница решения между классами линейна. QDA (Quadratic) допускает разные Σ_k для каждого класса — граница становится квадратичной поверхностью.

Регуляризованный дискриминантный анализ (RDA) интерполирует между LDA и QDA через Σ̂_k(α) = α·Σ̂_k + (1-α)·Σ̂_pooled, выбирая α на кросс-валидации.

Когда LDA предпочтительнее QDA на практике?

QDA оценивает g·p(p+1)/2 параметров ковариаций против p(p+1)/2 у LDA. При малом n_k оценки Σ̂_k нестабильны, и QDA проигрывает по MSE. Правило практики: LDA при n_k < 5·p или при близких ковариациях; QDA при n_k >> p и явно разных формах рассеяния классов.

Каноническая корреляция

Канонический корреляционный анализ (CCA) ищет линейные комбинации двух наборов переменных X ∈ ℝ^p и Y ∈ ℝ^q, корреляция между которыми максимальна. Векторы a и b называются каноническими нагрузками, корреляция corr(aᵀX, bᵀY) — каноническим коэффициентом ρ. Обобщает корреляцию Пирсона на векторные случайные величины.

CCA — основа для multi-view learning (текст+изображения), DCCA (глубокая CCA через нейросети) и связана с PLS-регрессией. В нейронауке используется для выравнивания мозговых сигналов с поведением.

Чему равны канонические корреляции ρ_i алгебраически?

После «отбеливания» обоих наборов переменных (умножения на Σ_{XX}^{-1/2} и Σ_{YY}^{-1/2}) ковариация превращается в корреляцию, а её SVD даёт ρ_i как сингулярные значения. Это эквивалентно решению обобщённой задачи на собственные значения Σ_{XX}^{-1}Σ_{XY}Σ_{YY}^{-1}Σ_{YX} a = ρ² a.

Связи многомерного анализа с другими методами

Многомерные методы — мост между классической статистикой и машинным обучением.

Логистическая регрессия — Альтернатива LDA с другими допущениями
Машинное обучение и классификация — QDA и LDA как байесовские классификаторы
PCA и SVD — Общий математический аппарат

Итоги

Многомерное нормальное: плотность определяется μ и Σ; контуры — эллипсоиды с осями вдоль eigenvectors Σ
Расстояние Махаланобиса D²_M ~ χ²_p — стандарт для многомерных выбросов
MANOVA: Λ = |W|/|B+W|; следы Pillai/Hotelling/Roy — альтернативы Wilks при разных типах альтернатив
LDA: общая Σ → линейная граница δ_k(x) = xᵀΣ⁻¹μ_k - ½μ_kᵀΣ⁻¹μ_k + log π_k
QDA: отдельные Σ_k → квадратичная граница; RDA интерполирует между LDA и QDA через α
CCA: ρ_i = сингулярные значения Σ_{XX}^{-1/2}Σ_{XY}Σ_{YY}^{-1/2}; тест Бартлетта на значимость остаточных корреляций

Связанные уроки

la-13-eigenvectors

Многомерное нормальное распределение

Почему при проверке многомерных выбросов используют расстояние Махаланобиса, а не евклидово?

MANOVA: сравнение векторных средних

Чем MANOVA принципиально лучше p отдельных ANOVA при тестировании равенства групп по p откликам?

Линейный и квадратичный дискриминантный анализ

Когда LDA предпочтительнее QDA на практике?

Каноническая корреляция

Чему равны канонические корреляции ρ_i алгебраически?

Итоги

Многомерное нормальное: плотность определяется μ и Σ; контуры — эллипсоиды с осями вдоль eigenvectors Σ

Расстояние Махаланобиса D²_M ~ χ²_p — стандарт для многомерных выбросов

MANOVA: Λ = |W|/|B+W|; следы Pillai/Hotelling/Roy — альтернативы Wilks при разных типах альтернатив

LDA: общая Σ → линейная граница δ_k(x) = xᵀΣ⁻¹μ_k - ½μ_kᵀΣ⁻¹μ_k + log π_k

QDA: отдельные Σ_k → квадратичная граница; RDA интерполирует между LDA и QDA через α

CCA: ρ_i = сингулярные значения Σ_{XX}^{-1/2}Σ_{XY}Σ_{YY}^{-1/2}; тест Бартлетта на значимость остаточных корреляций