Статистика

Факторный анализ: скрытая реальность данных

Big Five - пять черт личности (открытость, сознательность, экстраверсия, доброжелательность, нейротизм) - это результат факторного анализа тысяч прилагательных. Та же математика лежит в основе Fama-French моделей на Уолл-стрит и контроля популяционной стратификации в геномике.

Big Five личностные тесты в HR и клинической психологии
Fama-French 5 факторов для объяснения доходности акций
LSA/LSI поиск скрытых тем в текстовых данных NLP
GWAS: контроль популяционной стратификации по SNP-маркерам
Рекомендательные системы Netflix: латентные факторы вкусов
Нейровизуализация fMRI: поиск функциональных сетей мозга

Архитектура применений

**Факторный анализ в индустрии** Везде, где нужно найти скрытые драйверы наблюдаемых корреляций. • **Психометрика (Big Five)**: FA 50 вопросов -> 5 факторов личности - Openness, Conscientiousness, Extraversion, Agreeableness, Neuroticism - результат FA тысяч прилагательных. Используется в HR-отборе. • **NLP: LSA/LSI**: FA матрицы term-document - Latent Semantic Analysis - FA для поиска скрытых тем. Семантическая близость слов через общие факторы-темы. • **Финансы: факторные модели**: Fama-French 5 факторов - Доходности акций = нагрузки на рыночный, стоимостной, размерный, прибыльностный, инвестиционный факторы. • **Геномика: GWAS**: Контроль популяционной стратификации - FA SNP-маркеров выявляет гаплогруппы - скрытые факторы, объясняющие корреляции между генами разных популяций.

Word2Vec, BERT и g-фактор - это одно и то же

Word2Vec находит 300 скрытых измерений, объясняющих корреляции между словами. BERT - 768 контекстуальных паттернов. В 1904 году психолог Спирман сделал то же самое с тестами IQ: обнаружил **g-фактор** - скрытый «общий интеллект», порождающий корреляции между словарным запасом, счётом и пространственным мышлением. Это и есть факторный анализ.

Модель FA: **X = Λf + ε**, где Λ - матрица нагрузок (p × k), f ~ N(0, I) - k латентных факторов, ε ~ N(0, Ψ) - уникальный шум каждой переменной. В отличие от PCA, FA моделирует механизм порождения данных - не просто сжимает дисперсию.

Ковариационная структура: Cov(X) = ΛΛᵀ + Ψ. Ψ диагональна - уникальности (variance не объяснённая факторами). Отсюда идентификация: MLE по правдоподобию гауссовского X.

FA в финансах: Fama-French модель - это FA доходностей акций. Три «латентных фактора» (рынок, стоимость, размер) объясняют корреляции между тысячами акций. Хедж-фонды торгуют именно этими факторами.

В чём принципиальное отличие FA от PCA: FA моделирует X = Λf + ε с диагональной Ψ, PCA просто разлагает ковариационную матрицу. Что означает диагональность Ψ для интерпретации факторов?

Нагрузки, коммунальности и EM-алгоритм

Факторная нагрузка λᵢⱼ - корреляция между i-й переменной и j-м фактором. **Коммунальность** hᵢ² = Σⱼ λᵢⱼ² - доля дисперсии переменной, объяснённая всеми факторами. Уникальность ψᵢ = 1 - hᵢ².

Правило выбора числа факторов: критерий Кайзера (eigenvalue > 1), scree plot (колено), параллельный анализ (Horn's method - самый точный). В sklearn: FactorAnalysis не выбирает k автоматически - нужно задать.

Тест 'Словарный запас' имеет нагрузки λ₁=0.72 и λ₂=0.15. Вычислите коммунальность h² и уникальность ψ. Что означает ψ = 0.47 содержательно?

Varimax: зачем вращать факторы

Решение FA не уникально: любой поворот факторного пространства ΛR (R ортогональная) даёт такое же правдоподобие. Ротация выбирается из соображений интерпретируемости. **Varimax** максимизирует дисперсию квадратов нагрузок внутри каждого фактора - нагрузки стремятся к 0 или 1, факторы становятся читаемыми.

Varimax (ортогональная) - факторы независимы. Promax (косоугольная) - факторы могут коррелировать, реалистичнее для психологических конструктов (тревожность и депрессия связаны). В sklearn rotation='varimax' доступна с version 0.24.

LSA (Latent Semantic Analysis) в NLP - это FA на матрице term-document. «Латентные семантические факторы» = скрытые темы. Слова 'кот' и 'кошка' нагружены на один фактор даже без явного указания синонимии.

После Varimax-ротации переменные 'тревога', 'беспокойство', 'паника' нагружены на F1, а 'апатия', 'усталость', 'безразличие' - на F2. Как содержательно интерпретировать эти факторы? Почему ротация не меняет log-likelihood модели?

Упражнения

В чём разница между PCA и FA? Когда каждый из методов предпочтительнее? — PCA: детерминированное разложение X = PC, нет шума, цель - максимизировать объяснённую дисперсию FA: вероятностная модель X = Λf + ε, уникальность ψ, цель - найти латентные факторы FA предпочтителен когда нужна интерпретируемость и каузальная модель (психометрика, опросники)
Как определить число факторов? Какие методы существуют и в чём их ограничения? — Критерий Кайзера (eigenvalue > 1) - консервативен, часто завышает число факторов Scree plot - субъективный выбор 'колена' Horn's parallel analysis - сравнение с случайными данными, наиболее точен

Ключевые идеи

FA: X = Λf + ε - латентные факторы f порождают наблюдаемые корреляции
Коммунальность h² = Σλᵢⱼ² - объяснённая доля дисперсии; ψ = 1 - h²
MLE через EM-алгоритм: E-шаг E[f|X], M-шаг обновляет Λ и Ψ
Varimax максимизирует дисперсию квадратов нагрузок - поляризует к 0/1
FA vs PCA: FA - каузальная модель, PCA - математическое сжатие
Применения: психометрика (Big Five), LSA/NLP, Fama-French, геномика

Связанные темы

FA - вероятностный родственник PCA, предшественник topic models и вариационных автоэнкодеров.

PCA — FA - вероятностное расширение PCA (Probabilistic PCA = FA с Ψ = σ²I)
Байесовская статистика — Байесовский FA: приоры на нагрузки, автоматический выбор числа факторов

Связанные уроки

la-15-svd