Статистика
Факторный анализ: скрытая реальность данных
Big Five - пять черт личности (открытость, сознательность, экстраверсия, доброжелательность, нейротизм) - это результат факторного анализа тысяч прилагательных. Та же математика лежит в основе Fama-French моделей на Уолл-стрит и контроля популяционной стратификации в геномике.
- Big Five личностные тесты в HR и клинической психологии
- Fama-French 5 факторов для объяснения доходности акций
- LSA/LSI поиск скрытых тем в текстовых данных NLP
- GWAS: контроль популяционной стратификации по SNP-маркерам
- Рекомендательные системы Netflix: латентные факторы вкусов
- Нейровизуализация fMRI: поиск функциональных сетей мозга
Архитектура применений
**Факторный анализ в индустрии** Везде, где нужно найти скрытые драйверы наблюдаемых корреляций. • **Психометрика (Big Five)**: FA 50 вопросов -> 5 факторов личности - Openness, Conscientiousness, Extraversion, Agreeableness, Neuroticism - результат FA тысяч прилагательных. Используется в HR-отборе. • **NLP: LSA/LSI**: FA матрицы term-document - Latent Semantic Analysis - FA для поиска скрытых тем. Семантическая близость слов через общие факторы-темы. • **Финансы: факторные модели**: Fama-French 5 факторов - Доходности акций = нагрузки на рыночный, стоимостной, размерный, прибыльностный, инвестиционный факторы. • **Геномика: GWAS**: Контроль популяционной стратификации - FA SNP-маркеров выявляет гаплогруппы - скрытые факторы, объясняющие корреляции между генами разных популяций.
Word2Vec, BERT и g-фактор - это одно и то же
Word2Vec находит 300 скрытых измерений, объясняющих корреляции между словами. BERT - 768 контекстуальных паттернов. В 1904 году психолог Спирман сделал то же самое с тестами IQ: обнаружил **g-фактор** - скрытый «общий интеллект», порождающий корреляции между словарным запасом, счётом и пространственным мышлением. Это и есть факторный анализ.
Модель FA: **X = Λf + ε**, где Λ - матрица нагрузок (p × k), f ~ N(0, I) - k латентных факторов, ε ~ N(0, Ψ) - уникальный шум каждой переменной. В отличие от PCA, FA моделирует механизм порождения данных - не просто сжимает дисперсию.
Ковариационная структура: Cov(X) = ΛΛᵀ + Ψ. Ψ диагональна - уникальности (variance не объяснённая факторами). Отсюда идентификация: MLE по правдоподобию гауссовского X.
FA в финансах: Fama-French модель - это FA доходностей акций. Три «латентных фактора» (рынок, стоимость, размер) объясняют корреляции между тысячами акций. Хедж-фонды торгуют именно этими факторами.
В чём принципиальное отличие FA от PCA: FA моделирует X = Λf + ε с диагональной Ψ, PCA просто разлагает ковариационную матрицу. Что означает диагональность Ψ для интерпретации факторов?
Нагрузки, коммунальности и EM-алгоритм
Факторная нагрузка λᵢⱼ - корреляция между i-й переменной и j-м фактором. **Коммунальность** hᵢ² = Σⱼ λᵢⱼ² - доля дисперсии переменной, объяснённая всеми факторами. Уникальность ψᵢ = 1 - hᵢ².
Правило выбора числа факторов: критерий Кайзера (eigenvalue > 1), scree plot (колено), параллельный анализ (Horn's method - самый точный). В sklearn: FactorAnalysis не выбирает k автоматически - нужно задать.
Тест 'Словарный запас' имеет нагрузки λ₁=0.72 и λ₂=0.15. Вычислите коммунальность h² и уникальность ψ. Что означает ψ = 0.47 содержательно?
Varimax: зачем вращать факторы
Решение FA не уникально: любой поворот факторного пространства ΛR (R ортогональная) даёт такое же правдоподобие. Ротация выбирается из соображений интерпретируемости. **Varimax** максимизирует дисперсию квадратов нагрузок внутри каждого фактора - нагрузки стремятся к 0 или 1, факторы становятся читаемыми.
Varimax (ортогональная) - факторы независимы. Promax (косоугольная) - факторы могут коррелировать, реалистичнее для психологических конструктов (тревожность и депрессия связаны). В sklearn rotation='varimax' доступна с version 0.24.
LSA (Latent Semantic Analysis) в NLP - это FA на матрице term-document. «Латентные семантические факторы» = скрытые темы. Слова 'кот' и 'кошка' нагружены на один фактор даже без явного указания синонимии.
После Varimax-ротации переменные 'тревога', 'беспокойство', 'паника' нагружены на F1, а 'апатия', 'усталость', 'безразличие' - на F2. Как содержательно интерпретировать эти факторы? Почему ротация не меняет log-likelihood модели?
Упражнения
- В чём разница между PCA и FA? Когда каждый из методов предпочтительнее? — PCA: детерминированное разложение X = PC, нет шума, цель - максимизировать объяснённую дисперсию FA: вероятностная модель X = Λf + ε, уникальность ψ, цель - найти латентные факторы FA предпочтителен когда нужна интерпретируемость и каузальная модель (психометрика, опросники)
- Как определить число факторов? Какие методы существуют и в чём их ограничения? — Критерий Кайзера (eigenvalue > 1) - консервативен, часто завышает число факторов Scree plot - субъективный выбор 'колена' Horn's parallel analysis - сравнение с случайными данными, наиболее точен
Ключевые идеи
- FA: X = Λf + ε - латентные факторы f порождают наблюдаемые корреляции
- Коммунальность h² = Σλᵢⱼ² - объяснённая доля дисперсии; ψ = 1 - h²
- MLE через EM-алгоритм: E-шаг E[f|X], M-шаг обновляет Λ и Ψ
- Varimax максимизирует дисперсию квадратов нагрузок - поляризует к 0/1
- FA vs PCA: FA - каузальная модель, PCA - математическое сжатие
- Применения: психометрика (Big Five), LSA/NLP, Fama-French, геномика
Связанные темы
FA - вероятностный родственник PCA, предшественник topic models и вариационных автоэнкодеров.
- PCA — FA - вероятностное расширение PCA (Probabilistic PCA = FA с Ψ = σ²I)
- Байесовская статистика — Байесовский FA: приоры на нагрузки, автоматический выбор числа факторов