Теория вероятностей
Случайные матрицы
Случайные матрицы - это не просто абстракция: тот же полукруговой закон Вигнера управляет и шумом в ядерном спектре, и искажениями PCA на данных с тысячами признаков. Один математический объект объясняет всё.
- **Очистка ковариационных матриц:** финансовые портфели из 500 акций дают матрицу 500×500 - отделить сигнал от шума можно только через распределение Маршенко-Пастура из теории случайных матриц
- **Диагностика PCA:** в геномике (проект Cancer Genome Atlas, d=20000 генов, n=200 пациентов) первые главные компоненты смещены - BBP-переход объясняет, при каком SNR PCA перестаёт работать
- **Хвосты риска:** страховые модели для 10 000 полисов используют закон Трейси-Видома для оценки вероятности экстремальных событий на краю спектра
- **Беспроводные сети:** пропускная способность MIMO-систем с n антеннами определяется распределением собственных значений случайной канальной матрицы - прямое применение GOE/GUE
Предварительные знания
- Концентрация меры: неравенство Хансона-Райта для квадратичных форм от гауссовских векторов
- Спектральная теорема: собственные значения и собственные векторы симметричных матриц
- Сходимость по распределению и метод моментов (числа Каталана)
- Основы многомерного нормального распределения и выборочной ковариации
Ансамбль Вигнера и полукруговой закон
Юджин Вигнер в 1955 году предложил моделировать гамильтонианы тяжёлых атомных ядер случайными симметричными матрицами и обнаружил универсальный полукруговой закон для собственных значений. Тот же принцип сегодня используется в анализе портфелей JPMorgan: ковариационная матрица $500 \times 500$ цен акций S&P, содержащая шум, очищается через сравнение спектра с теоретическим распределением Маршенко-Пастура.
Случайная матрица Вигнера $W_{1000}$ (нормировка $1/\sqrt n$). Где сосредоточены все собственные значения?
По полукруговому закону с нормировкой $1/\sqrt n$ собственные значения сосредоточены в $[-2, 2]$. Максимум $\lambda_{\max} \to 2$.
Закон Трейси-Видома: максимум спектра
Крейг Трейси и Харольд Видом в 1994 году нашли точное предельное распределение максимального собственного значения матрицы Вигнера. Удивительно: тот же закон возникает в задачах столь разных, как длина наидлиннейшей возрастающей подпоследовательности случайной перестановки и рост случайных интерфейсов. Ансамбли Riverside Research для оценки риска тяжёлых хвостов в страховых портфелях на 10 000 полисов опираются именно на закон Трейси-Видома.
Флуктуации $\lambda_{\max}(W_n)$ относительно края $2$ имеют порядок:
Флуктуации края имеют масштаб $n^{-2/3}$ - это и есть закон Трейси-Видома, медленнее, чем $n^{-1/2}$ ЦПТ.
Фазовый переход PCA: модель спайка
Жинхо Баик, Жерар Бен-Арус и Сандрин Пеше в 2005 году обнаружили резкий фазовый переход в PCA: при $d/n \to \gamma$ слабый сигнал ниже порога $\sigma\sqrt\gamma$ полностью теряется в шуме. Это объясняет, почему генетические анализы с $d = 20000$ генов и $n = 200$ пациентами в проекте The Cancer Genome Atlas дают смещённые главные компоненты, требуя регуляризации.
PCA с $d = 500$ признаками и $n = 2000$ наблюдениями. Минимальный SNR для детекции сигнала?
Порог BBP: $\mathrm{SNR}_* = \sqrt{d/n} = \sqrt{0.25} = 0.5$. Ниже первый главный компонент некоррелирован с сигналом.
Где живёт теория случайных матриц
Случайные матрицы стоят на пересечении вероятности, линейной алгебры и математической физики. Спектральная теория соединяет их с PCA, а GOE/GUE - с квантовой механикой и свободной вероятностью.
- Концентрация меры — Неравенство Хансона-Райта - основа оценок для квадратичных форм от случайных матриц
- Оптимальный транспорт — Расстояние Вассерштейна между спектральными мерами - метрика для сравнения ансамблей
- Свободная вероятность — Свободная конволюция Воикулеску описывает сумму и произведение независимых случайных матриц
- Диагонализация — Ансамбль GOE - вероятностная мера на пространстве симметричных матриц с явной плотностью по собственным значениям
Итоги
- **Полукруговой закон:** собственные значения нормированной матрицы Вигнера сходятся к полукруговой мере на [-2, 2] - универсально, независимо от распределения элементов
- **Закон Трейси-Видома:** флуктуации максимального собственного значения имеют масштаб n^{-2/3} и описываются детерминантом Фредгольма ядра Эйри
- **BBP-переход:** PCA детектирует сигнал только при SNR > sqrt(d/n); ниже порога первый главный компонент некоррелирован с истинным сигналом
- **Маршенко-Пастура:** распределение собственных значений выборочной ковариационной матрицы при d/n → γ; используется для очистки финансовых матриц
- **Практика:** numpy/scipy дают эмпирический спектр; сравнение с теорией Вигнера или Маршенко-Пастура - стандартный диагностический приём