Теория вероятностей

Случайные матрицы

Случайные матрицы - это не просто абстракция: тот же полукруговой закон Вигнера управляет и шумом в ядерном спектре, и искажениями PCA на данных с тысячами признаков. Один математический объект объясняет всё.

  • **Очистка ковариационных матриц:** финансовые портфели из 500 акций дают матрицу 500×500 - отделить сигнал от шума можно только через распределение Маршенко-Пастура из теории случайных матриц
  • **Диагностика PCA:** в геномике (проект Cancer Genome Atlas, d=20000 генов, n=200 пациентов) первые главные компоненты смещены - BBP-переход объясняет, при каком SNR PCA перестаёт работать
  • **Хвосты риска:** страховые модели для 10 000 полисов используют закон Трейси-Видома для оценки вероятности экстремальных событий на краю спектра
  • **Беспроводные сети:** пропускная способность MIMO-систем с n антеннами определяется распределением собственных значений случайной канальной матрицы - прямое применение GOE/GUE

Предварительные знания

  • Концентрация меры: неравенство Хансона-Райта для квадратичных форм от гауссовских векторов
  • Спектральная теорема: собственные значения и собственные векторы симметричных матриц
  • Сходимость по распределению и метод моментов (числа Каталана)
  • Основы многомерного нормального распределения и выборочной ковариации
  • Концентрация меры
  • Диагонализация и спектральная теорема

Ансамбль Вигнера и полукруговой закон

Юджин Вигнер в 1955 году предложил моделировать гамильтонианы тяжёлых атомных ядер случайными симметричными матрицами и обнаружил универсальный полукруговой закон для собственных значений. Тот же принцип сегодня используется в анализе портфелей JPMorgan: ковариационная матрица $500 \times 500$ цен акций S&P, содержащая шум, очищается через сравнение спектра с теоретическим распределением Маршенко-Пастура.

Случайная матрица Вигнера $W_{1000}$ (нормировка $1/\sqrt n$). Где сосредоточены все собственные значения?

По полукруговому закону с нормировкой $1/\sqrt n$ собственные значения сосредоточены в $[-2, 2]$. Максимум $\lambda_{\max} \to 2$.

Закон Трейси-Видома: максимум спектра

Крейг Трейси и Харольд Видом в 1994 году нашли точное предельное распределение максимального собственного значения матрицы Вигнера. Удивительно: тот же закон возникает в задачах столь разных, как длина наидлиннейшей возрастающей подпоследовательности случайной перестановки и рост случайных интерфейсов. Ансамбли Riverside Research для оценки риска тяжёлых хвостов в страховых портфелях на 10 000 полисов опираются именно на закон Трейси-Видома.

Флуктуации $\lambda_{\max}(W_n)$ относительно края $2$ имеют порядок:

Флуктуации края имеют масштаб $n^{-2/3}$ - это и есть закон Трейси-Видома, медленнее, чем $n^{-1/2}$ ЦПТ.

Фазовый переход PCA: модель спайка

Жинхо Баик, Жерар Бен-Арус и Сандрин Пеше в 2005 году обнаружили резкий фазовый переход в PCA: при $d/n \to \gamma$ слабый сигнал ниже порога $\sigma\sqrt\gamma$ полностью теряется в шуме. Это объясняет, почему генетические анализы с $d = 20000$ генов и $n = 200$ пациентами в проекте The Cancer Genome Atlas дают смещённые главные компоненты, требуя регуляризации.

PCA с $d = 500$ признаками и $n = 2000$ наблюдениями. Минимальный SNR для детекции сигнала?

Порог BBP: $\mathrm{SNR}_* = \sqrt{d/n} = \sqrt{0.25} = 0.5$. Ниже первый главный компонент некоррелирован с сигналом.

Где живёт теория случайных матриц

Случайные матрицы стоят на пересечении вероятности, линейной алгебры и математической физики. Спектральная теория соединяет их с PCA, а GOE/GUE - с квантовой механикой и свободной вероятностью.

  • Концентрация меры — Неравенство Хансона-Райта - основа оценок для квадратичных форм от случайных матриц
  • Оптимальный транспорт — Расстояние Вассерштейна между спектральными мерами - метрика для сравнения ансамблей
  • Свободная вероятность — Свободная конволюция Воикулеску описывает сумму и произведение независимых случайных матриц
  • Диагонализация — Ансамбль GOE - вероятностная мера на пространстве симметричных матриц с явной плотностью по собственным значениям

Итоги

  • **Полукруговой закон:** собственные значения нормированной матрицы Вигнера сходятся к полукруговой мере на [-2, 2] - универсально, независимо от распределения элементов
  • **Закон Трейси-Видома:** флуктуации максимального собственного значения имеют масштаб n^{-2/3} и описываются детерминантом Фредгольма ядра Эйри
  • **BBP-переход:** PCA детектирует сигнал только при SNR > sqrt(d/n); ниже порога первый главный компонент некоррелирован с истинным сигналом
  • **Маршенко-Пастура:** распределение собственных значений выборочной ковариационной матрицы при d/n → γ; используется для очистки финансовых матриц
  • **Практика:** numpy/scipy дают эмпирический спектр; сравнение с теорией Вигнера или Маршенко-Пастура - стандартный диагностический приём

Связанные уроки

  • la-15-svd
Случайные матрицы

0

1

Войти