Теория вероятностей

Вероятностные графические модели (продвинутые)

Цели урока

  • Понять структуру HMM и алгоритмы forward-backward, Viterbi, Baum-Welch
  • Освоить CRF как дискриминативное обобщение HMM с произвольными признаками
  • Разобрать mean-field вариационный вывод и связь с ELBO
  • Связать вариационный передающий сообщения вывод с belief propagation на графах

Предварительные знания

  • Байесовская формула и апостериорное распределение
  • KL-дивергенция и теория информации
  • Марковские цепи и динамическое программирование
  • Гауссовские процессы и теорема де Финетти
  • Бесконечномерная вероятность

Как обучать вероятностные модели с миллиардами скрытых переменных - и почему те же инструменты лежат в spaCy NER и в Facebook Graph Inference?

  • **HMM в речи:** Apple Siri, Google Voice до эры нейросетей обрабатывали 95% mobile speech через HMM с Baum-Welch
  • **CRF в NLP:** spaCy и Stanford CoreNLP используют BiLSTM-CRF для NER и POS-tagging; до 2018 это был SOTA
  • **Профильные HMM:** HMMER применяет CRF к поиску белковых семейств; Glimmer/GENSCAN используют Viterbi в gene prediction
  • **Variational message passing:** Facebook Graph Inference и YouTube recommendations масштабируют вывод до миллиардов узлов через VMP

Скрытые марковские модели (HMM)

В 1966 году Леонард Баум и Тед Петри ввели HMM для распознавания речи. К 2010 году эти модели обработали 95% mobile speech recognition в Apple Siri и Google Voice. Структура HMM проста: скрытое состояние z_t эволюционирует как марковская цепь, и каждое порождает наблюдение x_t. Алгоритмы forward-backward и Viterbi - стандартные инструменты NLP, биоинформатики и финансов.

HMM остаются актуальными в биоинформатике: profile HMMs используются в HMMER для поиска белковых семейств, а Viterbi в gene prediction (Glimmer, GENSCAN). В финансах HMM моделируют регимы рынка (бык/медведь) как скрытые состояния.

Какова сложность алгоритма forward-backward для HMM с N состояниями и T наблюдениями?

Условные случайные поля (CRF)

В 2001 году Lafferty, McCallum и Pereira предложили CRF - дискриминативное обобщение HMM. Главное преимущество: CRF моделируют p(z|x) напрямую, минуя p(x), что позволяет использовать произвольные признаки наблюдений без подсчёта их распределения. До 2018 года BiLSTM-CRF был state-of-the-art в named entity recognition - этот подход всё ещё применяется в spaCy для tagging.

BiLSTM-CRF (Huang et al. 2015) - архитектура для sequence tagging: BiLSTM извлекает контекстные представления, CRF моделирует переходные ограничения между метками. До эры трансформеров это был стандарт в NER и POS-tagging.

В чём принципиальное отличие CRF от HMM?

Вариационный передающий сообщения вывод

Для сложных PGM точный вывод обычно невозможен (NP-hard для loopy графов). Variational message passing обобщает belief propagation на mean-field приближения: каждый узел графа обменивается 'сообщениями' с соседями, обновляя локальную аппроксимацию посета. Это масштабируется до миллиардов узлов в Facebook Graph Inference и YouTube recommendations.

Вариационные методы объединяют вероятность и глубокое обучение

ELBO, message passing и графические модели лежат в основе современного байесовского машинного обучения.

  • Теория информации — ELBO = E_q[log p(x,z) - log q(z)] - оптимизационный аналог взаимной информации; KL-дивергенция - центральный объект
  • Большие уклонения — ELBO = -F (вариационная свободная энергия); принцип минимума F в стат. механике аналогичен максимизации ELBO
  • Обменность и байесовский вывод — Variational inference - численный метод вычисления апостериорного p(z|x), существование которого гарантирует теорема де Финетти
  • Бесконечномерная вероятность — Диффузионные модели - меры на пространствах изображений; математически - меры на банаховых пространствах

Итоги

  • **HMM:** скрытое состояние z_t марковская цепь, наблюдение x_t от z_t; forward-backward O(T*N^2), Viterbi для MAP
  • **Baum-Welch:** EM для HMM; E-шаг через forward-backward, M-шаг через переоценку матриц
  • **CRF:** дискриминативная модель p(z|x); произвольные признаки x; обучение через max-likelihood (выпуклая задача)
  • **BiLSTM-CRF:** SOTA в NER/POS-tagging до эры трансформеров; используется в spaCy и Stanford CoreNLP
  • **Mean-field VI:** q = prod q_i; обновления q_i* propto exp(E_q_{-i}[log p])
  • **ELBO:** L(q) = log p(x) - KL(q||p(z|x)); максимизация ELBO = минимизация KL
  • **Loopy BP:** точный на деревьях, приближённый на циклических графах; основа масштабируемого вывода

Почему mean-field вариационный вывод сводится к итеративному обновлению маргиналов?

Вероятностные графические модели (продвинутые)

0

1

Войти