Causal Calculus

Причинное обучение представлений

96% алгоритмов обобщения проваливаются при доменном сдвиге - они учат корреляции, а не причины (Arjovsky 2019, IRM). Причинное представление обучение (CRL) ставит задачу иначе: найти латентные переменные $S$, сохраняющие причинную структуру. LiNGAM и NOTEARS позволяют восстановить эту структуру из данных.

Domain generalization: перенос модели между клиниками с разными протоколами лечения
Открытие биомаркеров: какие молекулярные переменные причинно связаны с заболеванием?
Диентангл-представления: независимые латентные факторы генерации изображений
Причинная структура генома: NOTEARS для восстановления генных сетей регуляции
Робастность к распределительному сдвигу в автономных агентах

Цели урока

Понимать теорему идентифицируемости Хюваринена для не-гауссовых источников
Применять DirectLiNGAM для восстановления причинного порядка из линейной негауссовой модели
Использовать штраф NOTEARS $h(B) = \mathrm{tr}(e^{B\circ B}) - d = 0$ для непрерывной оптимизации DAG

Предварительные знания

Структурные причинные модели и DAG
Анализ независимых компонент (ICA)
Матричная экспонента и её свойства

Теорема идентифицируемости: не-гауссовые источники

CRL: дано $X = g(S, \varepsilon)$, найти $h$ такое, что $h(X) \approx \Pi \Lambda S$ (восстановление $S$ с точностью до перестановки и масштаба). Теорема Хюваринена-Мориоки: если компоненты $S$ независимы и не-гауссовы, то $h$ однозначно определена. Гауссовые источники не идентифицируемы: любое ортогональное перемешивание даёт другое гауссово распределение.

LiNGAM: линейная не-гауссовая SCM

Шимицу (2006): линейная SCM $X = BX + e$ с независимыми не-гауссовыми шумами $e_i$ однозначно идентифицируема. Причинный порядок восстанавливается ICA-разложением. DirectLiNGAM работает за $O(d^3)$ операций: жадно выбирает корневые переменные по максимальной не-гауссовости остатков.

NOTEARS: непрерывная оптимизация DAG

Чжэн (2018): ограничение ацикличности $h(B) = \mathrm{tr}(e^{B\circ B}) - d = 0$ непрерывно и дифференцируемо. Задача $\min_B \|X - XB^T\|_F^2 + \lambda\|B\|_1$ при $h(B) = 0$ решается аугментированным лагранжианом вместо перебора $2^{d(d-1)}$ DAG. Это ключевое - переход от комбинаторного поиска к гладкой оптимизации.

Идентифицируемость: не-Гауссовы источники

Арьовский, Бенжио и коллеги в 2019 году в IRM показали, что 96% алгоритмов обобщения проваливаются при domain shift из-за статистических, а не причинных корреляций. Причинное обучение представлений (CRL) формализует задачу: дано X = g(S, ε), найти h такое, что h(X) ≈ S с точностью до перестановки и масштаба (теорема Хивяринена-Morioka).

Что гарантирует теорема идентифицируемости Хивяринена для ICA?

LiNGAM и NOTEARS: открытие DAG

Shimizu et al. (2006) доказали, что линейная не-Гауссовая SCM однозначно идентифицируема: DirectLiNGAM находит причинный порядок за O(d³) операций. Zheng et al. (2018) NOTEARS: ацикличность h(B)=tr(e^{B∘B})-d=0 непрерывна, что позволяет использовать gradient descent вместо комбинаторного поиска по 2^{d(d-1)} DAG-ам.

Каков ключевой вклад NOTEARS (Zheng 2018) в открытие DAG?

Проверка ацикличности через $h(B)$

DAG $W = \begin{pmatrix} 0 & 0.7 \\ 0 & 0 \end{pmatrix}$: $h(W) \approx 0$. Циклический граф $W = \begin{pmatrix} 0 & 0.7 \\ 0.4 & 0 \end{pmatrix}$: $h(W) > 0$. Штраф непрерывно отделяет DAG от циклических графов.

Итоги

CRL идентифицирует латентные переменные с точностью до перестановки/масштаба при не-гауссовых независимых источниках (теорема Хюваринена)
LiNGAM восстанавливает причинный порядок через ICA; DirectLiNGAM работает за $O(d^3)$
NOTEARS переводит ацикличность $h(B)=0$ в непрерывное ограничение, позволяя использовать градиентный спуск

Связь с другими темами

Причинное представление - основа для устойчивого ML: IRM (Arjovsky 2019) использует инвариантность причинных признаков между доменами. Алгоритмы открытия DAG (NOTEARS, GES, PC) применяются в биоинформатике для восстановления генных регуляторных сетей.

Связанные темы — развивает

Вопросы для размышления

Почему гауссовые источники не идентифицируемы в ICA? Что принципиально меняется при не-гауссовом распределении?
NOTEARS гарантирует нахождение DAG? Или только локального минимума задачи? Какие практические последствия?
IRM ищет признаки, инвариантные между средами. Как это связано с причинностью: какие признаки должны быть инвариантны и почему?