Causal Calculus

Байесовские сети для причинности

Почему регрессия Y на X не даёт причинный эффект, даже если модель статистически значима? Что нужно добавить к статистике, чтобы получить причинность?

**Медицинские исследования:** байесовские сети позволяют моделировать, как лечение влияет на биомаркеры, отделяя прямые и опосредованные эффекты
**AlphaFold2:** причинные структуры в эволюционных ограничениях белков - отделение причинных коэволюций от ложных корреляций
**Реклама:** Facebook использует причинные байесовские сети для разделения эффекта показа рекламы и эффекта органического спроса
**Диагностика неисправностей:** NASA применяет причинные DAG для диагностики неисправностей в системах Space Shuttle по телеметрии

Предварительные знания

Теория вероятностей: условная независимость
Теория графов: DAG, пути, связность
do-исчисление Перля: основы

Причинная байесовская сеть - это DAG G = (V, E) вместе с условными распределениями P(Xi | Pa(Xi)) для каждого узла. DAG кодирует причинные предположения: ребро X -> Y означает, что X является прямой причиной Y. Совместное распределение факторизуется через Марковское условие.

Проверяемость: все условные независимости, предсказанные d-сепарацией, можно проверить статистически. Это позволяет тестировать причинные допущения, а не принимать их на веру - разница с классической регрессией принципиальна.

Структура DAG: вершины, рёбра, факторизация

Байесовская сеть кодирует совместное распределение через направленный ацикличный граф (DAG). Вершины - случайные величины, направленные рёбра задают отношения непосредственной причинности или прямой статистической зависимости. Ацикличность гарантирует существование топологического порядка и хорошо определённую факторизацию совместной плотности. Pearl и Heckerman в 1990-х показали, что DAG - универсальное средство для компактного представления многомерных распределений в задачах диагностики, кредитного скоринга, генетики.

Топологический порядок вершин не уникален, но факторизация инвариантна относительно его выбора. Это позволяет реализовывать вывод через любой допустимый порядок и оптимизировать порядок по числу операций.

На уровне реализации байесовская сеть хранится как массив условных распределений (CPT для дискретных или CPD для непрерывных). Граф задан списком родителей каждой вершины. Сложность хранения O(n * max_parents * max_values^max_parents), что делает практичными сети с десятками тысяч вершин при ограниченной плотности.

Что гарантирует ацикличность графа в байесовской сети?

Условная независимость и d-разделение

Структура DAG задаёт ограничения на условные независимости через геометрию путей. Критерий d-разделения (Pearl 1988) даёт алгоритмическое правило проверки независимостей: если каждый путь между X и Y блокирован множеством Z, то X независимы от Y при условии Z. Этот критерий полон относительно класса всех распределений, совместимых с графом.

Тест d-разделения работает за O(V + E) для запроса о паре вершин через поиск в ширину с отметкой открытости/блокировки на каждом ребре. Это позволяет строить алгоритмы открытия структуры, не перебирая все распределения.

Обусловливание по коллайдеру или его потомку создаёт ложную зависимость - selection bias. Это объясняет феномен Berkson: пациенты в стационаре кажутся хуже здоровыми по одним показателям при контроле на других, хотя причинной связи нет.

В графе A -> B <- C, что происходит с зависимостью A и C при обусловливании по B?

Алгоритмы вероятностного вывода

Задача вывода: вычислить P(Q | E) для запрашиваемых переменных Q при свидетельствах E. Точный вывод в общем случае NP-трудный (Cooper 1990), но в графах с малым treewidth решается за полиномиальное время через variable elimination или junction tree. При большом treewidth применяют приближённые методы - сэмплирование и вариационный вывод.

Junction tree (Lauritzen-Spiegelhalter 1988) - канонический точный алгоритм. Превращает DAG в дерево клик через триангуляцию морального графа. Прохождение сообщений по дереву даёт все маргиналы за один проход. Сложность экспоненциальна по размеру наибольшей клики.

Что определяет вычислительную сложность точного вывода в байесовской сети?

Связи с другими областями

Причинные байесовские сети - мост между графической теорией вероятностей и каузальным выводом.

do-исчисление — Связанная тема
Структурные уравнения (SEM) — Связанная тема
Алгоритмы открытия причинных связей — Связанная тема
Контрфактуальный вывод — Связанная тема

Итоги

Причинный DAG G = (V,E) кодирует причинные предположения; совместное P = prod P(Xi|Pa(Xi)) - марковская факторизация
d-сепарация: Z d-разделяет X и Y, если все пути заблокированы (цепи/вилки с узлом в Z, коллайдеры без узлов из Z)
Коллайдер X->Z<-Y: маргинально независимые X и Y становятся зависимыми при кондиционировании на Z
do(X=x) - интервенция: удаляет входящие в X рёбра, разрывая backdoor-конфаундинг
Backdoor criterion: P(Y|do(X)) = sum_z P(Y|X,Z)P(Z), если Z блокирует все backdoor-пути
Все предсказанные d-сепарацией независимости проверяемы статистически - это ключевое преимущество перед непроверяемыми допущениями

В DAG X -> Z <- Y (коллайдер Z): что происходит с зависимостью X и Y при кондиционировании на Z?

Коллайдер создаёт selection bias: маргинально X и Y независимы, но кондиционирование на Z открывает путь. Пример: если Z = 'поступил в вуз', X = 'умный', Y = 'усердный' - среди поступивших умные могут казаться менее усердными, хотя в генеральной совокупности корреляции нет.

Структура DAG: вершины, рёбра, факторизация

Что гарантирует ацикличность графа в байесовской сети?

Условная независимость и d-разделение

В графе A -> B <- C, что происходит с зависимостью A и C при обусловливании по B?

Алгоритмы вероятностного вывода

Что определяет вычислительную сложность точного вывода в байесовской сети?

Итоги

Причинный DAG G = (V,E) кодирует причинные предположения; совместное P = prod P(Xi|Pa(Xi)) - марковская факторизация

d-сепарация: Z d-разделяет X и Y, если все пути заблокированы (цепи/вилки с узлом в Z, коллайдеры без узлов из Z)

Коллайдер X->Z<-Y: маргинально независимые X и Y становятся зависимыми при кондиционировании на Z

do(X=x) - интервенция: удаляет входящие в X рёбра, разрывая backdoor-конфаундинг

Backdoor criterion: P(Y|do(X)) = sum_z P(Y|X,Z)P(Z), если Z блокирует все backdoor-пути

Все предсказанные d-сепарацией независимости проверяемы статистически - это ключевое преимущество перед непроверяемыми допущениями