Теория меры
Знаковые меры и теорема Хана
Тотальная вариация TV(P,Q) - это точная мера, насколько хорошо можно различить два распределения. В A/B-тестировании TV определяет минимальную ошибку. В теории информации TV связана с KL-дивергенцией через неравенство Пинскера. Знаковые меры делают эти связи строгими.
- A/B тестирование: тотальная вариация как нижняя граница мощности теста
- Теория информации: неравенство Пинскера: TV <= sqrt(KL/2)
- GAN обучение: TV-дивергенция в оригинальном GAN Гудфеллоу 2014 года
- Статистические тесты: тест Колмогорова-Смирнова через тотальную вариацию
- Дифференциальная приватность: epsilon-DP через тотальную вариацию соседних распределений
- Оптимальный транспорт: тотальная вариация как частный случай Wasserstein при C=0/1
TV(P,Q) = sup_A |P(A)-Q(A)| - это тотальная вариация знаковой меры P-Q. В A/B-тестировании это точная мера «насколько хорошо можно различить два распределения». В статистических тестах TV определяет минимальную вероятность ошибки. Знаковые меры - формальный аппарат за этими понятиями.
**О чём этот урок на самом деле:** знаковые меры - это обобщение мер на случай знака. Разложение Жордана μ=μ⁺-μ⁻ говорит: любую «зарядовую конфигурацию» можно разложить на положительный и отрицательный заряды. TV-расстояние - практически важная метрика между вероятностями.
Знаковые меры: определение и примеры
TV-расстояние: формулы и свойства
Радон-Никодим: производная меры в ML
**Importance sampling**: если сэмплирование из P сложно, сэмплируют из Q и умножают на w(x) = dP/dQ(x) = p(x)/q(x). Это производная Радона-Никодима P по Q. **RKHS**: воспроизводящее ядро Гильбертово пространство - это пространство функций с мерой, абсолютно непрерывной относительно ядровой меры. **GANs**: дискриминатор оценивает dP_real/dP_fake - отношение производных Радона-Никодима.
**Знаковые меры и TV в ML** Практические применения теории знаковых мер • **A/B-тестирование** (TV как мера различимости): TV(P_control, P_treatment) = максимальная статистическая мощность любого теста. Минимальный размер выборки для заданной мощности через TV. • **GAN обучение** (f-divergences через знаковые меры): Дискриминатор GAN оценивает отношение плотностей dP_real/dP_fake. Wasserstein GAN = расстояние, связанное с TV (через двойственность Канторовича-Рубинштейна). • **Importance Sampling / MCMC** (Производная Радона-Никодима как вес): IS-вес w(x) = dP/dQ(x) = p(x)/q(x). AIS (Annealed IS) для нормализующих констант. MCMC через accept/reject = дискретная аппроксимация Р-Н. • **Distributional RL** (Распределение Q-функций через меры): Distributional DQN (Bellemare 2017): Q-функция = вероятностная мера на rewards. TV и Wasserstein для сравнения распределений наград.
Знаковые меры: от электростатики до статистических тестов
TV(P,Q) = sup_A |P(A) - Q(A)| - это **тотальная вариация знаковой меры P-Q**. В статистических тестах это расстояние определяет минимальную вероятность ошибки: если TV(P,Q) = 0.9, то любой тест с вероятностью ошибки 0.1 различает P и Q оптимально. Знаковая мера P-Q - это разность двух вероятностных мер, принимающая как положительные, так и отрицательные значения.
**Связь TV с статистикой:** TV(P,Q) = максимальная разность P(A)-Q(A) по всем событиям A. Это минимальная вероятность ошибки в тесте H₀:P vs H₁:Q по теореме Неймана-Пирсона. **В теории информации:** TV ≤ √(½ KL(P||Q)) (неравенство Пинскера) связывает TV с дивергенцией Кульбака-Лейблера.
Если μ - знаковая мера, μ(A)=-5, μ(B)=3, A∩B=∅. Чему равно μ(A∪B)?
σ-аддитивность: μ(A∪B) = -5+3 = -2. Полная вариация |μ|(A∪B) = |μ(A)|+|μ(B)| = 5+3 = 8. Полная вариация учитывает суммарное колебание, а не итоговый знак.
Разложения Хана и Жордана: P - N разбиение
Любую знаковую меру можно разложить в разность двух неотрицательных мер. Это разложение Жордана: μ = μ⁺ - μ⁻, где μ⁺ и μ⁻ взаимно сингулярны (сосредоточены на непересекающихся частях пространства). Геометрически: μ⁺ - «положительный заряд», μ⁻ - «отрицательный заряд», они живут в разных областях.
Что такое разложение Жордана знаковой меры μ?
Из разбиения Хана X=P∪N: μ⁺(E)=μ(E∩P), μ⁻(E)=-μ(E∩N). Взаимно сингулярны: μ⁺ сосредоточена на P, μ⁻ на N. Полная вариация: |μ| = μ⁺ + μ⁻.
Теорема Радона-Никодима: производная меры
Если вероятность P имеет плотность f относительно меры Лебега: P(A) = ∫_A f(x) dx, то f - это **производная Радона-Никодима** dP/dλ. Теорема Радона-Никодима обобщает это: если ν абсолютно непрерывна относительно μ (ν << μ), то существует функция f с ν(A) = ∫_A f dμ. Это единственная «плотность» меры ν относительно μ.
**Разложение Лебега:** любую меру ν можно разложить как ν = ν_ac + ν_s, где ν_ac << μ (абсолютно непрерывная часть, имеет плотность) и ν_s ⊥ μ (сингулярная часть, сосредоточена на μ-нулевом множестве). Пример: мера Кантора = чисто сингулярная мера без атомов и без плотности.
Что означает ν << μ и что гарантирует теорема Радона-Никодима?
Абсолютная непрерывность: нулевые для μ множества нулевые для ν. Р-Н: ∃f≥0 с ν(A)=∫_A f dμ. Пример: N(0,1)<<λ, плотность = (2π)^{-1/2}e^{-x²/2}.
| Пример | Знаковая мера μ | μ⁺ | μ⁻ |
|---|---|---|---|
| Плотность f=sin(x) на [0,2π] | ∫_E sin(x)dx | ∫_{E∩(0,π)} sin(x)dx = 2 | ∫_{E∩(π,2π)} |sin(x)|dx = 2 |
| Разность N(0,1)-N(1,1) | P(A)-Q(A) | часть где P>Q | часть где Q>P |
| Электростатика | заряд в E | положительный заряд | отрицательный заряд |
| Заряженная частица | q·δ_x₀ | q·δ_x₀ если q>0 | (-q)·δ_x₀ если q<0 |
dTV(P,Q) = sup_A |P(A) - Q(A)| (определение через события) = (1/2)|P-Q|(X) (через полную вариацию разности) = (1/2)∫|p(x) - q(x)|dx (через плотности) = 1 - ∫min(p(x), q(x))dx (через перекрытие) Cвязь с KL: dTV(P,Q) ≤ √(KL(P||Q)/2) (неравенство Пинскера) Оптимальный тест: P(error) = (1 - dTV(P,Q))/2
Упражнения
- Что такое TV-расстояние между вероятностными мерами P и Q? Почему оно равно (1/2)|P-Q|(X)? — TV = sup_A|P(A)-Q(A)| - определение через события; P-Q - знаковая мера; её разложение Хана: X=P_set∪N_set; На P_set: P(A)-Q(A)≥0, на N_set ≤0; TV = (1/2)|P-Q|(X) = (1/2)(μ⁺(X)+μ⁻(X)) через Жордан; В ML: TV = минимальная P(ошибки)/2 для любого теста
- Что говорит теорема Радона-Никодима и как она связана с importance sampling? — ν << μ: μ(A)=0 → ν(A)=0; Р-Н: ∃f с ν(A)=∫_A f dμ; f = dν/dμ; IS: w(x) = dP/dQ(x) = p(x)/q(x); E_P[f] = E_Q[f · dP/dQ] - смена меры интегрирования
Ключевые идеи
- Знаковая мера: σ-аддитивная функция в [-∞,+∞]; примеры: ∫_E f dλ (f меняет знак), P-Q
- Разложение Хана: X=P∪N, μ(E)≥0 на P, ≤0 на N; единственно с точностью до μ-нулевых
- Разложение Жордана: μ=μ⁺-μ⁻; μ⁺(E)=μ(E∩P), μ⁻(E)=-μ(E∩N); μ⁺⊥μ⁻
- Полная вариация: |μ|=μ⁺+μ⁻; TV(P,Q)=sup_A|P(A)-Q(A)|=(1/2)|P-Q|(X)
- TV через плотности: (1/2)∫|p-q|dx; неравенство Пинскера: TV≤√(KL/2)
- Радон-Никодим: ν<<μ ⟹ ∃dν/dμ; importance sampling = смена меры через dP/dQ
Связанные темы
Знаковые меры - ключ к теории информации и статистическому тестированию
- Произведения мер и Фубини — Произведение знаковых мер строится через разложения Жордана компонентов
- Теоремы сходимости — Lp-двойственность (Lp)*=Lq связана с теоремой Радона-Никодима через представление функционалов