Математический анализ

Последовательности: как сходится бесконечность

1821 год: Коши публикует «Cours d'analyse» и впервые даёт строгое определение предела. До него 150 лет математики оперировали «бесконечно малыми» без определения. Сегодня эта формула живёт в исходниках PyTorch, и на её следствиях обучается каждая нейросеть в мире.

Training loss SGD - последовательность, сходящаяся к минимуму. Скорость сходимости определяет стоимость обучения.
PageRank power iteration: $p_{n+1} = M \cdot p_n$ - 50 итераций на $10^{11}$ страниц. Работает, потому что последовательность сходится.
Число $e$ - предел $(1 + 1/n)^n$. Стоит в основе softmax, экспоненциального затухания, банковских расчётов.

Что такое последовательность

Последовательность - это упорядоченный список чисел $a_1, a_2, a_3, \ldots$, где каждому натуральному числу $n$ поставлено в соответствие одно число $a_n$. Формально: функция $a: \mathbb{N} \to \mathbb{R}$.

Прочтение	Что это	Кто так читает
Список с индексами	$a_n$ - функция на $\mathbb{N}$	Математик, учебник
Итеративный процесс	Следующее состояние из предыдущего	Программист (for-loop, `while not converged`)
Траектория во времени	Система, эволюционирующая пошагово	ML-инженер (training loss на эпохе $n$)

Последовательности бывают двух видов: **замкнутая форма** $a_n = f(n)$ - значение вычисляется напрямую по номеру, и **рекуррентная** $a_{n+1} = f(a_n)$ - каждый следующий элемент зависит от предыдущего.

В ML рекуррентные последовательности встречаются повсеместно: SGD ($\theta_{n+1} = \theta_n - \eta \nabla L(\theta_n)$), Adam, RNN, диффузионные модели - это всё рекуррентности. Замкнутая форма - редкость в реальных задачах.

**Монотонность**: последовательность монотонно возрастает, если $a_{n+1} \geq a_n$ для всех $n$, и монотонно убывает, если $a_{n+1} \leq a_n$. Это важное структурное свойство - его используют для доказательства сходимости.

Последовательность	Что сходится	Где работает
Training loss SGD	$L_n \to$ минимум loss	Обучение любой нейросети
Моменты Adam	$m_n, v_n$ - экспоненциальные скользящие	По умолчанию в PyTorch, TensorFlow, JAX
PageRank power iteration	$p_n \to$ стационарное распределение	Google Search с первого дня
$(1 + 1/n)^n$	$\to e \approx 2.718$	Непрерывное начисление процентов, softmax

Градиентный спуск задаётся рекуррентностью $\theta_{n+1} = \theta_n - \eta \nabla L(\theta_n)$. Какой вид задания последовательности это?

Предел последовательности - определение Коши

1821 год: Коши публикует «Cours d'analyse» и впервые даёт строгое определение предела. До него 150 лет математики оперировали «бесконечно малыми» без определения. Прорыв Коши - превратить «близко» в игру двух игроков.

Читается как диалог двух инженеров. Скептик: «Хочу твою последовательность внутри окна размера $\varepsilon = 0.001$ вокруг $L$.» Защитник: «Тогда жди $N = 10{,}000$ итераций. После каждый член влезет.» Если на **любой** $\varepsilon$ у защитника есть ответ - предел существует.

**Зачем строгость**: без числовой точности «близко» - ощущение. С $\varepsilon$ «близко» становится целым числом $N$, которое машина может посчитать. Именно поэтому одна и та же формула влезает в компилятор, в цикл обучения и в систему управления.

**Арифметика пределов**: когда пределы существуют, они ведут себя как числа. $\lim(a_n + b_n) = \lim a_n + \lim b_n$, $\lim(a_n \cdot b_n) = \lim a_n \cdot \lim b_n$, $\lim(a_n / b_n) = \lim a_n / \lim b_n$ при $\lim b_n \neq 0$.

Стандартный трюк: деление на старшую степень

Для рациональных последовательностей

Найти $\lim_{n \to \infty} \frac{3n^2 + 2n - 1}{n^2 + 5}$. Оба слагаемых стремятся к $\infty$ - неопределённость $\frac{\infty}{\infty}$. Делим числитель и знаменатель на $n^2$: $$= \lim \frac{3 + 2/n - 1/n^2}{1 + 5/n^2} = \frac{3 + 0 - 0}{1 + 0} = 3$$ Суть: для рациональных последовательностей важны только старшие степени. Именно поэтому в анализе сложности пишут $O(n^2)$ и отбрасывают младшие - та же математика.

Последовательность $a_n = (-1)^n / n$: $-1, 0.5, -0.33, 0.25, \ldots$ - сходится или расходится?

Критерии сходимости

Иногда найти предел трудно, но нужно знать, существует ли он вообще - чтобы решить, продолжать ли обучение, доказать корректность алгоритма, оценить worst-case время работы.

**Теорема Вейерштрасса (монотонная сходимость)**: если последовательность **монотонна** (только растёт или только убывает) и **ограничена** (живёт внутри какого-то интервала), то она **обязательно сходится**. Образ: лестница под потолком. Можно только вверх, но потолок мешает. Придётся остановиться на каком-то уровне $\leq$ потолок.

Число e из финансов

$e$ как предел непрерывного начисления

Вклад $1, годовая ставка 100%, начисление $n$ раз в год: $$a_n = \left(1 + \frac{1}{n}\right)^n$$ $a_1 = 2$, $a_5 \approx 2.49$, $a_{100} \approx 2.705$, $a_{10^6} \approx 2.71828$... **Монотонна**: $a_{n+1} > a_n$ (доказуемо). **Ограничена**: $a_n < 3$ всегда. Теорема Вейерштрасса: предел существует. Называем его $e \approx 2.71828$. Этот предел - непрерывное начисление: потолок того, что даёт бесконечное реинвестирование. Каждый softmax в нейросети работает на $e$.

**Критерий Коши**: последовательность сходится тогда и только тогда, когда она фундаментальна: $\forall \varepsilon > 0 \; \exists N: \forall m, n > N \; |a_m - a_n| < \varepsilon$. Члены сами по себе сближаются - и этого достаточно для сходимости, даже если мы не знаем предела.

**Три режима расходимости** - важно уметь их различать: 1. $a_n = n$: убегание в $+\infty$. В ML: «loss взорвался», слишком большой learning rate. 2. $a_n = (-1)^n$: осцилляция. В ML: оптимизатор прыгает через долину. 3. $a_n = \sin(n)$: блуждание без тренда. В ML: «обучение нестабильно, перезапустите с другим seed».

**Скорость сходимости определяет стоимость обучения**: $O(1/\sqrt{n})$ у Монте-Карло vs $O(\rho^n)$ у градиентного спуска vs $O(1/n)$ у усреднённого SGD. Одна теорема о последовательностях определяет, обучится модель за день или за месяц.

«Стремится к нулю» = «в итоге станет нулём»

Предел - это тенденция, а не конечное значение

$\frac{1}{n}$ никогда не равно нулю - $\frac{1}{10^{12}}$ всё ещё положительно. Члены становятся *сколь угодно близки* к нулю. В ML: loss тоже никогда не обнулится, но может опуститься ниже любой заданной точности.

Последовательность $a_n = (1 + 1/n)^n$ монотонно возрастает и ограничена сверху числом 3. Что следует из теоремы Вейерштрасса?

Итог

Последовательность = упорядоченный список чисел $a_1, a_2, \ldots$ - функция на $\mathbb{N}$
Предел - тенденция, не конечное значение. Строго: $\forall \varepsilon > 0 \; \exists N: \forall n > N \; |a_n - L| < \varepsilon$
Сходимость/расходимость - бинарный вопрос за каждым обучением и итеративным солвером
Теорема Вейерштрасса: монотонность + ограниченность => сходимость
Три режима расходимости: убегание, осцилляция, блуждание - каждый имеет аналог в ML

Что дальше

Последовательности - алфавит. Весь calculus построен на их пределах:

Ряды — Частичные суммы образуют последовательность. Ряды Фурье, Тейлора - всё это пределы последовательностей
Производная — Предел разностных отношений. Градиент, backprop, автодифференцирование - живут здесь
Интеграл — Предел сумм Римана. Каждое матожидание, каждая площадь, каждая непрерывная вероятность

Вопросы для размышления

Если training loss нейросети продолжает убывать, но никогда не достигает нуля - что общего у него с хождением Зенона к стене?
На новом датасете градиентный спуск разошёлся. На языке этого урока - какой тип расходимости и почему?
Запиши рекуррентность из чего-то, что ты делал или использовал (цикл, формула сложного процента, симуляция игры). Это сходящаяся последовательность? Куда?

Связанные уроки

stat-02-estimation