Алгебра

Неравенства и модули

SLA гласит: 99.9% запросов - не более ста миллисекунд. Это неравенство, не равенство. Вся SRE-инженерия - про управление неравенствами: бюджеты ошибок, p99 латентность, ёмкость. Gradient clipping в нейросетях: ||g|| <= C. Обобщение на multi-GPU: нормы градиентов со всех воркеров не должны превышать порог. Метод интервалов - это не школьная математика, это язык производительных систем.

**SRE/DevOps:** бюджет ошибок = 1 - 0.999 = 0.001. Время downtime за год: <= 525 мин. Это неравенство в production monitoring каждой крупной системы
**ML training:** gradient clipping `torch.nn.utils.clip_grad_norm_(params, max_norm=1.0)` - box constraint ||g|| <= C. Без него - exploding gradients и NaN loss
**Generalization theory:** неравенства Маркова и Чебышёва дают bounds на отклонение loss: P(|loss - E[loss]| >= t) <= Var[loss]/t^2. Основа PAC-learning

Предварительные знания

Выражения и уравнения

Неравенства: правила игры

**Неравенство** - утверждение о том, что одно выражение больше или меньше другого. Решение - не точка, а **множество** значений. Знаки: `<` (меньше), `>` (больше), `<=` (не больше), `>=` (не меньше). Квадратные неравенства дают дуги параболы. Рациональные - несколько промежутков.

**Единственное критическое отличие от уравнений:** при умножении или делении обеих частей на **отрицательное число** знак неравенства меняется на противоположный. Больше никаких особых правил.

В ML это прямо: неравенство Маркова $P(X \geq t) \leq \mathbb{E}[X] / t$ - базовый bound на отклонение случайной величины. Неравенство Чебышёва строится поверх него. Вся generalization theory - цепочка неравенств, которая говорит: с вероятностью $1 - \delta$ ошибка модели на тестовых данных не превысит $\varepsilon$. Точно та же логика, что p99 латентность: с 99% вероятностью запрос обработан за 100 мс.

Решите неравенство: -2x + 6 >= 0

Модуль: расстояние как математика

**|x|** - расстояние от числа x до нуля на числовой прямой. Формально: |x| = x при x >= 0 и |x| = -x при x < 0. Геометрический смысл - ключ. Без него модуль выглядит как трюк. С ним - как естественный инструмент.

**|x - a| = d** - расстояние от x до точки a равно d. Решения: x = a + d и x = a - d. **|x - a| < d** - x ближе к a, чем на d. Решение: a - d < x < a + d.

В PyTorch `torch.nn.utils.clip_grad_norm_(params, max_norm)` реализует именно это: если норма градиента превышает C, каждый компонент масштабируется так, чтобы $\|g\| = C$. Это box constraint оптимизации - и он записывается как неравенство с модулем.

**|x| = -3** не имеет решений. Модуль по определению неотрицателен. Если в задаче приходишь к |f(x)| = g(x) при g(x) < 0 - это пустое множество, не ошибка вычислений.

**Вложенные модули** вроде ||x| - 2| = 1 решаются послойно: сначала внешний (два случая: |x| - 2 = 1 и |x| - 2 = -1), затем внутренний. Никакого особого алгоритма - только последовательное применение определения.

Сколько решений у уравнения |x^2 - 4| = 3?

Метод интервалов: знаки по прямой

Задача: где функция $f(x) = (x-1)(x+2)/(x-3)$ положительна? Перебирать все x - не вариант. Метод интервалов даёт ответ за пять шагов - и эти пять шагов работают для любого рационального выражения.

**Алгоритм метода интервалов:** 1. Привести к виду f(x)/g(x) > 0 (или < 0, >= 0, <= 0). 2. Найти нули числителя и знаменателя. 3. Отметить на числовой прямой. 4. Определить знак на каждом интервале (подставить одну точку). 5. Выбрать нужные интервалы, учесть граничные точки.

Связь с ML: знак производной функции потерь определяет направление градиентного спуска. Метод интервалов - это именно поиск знаков функции по прямой. Там, где loss-градиент меняет знак, функция имеет экстремум. SGD находит локальный минимум, двигаясь туда, где градиент отрицателен. Анализ знаков производной через метод интервалов - прямой путь к монотонности loss landscape.

**Правило чётности кратности:** если множитель входит в нечётной степени (1, 3, ...) - знак меняется при переходе через этот корень. В чётной степени (2, 4, ...) - знак остаётся тем же. Это означает: $(x-1)^2$ создаёт «касание» нуля, а не пересечение.

Кратность корня	Поведение знака	Пример
Нечётная (1, 3, ...)	Знак меняется	(x-2): минус слева, плюс справа
Чётная (2, 4, ...)	Знак НЕ меняется	(x-2)^2: плюс с обеих сторон
Корень знаменателя	Знак меняется, точка исключена	1/(x-2): x=2 не входит в ответ

|a + b| = |a| + |b| - модуль суммы равен сумме модулей

|a + b| <= |a| + |b| - это неравенство треугольника, равенство только когда a и b одного знака

Контрпример: |3 + (-5)| = |-2| = 2, но |3| + |-5| = 8. Здесь 2 < 8. Если a и b тянут в разные стороны, модуль суммы уменьшается. Равенство |a+b| = |a|+|b| выполняется только при a*b >= 0. В ML это вылезает в метриках качества: L1-норма ошибки != сумма абсолютных ошибок, если знаки разные.

Решите неравенство (x - 1)^2 * (x + 3) < 0. На каком промежутке оно выполняется?

Ключевые идеи

**Умножение на отрицательное** переворачивает знак неравенства - единственное, но критическое отличие от уравнений
**|x - a| < d** - x ближе к точке a, чем на d. Gradient clipping - тот же принцип в R^d
**Метод интервалов:** нули -> прямая -> знаки -> выбор промежутков. Знак меняется при нечётной кратности корня, остаётся при чётной
**Неравенства Маркова и Чебышёва** - фундамент generalization theory. Метод интервалов - инструмент анализа знаков производной в loss landscape

Связанные темы

Неравенства и модули - фундамент для анализа, оптимизации и ML:

Выражения и уравнения — Неравенства обобщают уравнения; метод интервалов использует факторизацию
Пределы: введение — Эпсилон-дельта определение предела построено целиком на неравенствах с модулем
Оптимизация — Задачи на экстремум с ограничениями - системы неравенств, KKT условия

Вопросы для размышления

Метод интервалов даёт точный ответ на вопрос 'где функция положительна'. Как это связано с анализом знака loss-градиента - и почему SGD ищет минимум, а не произвольный ноль градиента?
Неравенство треугольника |a+b| <= |a|+|b| - почему так называется? Как геометрический треугольник объясняет это свойство?
Gradient clipping обрезает норму градиента при ||g|| > C. Что происходит с направлением градиента после clipping? Как это влияет на сходимость?

Связанные уроки

alg-02 — Факторизация из alg-02 - основа метода интервалов
alg-04 — Функции и их области определения строятся через неравенства
calc-03-limits-intro — Эпсилон-дельта определение предела - чистые неравенства с модулем
alg-08 — Оптимизация с ограничениями: системы неравенств в action
la-01-vectors-intro