Статистика

Линейная регрессия

Цели урока

Понять модель линейной регрессии
Находить коэффициенты методом наименьших квадратов
Интерпретировать R² и оценивать качество модели
Делать предсказания и доверительные интервалы

Предварительные знания

Корреляция
Метод максимального правдоподобия

По росту человека можно ли предсказать его вес? По площади квартиры - её цену? Регрессия строит "формулу предсказания": Y = a + bX. Это фундамент машинного обучения и анализа данных.

Недвижимость: цена по площади и району
Экономика: прогноз ВВП по индикаторам
Медицина: доза лекарства по весу пациента
Маркетинг: продажи от рекламного бюджета
ML: нейросети - это обобщённая регрессия!

Модель линейной регрессии

Связь между X (предиктор) и Y (отклик):

$\beta_0$ - intercept (значение Y при X = 0)
$\beta_1$ - slope (наклон, на сколько меняется Y при увеличении X на 1)
$\varepsilon \sim N(0, \sigma^2)$ - случайная ошибка

Мы предполагаем, что истинная связь линейна, а отклонения от прямой - случайный шум.

Какие ключевые допущения классической линейной регрессии Y = β₀ + β₁X + ε?

Допущения Гаусса-Маркова: (1) линейность E[Y|X] = β₀ + β₁X; (2) независимость остатков ε_i; (3) гомоскедастичность Var(ε|X) = σ² (одинакова для всех X); (4) экзогенность E[ε|X] = 0; для t-тестов добавляется (5) нормальность ε. При гомоскедастичности OLS — BLUE (Best Linear Unbiased Estimator) по теореме Гаусса-Маркова.

Метод наименьших квадратов (OLS)

Находим прямую, минимизирующую сумму квадратов ошибок:

Решение:

Площадь и цена квартиры

Простая регрессия

Данные (м², млн руб): {(30, 3), (40, 4.5), (50, 5), (60, 6.5), (70, 7)} $\bar{X} = 50$, $\bar{Y} = 5.2$ $\sum(X_i - 50)(Y_i - 5.2) = 70$ $\sum(X_i - 50)^2 = 1000$ $\hat{\beta}_1 = 70/1000 = 0.07$ млн/м² $\hat{\beta}_0 = 5.2 - 0.07 \cdot 50 = 1.7$ млн **Модель:** $\hat{Y} = 1.7 + 0.07X$ Каждый м² добавляет 70 тыс. руб. к цене.

В регрессии Y = 10 + 2X, что означает коэффициент 2?

Наклон β₁ = 2 означает, что при изменении X на единицу, ожидаемое Y меняется на 2 единицы.

Коэффициент детерминации R²

**R²** - доля дисперсии Y, объяснённая моделью:

$R^2 = 0$: модель не объясняет вариацию Y (прямая горизонтальна)
$R^2 = 1$: модель идеально объясняет Y (все точки на прямой)
$R^2 = r^2$ для простой регрессии!

Интерпретация R²

R² = 0.81

Модель объясняет 81% вариации Y. Оставшиеся 19% - влияние других факторов и случайность. В нашем примере с квартирами: площадь объясняет бóльшую часть цены, но не всё (район, ремонт...).

Что означает R² = 0.65 в линейной регрессии?

R² = 1 - RSS/TSS = SSReg/TSS, где TSS = Σ(Y_i - Ȳ)², RSS = Σ(Y_i - Ŷ_i)². Для простой регрессии R² = r² (квадрат корреляции). R² не критерий 'хорошести' модели: высокий R² с нерелевантными предикторами через переобучение; низкий R² может быть осмысленным в шумных предметных областях (психология, биомедицина). Adjusted R² корректирует на число предикторов.

Проверка значимости

H₀: $\beta_1 = 0$ (X не влияет на Y)

Где $SE(\hat{\beta}_1) = \frac{S}{\sqrt{\sum(X_i - \bar{X})^2}}$, $S$ - стандартная ошибка регрессии.

В простой регрессии t-тест для β₁ эквивалентен тесту на значимость корреляции!

Как проверяется значимость коэффициента β₁ в линейной регрессии?

При H_0: β₁ = 0 (нет связи) и стандартных допущениях, t = β̂₁ / SE(β̂₁) ~ t_{n-2}. SE(β̂₁) = σ̂ / √Σ(X_i - X̄)². Большие |t| означают: оценённый коэффициент значимо отличается от нуля. F-тест проверяет совместную значимость всех предикторов; для одного предиктора эквивалентен t-тесту.

Предсказание

Для нового X₀ предсказание:

**Осторожно с экстраполяцией!** Модель надёжна только в диапазоне исходных X. Предсказывать за пределами - рискованно.

Предсказание цены

Квартира 55 м²

$\hat{Y} = 1.7 + 0.07 \cdot 55 = 5.55$ млн руб. Доверительный интервал для среднего: уже Предсказательный интервал для конкретной квартиры: шире (включает σ)

В чём отличие доверительного интервала для E[Y|X*] и интервала прогноза для нового Y* при заданном X*?

SE для E[Y|X*]: σ̂·√(1/n + (X*-X̄)²/Σ(X_i-X̄)²). SE для нового Y* добавляет √(1 + ...): включает σ² ошибки одного наблюдения. Для X* = X̄ интервал прогноза шире на множитель ~σ̂√n. Путать эти два интервала — распространённая ошибка: одно говорит 'где среднее', другое 'где будет новая точка'.

Практика

По данным 10 магазинов построена регрессия: Продажи = 50 + 8×Реклама (тыс. руб). R² = 0.64. Сколько продаж ожидать при рекламе 20 тыс.? Что означает R²?

Продажи = 50 + 8×20 = 210 тыс. руб. R² = 0.64: реклама объясняет 64% вариации продаж между магазинами. Оставшиеся 36% - другие факторы (локация, ассортимент...).

В регрессии с n = 30 получено R² = 0.25. Значима ли связь (α = 0.05)?

$r = \sqrt{0.25} = 0.5$ $t = 0.5 \sqrt{\frac{28}{0.75}} = 0.5 \cdot 6.11 = 3.06$ $t_{0.025, 28} \approx 2.05$ $3.06 > 2.05$ → связь значима!

Какая остаточная диагностика наиболее важна для проверки допущения гомоскедастичности?

Heteroscedasticity (воронка в residuals vs fitted plot) нарушает SE(β̂) и t-тесты. Тесты: Breusch-Pagan, White. Лечение: робастные SE Хубера-Уайта, WLS (взвешенная LS), преобразование Y (log, √). QQ-plot диагностирует нормальность остатков (важно для t/F-тестов при малой n). Cook's distance — диагностика влиятельных наблюдений.

Регрессия - основа ML

От простой линии к нейросетям.

Множественная регрессия — Много предикторов X₁, X₂, ...
Логистическая регрессия — Для классификации (0/1)
Нейронные сети — Много слоёв нелинейной регрессии
Gradient descent — Численная минимизация SSE

Итоги

**Модель:** $Y = \beta_0 + \beta_1 X + \varepsilon$
**OLS:** минимизируем $\sum(Y - \hat{Y})^2$
**Формулы:** $\hat{\beta}_1 = r \cdot S_Y/S_X$, $\hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X}$
**R²:** доля объяснённой дисперсии, $R^2 = r^2$
Регрессия - фундамент ML!

Вопросы для размышления

Чем регрессия отличается от корреляции?
Почему нельзя экстраполировать далеко за пределы данных?
Как регрессия связана с нейросетями?

Связанные уроки