Статистическая теория обучения

Online Learning и Bandit Algorithms

Алгоритм UCB в Amazon A/B-тестировании на 200M пользователях даёт regret O(√(KT·log T)) против O(T) случайного выбора - это означает, что при T=200M тестов UCB теряет в √200M ≈ 14000 раз меньше, чем random. LinUCB в Yahoo! News увеличил CTR на 12.5%. Google Ads использует contextual bandits для real-time bidding на 5B+ аукционах в день. Это не академия - это несколько миллиардов долларов ежегодной выручки.

  • **Amazon Explore:** multi-armed bandits для A/B-тестирования UI изменений на 300M пользователей. Экономия: не нужно ждать стат. значимости, optimal allocation в realttime.
  • **Google Ads Smart Bidding:** contextual LinUCB (с нелинейными features через deep nets) для ставок в RTB аукционах. Обрабатывает 5M+ запросов/сек.
  • **Netflix thumbnails:** Thompson Sampling для выбора thumbnail'а - для каждого пользователя разный. 20%+ lift в click-through rate на browse.

Online Convex Optimization: regret bounds и Follow-the-Leader

**Алгоритм UCB в Amazon A/B-тестировании на 200M пользователях даёт regret O(√(KT·log T)) против O(T) случайного выбора.** Online Convex Optimization (OCO) - игра между алгоритмом и adversary: на каждом шаге t алгоритм выбирает w_t, получает функцию потерь f_t(w_t), goal - минимизировать cumulative regret. Это обобщает стохастический SGD на adversarial setting.

**Применения OCO:** AdaGrad, Adam, RMSProp - это FTRL с разными регуляризаторами. Online SVM, online logistic regression. Hedge (Multiplicative Weights) - optimal для expert problem. Все алгоритмы онлайн-рекламы (Google, Meta) - это OCO.

Какой regret достигает Online Gradient Descent для выпуклых потерь за T шагов?

OGD с lr = D/(G√T) достигает R_T ≤ DG√T. Это O(√T) - оптимальный minimax regret для online convex optimization с выпуклыми функциями потерь. Для strongly convex - можно O(log T).

Multi-Armed Bandits: UCB1 и теория сожаления

**Multi-Armed Bandit (MAB)** - задача последовательного принятия решений с частичной обратной связью: K рычагов, на каждом шаге выбрать один, получить стохастическую награду. Задача: баланс exploration и exploitation. UCB1 - theoretically optimal алгоритм с доказанным regret O(√(KT log T)).

**Variants:** Thompson Sampling (Bayesian UCB) - sample от posterior, O(√(KT log T)) regret, лучше на практике. EXP3 - adversarial bandits O(√(KT log K)). Gradient Bandits - REINFORCE в bandit setting.

Каков expected regret UCB1 за T шагов с K рычагами?

UCB1 имеет instance-dependent regret O(∑ log(T)/Δᵢ) и worst-case O(√(KT log T)). Нижняя граница Auer et al. - Ω(√(KT)), поэтому UCB1 оптимален с точностью до log T.

Contextual Bandits: LinUCB для рекомендаций

**Contextual bandits** - обобщение MAB: на каждом шаге наблюдается context x_t (features пользователя/запроса), алгоритм выбирает действие a_t, получает награду r_t. LinUCB (Li et al., 2010) предполагает линейную модель награды и строит confidence ellipsoid в feature space. Используется в Yahoo! News, Google Search, Netflix.

**Production deployment:** Yahoo! News (2010) использовал LinUCB для персонализации новостной ленты - CTR +12.5%. Google Ads - contextual bandits для ставок в реальном времени. Netflix - LinUCB для рекомендаций thumbnail'ов. Thompson Sampling (Bayesian LinUCB) обычно лучше на практике.

Чем contextual bandits отличается от обычного multi-armed bandit?

В contextual bandits на каждом шаге t наблюдается context x_t (например, user features), алгоритм выбирает действие a_t с учётом x_t, получает награду r_t. Это позволяет персонализировать: для разных users выбирать разные arms. В обычном MAB контекста нет.

Ключевые идеи

  • **OCO regret:** R_T = cumulative loss - best fixed решение. OGD достигает O(√T) для выпуклых потерь - оптимально. FTRL с правильным регуляризатором => AdaGrad.
  • **UCB1:** выбирать arm с max(hat_mu + sqrt(2 ln t / N_k)). E[R_T] ≤ ∑ 8 ln(T)/Δᵢ + const. Worst-case O(√(KT log T)).
  • **Нижняя граница Lai-Robbins:** нельзя лучше Ω(∑ ln(T)/Δᵢ). UCB1 оптимален до константы.
  • **LinUCB:** модель награды r = θ_a^T x. UCB через confidence ellipsoid x^T A^{-1} x. Regret O(d√(T log³(KT))).
  • **Thompson Sampling:** Bayesian альтернатива UCB. Эмпирически лучше, теоретически те же bounds.

Связанные темы

Online learning и bandits - мост к reinforcement learning:

  • Online regret (урок 12) — Введение в online learning с Hedge и Weighted Majority
  • Reinforcement Learning — Bandits - RL без состояний и transitions

Связанные уроки

  • lt-12-online-regret — Урок 12 вводил online learning; здесь полные доказательства и bandits
  • lt-18-vc-sample-complexity — PAC bounds и regret bounds - два режима теории обобщения
  • ml-48-rl-intro — Bandits - простейший случай RL без состояний
Online Learning и Bandit Algorithms

0

1

Войти