Выпуклая оптимизация
Байесовская оптимизация
Мокус в 1978 году предложил Expected Improvement, а к 2012 году Bayesian Optimization стал стандартом в AutoML: Google, DeepMind и OpenAI используют его для подбора гиперпараметров нейросетей, экономя тысячи GPU-часов.
- **AutoML:** BO подбирает архитектуру нейросети и гиперпараметры (SMAC, Optuna, HyperOpt); Google Vizier обработал более 10⁶ оптимизационных задач.
- **Материаловедение:** поиск новых сплавов и катализаторов с минимальным числом лабораторных экспериментов через GP-суррогат на пространстве состава.
- **Drug discovery:** молекулярная оптимизация через GP-суррогат на пространстве молекул (ChemBO, GuacaMol) сокращает число синтезов в 10–100 раз.
- **Робототехника:** BO оптимизирует политики управления (параметры контроллеров) без аналитической модели динамики - black-box policy search в реальных системах.
Предварительные знания
Гауссов процесс как суррогат
Bayesian Optimization (Mockus 1978) строит суррогатную модель f через Гауссов процесс: f|X,y ~ N(μ_n(x), σ²_n(x)). Гиперпараметры ядра оптимизируются через максимальное правдоподобие. Функция приобретения (acquisition function) балансирует exploration/exploitation без градиента f. Srinivas et al. (2010): GP-UCB достигает O(√(T γ_T)) субдинейного сожаления.
Что такое γ_T в формуле сожаления GP-UCB?
Приложения и расширения Bayesian Optimization
AutoML использует Bayesian Optimization для подбора гиперпараметров (SMAC, TPE). BOHB (Фолькнер 2018) комбинирует BO и Hyperband для ресурсоэффективного поиска. Многозадачное BO (MTL-BO): перенос prior между задачами. Параллельное BO: q-EI для пакетного приобретения.
Почему Bayesian Optimization эффективен при малом числе оценок функции?
Функции приобретения и теория сожаления
Функция приобретения (acquisition function) - ключевой элемент BO: она кодирует стратегию exploration/exploitation без доступа к градиенту f. Помимо EI существуют PI (Probability of Improvement), UCB и информационные критерии (Entropy Search, Max-value Entropy Search). Теория сожаления (regret theory) Srinivas et al. (2010) даёт теоретические гарантии для GP-UCB через концепцию maximum information gain γ_T.
Обновление GP требует O(n³) операций. При n > 1000 используют sparse GP (inducing points, SVGP) или случайные признаки Боченко-Рахими для масштабирования.
Почему GP-UCB с правильно выбранным κ достигает sublinear regret?
Ключевые идеи
- GP-суррогат: f|X,y ~ N(μ_n(x), σ²_n(x)) через ядерное правило Байеса
- EI(x) = (μ_n-f*)Φ(Z) + σ_n φ(Z) - аналитически вычислимо для GP
- GP-UCB: R_T = O(√(T γ_T)), γ_T = max_{|S|=T} I(f; y_S)
- BOHB: BO + Hyperband - ресурсоэффективный поиск гиперпараметров
- q-EI: параллельный выбор q точек через MC-сэмплирование
Дальнейшие пути
Изученные концепции открывают следующие разделы.
- co-28-bandit-opt — extends
Вопросы для размышления
- Сравните EI и GP-UCB как стратегии acquisition: при каких условиях каждая из них предпочтительнее? Как влияет шум наблюдений на выбор?
- Почему Bayesian Optimization неэффективен в высоких размерностях (d > 20)? Какие расширения (REMBO, BADS, TuRBO) решают проблему проклятия размерности?