Статистическая теория обучения
Гауссовские процессы и байесовская оптимизация
Google Vizier (2017) использует GP-байесовскую оптимизацию для настройки гиперпараметров всех продуктов Google, выполняя более 10 миллионов экспериментов в год. DeepMind AutoML с GP-BO нашёл архитектуру для ImageNet, которая превзошла ручной дизайн за 300 вместо 3000 экспериментов.
- BoTorch (Meta Research, 2020) - библиотека для GP-BO на PyTorch - используется в drug discovery компанией Pfizer для оптимизации молекулярных свойств, сокращая число синтезов с тысяч до десятков.
GP-регрессия: байесовский вывод в RKHS
Гауссовский процесс (Раsmussen, Williams, 2006) - распределение над функциями, задаваемое средней функцией m(x) и ковариационной функцией (ядром) k(x,x'). GP-регрессия совпадает с KRR при выборе lambda = sigma_n^2: posterior mean - это ядровая регрессия, posterior variance - мера неопределённости. Google Vizier (2017) использует GP для оптимизации гиперпараметров всех продуктов Google.
Posterior variance GP в точке x* равна нулю, если...
Байесовская оптимизация: UCB и EI
Байесовская оптимизация (Mockus 1978, Srinivas et al. 2010) использует GP как surrogate модель и функцию приобретения для баланса exploitation/exploration. UCB (Upper Confidence Bound) теоретически оптимален: Srinivas et al. доказали субlinear regret O(sqrt(T log T)) для гладких функций. AutoML на базе GP BO (SMAC, Spearmint) нашёл гиперпараметры ImageNet-модели быстрее ручной настройки в 10 раз.
Почему GP-BO делает следующий запрос там, где sigma(x) велико, даже если mu(x) мало?
Ключевые результаты
- GP - распределение над функциями с ядром как ковариационной функцией.
- Posterior mean GP = KRR с lambda = sigma_n^2.
- UCB acquisition = mu + beta*sigma балансирует exploitation и exploration.
- Теоретическое сожаление BO: O(sqrt(T * gamma_T * log T)).