Статистическая теория обучения

PAC-Bayes границы обобщения

В 2022 году команда Google Brain применила PAC-Bayes к трансформерам с 110M параметрами и получила первые нетривиальные теоретические гарантии обобщения для больших нейросетей. McAllester (1999) создал инструмент, который работает даже там, где классическая VC-теория даёт бесполезные границы.

Dziugaite et al. (NetSafe 2021) использовали PAC-Bayes сертификацию для гарантий безопасности автономных систем. Norm-based PAC-Bayes bounds от Microsoft Research объяснили, почему нейросети с миллиардами параметров не переобучаются.

Граница МакОллестера и её улучшения

В 1999 году Дэвид МакОллестер доказал, что для любого prior P и posterior Q над гипотезами с вероятностью >= 1-delta над выбором обучающей выборки размера n: ожидаемый риск <= emp. риск + sqrt((KL(Q||P) + log(n/delta)) / (2n)). Это первая граница, которая улучшалась с ростом числа параметров при правильном prior. В 2022 году Dziugaite et al. применили PAC-Bayes к ResNet-50 и получили нетривиальные границы обобщения 0.61 при реальной ошибке 0.24.

В PAC-Bayes границе: если prior P очень размытый (большая variance), то KL(Q||P) ...

PAC-Bayes для нейронных сетей

Dziugaite и Roy (2017) применили PAC-Bayes к нейронным сетям с гауссовскими весами. Они минимизировали PAC-Bayes границу напрямую через SGD, что даёт одновременно обучение и сертификацию обобщения. На MNIST получили гарантированную границу ошибки 16% при фактической 2%.

PAC-Bayes граница нетривиальна (< 1) только если...

Ключевые результаты

PAC-Bayes: истинный риск <= emp. риск + sqrt((KL(Q||P) + log(n/delta)) / 2n).
KL(Q||P) - цена сложности posterior относительно prior.
Для гауссовских весов KL вычислим аналитически.
Прямая оптимизация PAC-Bayes границы = обучение + сертификация одновременно.

Граница МакОллестера и её улучшения

В PAC-Bayes границе: если prior P очень размытый (большая variance), то KL(Q||P) ...

PAC-Bayes для нейронных сетей

PAC-Bayes граница нетривиальна (< 1) только если...

Ключевые результаты

PAC-Bayes: истинный риск <= emp. риск + sqrt((KL(Q||P) + log(n/delta)) / 2n).

KL(Q||P) - цена сложности posterior относительно prior.

Для гауссовских весов KL вычислим аналитически.

Прямая оптимизация PAC-Bayes границы = обучение + сертификация одновременно.