Статистическая теория обучения
PAC-Bayes границы обобщения
В 2022 году команда Google Brain применила PAC-Bayes к трансформерам с 110M параметрами и получила первые нетривиальные теоретические гарантии обобщения для больших нейросетей. McAllester (1999) создал инструмент, который работает даже там, где классическая VC-теория даёт бесполезные границы.
- Dziugaite et al. (NetSafe 2021) использовали PAC-Bayes сертификацию для гарантий безопасности автономных систем. Norm-based PAC-Bayes bounds от Microsoft Research объяснили, почему нейросети с миллиардами параметров не переобучаются.
Граница МакОллестера и её улучшения
В 1999 году Дэвид МакОллестер доказал, что для любого prior P и posterior Q над гипотезами с вероятностью >= 1-delta над выбором обучающей выборки размера n: ожидаемый риск <= emp. риск + sqrt((KL(Q||P) + log(n/delta)) / (2n)). Это первая граница, которая улучшалась с ростом числа параметров при правильном prior. В 2022 году Dziugaite et al. применили PAC-Bayes к ResNet-50 и получили нетривиальные границы обобщения 0.61 при реальной ошибке 0.24.
В PAC-Bayes границе: если prior P очень размытый (большая variance), то KL(Q||P) ...
PAC-Bayes для нейронных сетей
Dziugaite и Roy (2017) применили PAC-Bayes к нейронным сетям с гауссовскими весами. Они минимизировали PAC-Bayes границу напрямую через SGD, что даёт одновременно обучение и сертификацию обобщения. На MNIST получили гарантированную границу ошибки 16% при фактической 2%.
PAC-Bayes граница нетривиальна (< 1) только если...
Ключевые результаты
- PAC-Bayes: истинный риск <= emp. риск + sqrt((KL(Q||P) + log(n/delta)) / 2n).
- KL(Q||P) - цена сложности posterior относительно prior.
- Для гауссовских весов KL вычислим аналитически.
- Прямая оптимизация PAC-Bayes границы = обучение + сертификация одновременно.