Статистическая теория обучения

Теория мета-обучения

MAML обучается «учиться быстро» - за несколько градиентных шагов адаптироваться к новой задаче. Но когда это теоретически обосновано? PAC-Bayes для мета-обучения: граница зависит от числа задач T и сложности мета-пространства.

**MAML и few-shot распознавание:** Omniglot: 1623 символа, 20 примеров каждого. MAML на 5-way 1-shot достигает 98.7% - теорема мета-обобщения объясняет почему T=600 задач достаточно
**Персонализация в медицине:** Мета-обучение на данных многих пациентов для быстрой адаптации к новому: двухуровневая граница формализует, сколько нужно пациентов для мета-гарантии
**Few-shot NLP с LLM:** Fine-tuning больших языковых моделей - форма мета-обучения: мета-параметры (предобученные веса) адаптируются к новым задачам за несколько шагов
**Робастность к распределению задач:** Задачная стабильность гарантирует: мета-алгоритм не переобучен под конкретный набор тренировочных задач, а обобщает на новые

Предварительные знания

Информационно-теоретическое обучение
PAC-Bayes границы
Алгоритмическая устойчивость

Информационно-теоретическая теория обучения

MAML и его теоретические гарантии

Алгоритм MAML (Finn, Abbeel, Levine, 2017) за 100 000 эпизодов обучения на Omniglot адаптируется к новому классу за 1-5 примеров с точностью 98.7%. Теорема мета-обобщения: при обучении на T задачах обобщение на новую задачу ограничено через sqrt(complexity_meta / T). При T = 600 задачах в Omniglot граница убывает как 1/24.

Какую задачу решает MAML (Model-Agnostic Meta-Learning)?

Finn-Abbeel-Levine (2017): MAML минимизирует E_T[L_T(theta - eta * grad L_T(theta))] - средний loss после k шагов SGD на задаче T. theta* - "точка трамплина" в параметрическом пространстве. Анализ Khodak-Balcan-Talwalkar (2019) показывает: MAML эквивалентен online learning с регулирователем близости.

Границы для few-shot learning

Какая sample complexity у few-shot learning через meta-learning?

Baxter (2000), Tripuraneni-Jordan-Jin (2020): meta-learning с T предыдущими задачами и n примеров на задачу даёт few-shot error на новой задаче порядка sqrt(C(F)/n) + sqrt(D(repr) / T*n), где C(F) - сложность функционального слоя, D(repr) - сложность представления. Большое T амортизирует обучение представления.

Transfer learning и domain adaptation

Мета-обобщение как опытный учитель, переходящий в новую школу - Учитель (мета-алгоритм) обучал T классов (задач обучения). Опыт - мета-параметры theta. При переходе в новую школу (новая задача) с несколькими новыми учениками (few-shot) он быстро адаптируется. Теорема: чем больше T школ и чем проще пространство педагогических стратегий, тем лучше адаптация. Мета-обучение - не волшебство: его теоретические гарантии следуют из стандартных PAC-аргументов, применённых к двухуровневой структуре задач.

Какая теоретическая граница для domain adaptation Ben-David?

Ben-David et al. (2010): R_T(h) <= R_S(h) + d_{H Δ H}(D_S, D_T) + lambda, где lambda - совместная ошибка лучшего h* на S и T. Domain adaptation требует малой обоюдной ошибки и совпадения распределений на образах H. DANN (Ganin et al. 2016) явно минимизирует d_{H Δ H} через adversarial обучение.

Связи с другими темами

Теория мета-обучения объединяет PAC-Bayes, алгоритмическую устойчивость и информационно-теоретические методы в двухуровневой структуре.

PAC-Bayes — Связанная тема
Алгоритмическая устойчивость — Связанная тема
Transfer learning — Связанная тема
Информационно-теоретические границы — Связанная тема

Итоги

Мета-обучение: по T задачам находятся мета-параметры theta для быстрой адаптации к новым задачам
Двухуровневая PAC-граница: мета-уровень O(sqrt(comp(Theta)/T)) + task-уровень O(sqrt(VC(H)/m))
Задачная стабильность beta_task: замена одной задачи меняет theta не более чем на beta - гарантирует мета-обобщение
MAML: неявная регуляризация через ограниченное число inner-loop шагов улучшает задачную стабильность
PAC-Bayes для мета-обучения (Amit et al. 2018): KL(Q_meta||P_meta) управляет скоростью мета-обобщения

От чего зависит мета-обобщение в теории мета-обучения?

Двухуровневая PAC-граница: мета-обобщение убывает как O(sqrt(comp(Theta)/T)) по задачам и O(sqrt(VC/m)) по примерам.

MAML и его теоретические гарантии

Какую задачу решает MAML (Model-Agnostic Meta-Learning)?

Границы для few-shot learning

Какая sample complexity у few-shot learning через meta-learning?

Transfer learning и domain adaptation

Какая теоретическая граница для domain adaptation Ben-David?

Итоги

Мета-обучение: по T задачам находятся мета-параметры theta для быстрой адаптации к новым задачам

Двухуровневая PAC-граница: мета-уровень O(sqrt(comp(Theta)/T)) + task-уровень O(sqrt(VC(H)/m))

Задачная стабильность beta_task: замена одной задачи меняет theta не более чем на beta - гарантирует мета-обобщение

MAML: неявная регуляризация через ограниченное число inner-loop шагов улучшает задачную стабильность

PAC-Bayes для мета-обучения (Amit et al. 2018): KL(Q_meta||P_meta) управляет скоростью мета-обобщения