Статистическая теория обучения
Теория мета-обучения
MAML обучается «учиться быстро» - за несколько градиентных шагов адаптироваться к новой задаче. Но когда это теоретически обосновано? PAC-Bayes для мета-обучения: граница зависит от числа задач T и сложности мета-пространства.
- **MAML и few-shot распознавание:** Omniglot: 1623 символа, 20 примеров каждого. MAML на 5-way 1-shot достигает 98.7% - теорема мета-обобщения объясняет почему T=600 задач достаточно
- **Персонализация в медицине:** Мета-обучение на данных многих пациентов для быстрой адаптации к новому: двухуровневая граница формализует, сколько нужно пациентов для мета-гарантии
- **Few-shot NLP с LLM:** Fine-tuning больших языковых моделей - форма мета-обучения: мета-параметры (предобученные веса) адаптируются к новым задачам за несколько шагов
- **Робастность к распределению задач:** Задачная стабильность гарантирует: мета-алгоритм не переобучен под конкретный набор тренировочных задач, а обобщает на новые
Предварительные знания
- Информационно-теоретическое обучение
- PAC-Bayes границы
- Алгоритмическая устойчивость
MAML и его теоретические гарантии
Алгоритм MAML (Finn, Abbeel, Levine, 2017) за 100 000 эпизодов обучения на Omniglot адаптируется к новому классу за 1-5 примеров с точностью 98.7%. Теорема мета-обобщения: при обучении на T задачах обобщение на новую задачу ограничено через sqrt(complexity_meta / T). При T = 600 задачах в Omniglot граница убывает как 1/24.
Какую задачу решает MAML (Model-Agnostic Meta-Learning)?
Finn-Abbeel-Levine (2017): MAML минимизирует E_T[L_T(theta - eta * grad L_T(theta))] - средний loss после k шагов SGD на задаче T. theta* - "точка трамплина" в параметрическом пространстве. Анализ Khodak-Balcan-Talwalkar (2019) показывает: MAML эквивалентен online learning с регулирователем близости.
Границы для few-shot learning
Какая sample complexity у few-shot learning через meta-learning?
Baxter (2000), Tripuraneni-Jordan-Jin (2020): meta-learning с T предыдущими задачами и n примеров на задачу даёт few-shot error на новой задаче порядка sqrt(C(F)/n) + sqrt(D(repr) / T*n), где C(F) - сложность функционального слоя, D(repr) - сложность представления. Большое T амортизирует обучение представления.
Transfer learning и domain adaptation
Мета-обобщение как опытный учитель, переходящий в новую школу - Учитель (мета-алгоритм) обучал T классов (задач обучения). Опыт - мета-параметры theta. При переходе в новую школу (новая задача) с несколькими новыми учениками (few-shot) он быстро адаптируется. Теорема: чем больше T школ и чем проще пространство педагогических стратегий, тем лучше адаптация. Мета-обучение - не волшебство: его теоретические гарантии следуют из стандартных PAC-аргументов, применённых к двухуровневой структуре задач.
Какая теоретическая граница для domain adaptation Ben-David?
Ben-David et al. (2010): R_T(h) <= R_S(h) + d_{H Δ H}(D_S, D_T) + lambda, где lambda - совместная ошибка лучшего h* на S и T. Domain adaptation требует малой обоюдной ошибки и совпадения распределений на образах H. DANN (Ganin et al. 2016) явно минимизирует d_{H Δ H} через adversarial обучение.
Связи с другими темами
Теория мета-обучения объединяет PAC-Bayes, алгоритмическую устойчивость и информационно-теоретические методы в двухуровневой структуре.
- PAC-Bayes — Связанная тема
- Алгоритмическая устойчивость — Связанная тема
- Transfer learning — Связанная тема
- Информационно-теоретические границы — Связанная тема
Итоги
- Мета-обучение: по T задачам находятся мета-параметры theta для быстрой адаптации к новым задачам
- Двухуровневая PAC-граница: мета-уровень O(sqrt(comp(Theta)/T)) + task-уровень O(sqrt(VC(H)/m))
- Задачная стабильность beta_task: замена одной задачи меняет theta не более чем на beta - гарантирует мета-обобщение
- MAML: неявная регуляризация через ограниченное число inner-loop шагов улучшает задачную стабильность
- PAC-Bayes для мета-обучения (Amit et al. 2018): KL(Q_meta||P_meta) управляет скоростью мета-обобщения
От чего зависит мета-обобщение в теории мета-обучения?
Двухуровневая PAC-граница: мета-обобщение убывает как O(sqrt(comp(Theta)/T)) по задачам и O(sqrt(VC/m)) по примерам.