Теория категорий

Теория категорий в машинном обучении

AlphaFold 2, GPT-4, DALL-E - все они содержат математические структуры, описываемые теорией категорий. SE(3)-equivariant нейросети используют теорию представлений групп. Attention - взвешенный копредел. Backpropagation - Lens-состав. Понимание этих связей позволяет не просто использовать архитектуры, но строить новые, опираясь на математические принципы.

  • AlphaFold 2: SE(3)-equivariant нейросети для предсказания структур белков
  • Sheaf Neural Networks: согласованное обучение на графах с геометрически богатыми рёбрами
  • Flash Attention: оптимизированное вычисление взвешенного копредела в трансформерах

Предварительные знания

  • ∞-Categories: Morphisms Between Morphisms

Нейросети как функторы

Нейросеть - это морфизм в категории **Para(Smooth)**: параметрических гладких отображений. Слои - морфизмы; состав слоёв - состав морфизмов; обратное распространение - сопряжённый морфизм (Фонг - Спивак - Тейджейро, 2019). Это не метафора: категорная формулировка позволяет строго доказывать свойства архитектур и алгоритмов оптимизации.

**Lenses и оптики:** Lens - известный паттерн в функциональном программировании. Оказывается, backpropagation - это именно Lens-состав: forward pass создаёт «контекст», backward pass использует его для вычисления градиентов. Обобщение Lens до Optics (Prism, Traversal) соответствует обобщению нейросетей до более богатых архитектур.

Что такое backpropagation в категорном формализме Fong - Spivak - Tuyeras?

Equivariant networks: группы как категории

**Equivariant network** - нейросеть, коммутирующая с действием группы симметрий. CNN инвариантна к трансляции; сферические нейросети - к вращению SO(3). Категорно: группа G - категория с одним объектом, G-действие - функтор G → Set. Equivariance = натуральное преобразование.

**Equivariant DL и симметрии:** AlphaFold 2 использует SE(3)-equivariant нейросети для предсказания структур белков. Симметрия пространства и вращений жёстко вшита в архитектуру - это не regularization, а структурная инвариантность. Математическая основа - теория представлений групп, сформулированная в языке функторов.

Почему CNN инвариантна к трансляции в категорном смысле?

Пучки и attention как копределы

**Sheaf neural networks** (Хансен - Гхрист, 2020) используют пучки для моделирования данных на графах с локально-глобальной согласованностью. **Attention в трансформерах** - взвешенный копредел: агрегация информации от всех позиций через softmax-веса. Оба подхода дают строгую математическую интерпретацию ключевых компонент современного ML.

**Weighted colimits и универсальное усреднение:** Взвешенный копредел обобщает обычное среднее, максимум и другие виды агрегации. Attention - это «мягкий» argmax, реализующий взвешенный копредел. Это объясняет, почему attention мощнее простого усреднения: он адаптирует веса в зависимости от запроса.

Почему механизм attention в трансформере описывается как взвешенный копредел?

Ключевые идеи

  • Нейросеть = морфизм в Para(Smooth); backprop = backward компонент Lens; chain rule = функториальность
  • G-equivariant network: слои = G-гомоморфизмы; equivariance = условие натуральности
  • Sheaf networks: пучок на графе кодирует локально-глобальную согласованность признаков
  • Attention = взвешенный копредел: softmax-веса + агрегация Value = обобщённое усреднение

Связанные темы

Категорный взгляд на ML объединяет дифференциальную геометрию, теорию групп и алгебру.

  • Тангентные категории — Дифференцируемое программирование: тангентный функтор = forward AD, котангентный = backprop
  • Топосы и пучки — Sheaf neural networks используют пучки на графах; секции пучка = согласованные глобальные признаки
  • Пределы и копределы — Attention = взвешенный копредел; агрегация в GNN = копредел по окрестности

Вопросы для размышления

  • Как категорная формулировка backpropagation через Lens помогает понять, почему gradient checkpointing работает корректно?
  • Почему AlphaFold использует SE(3)-equivariant сети, а не просто обучает их на аугментированных данных? В чём математическое и практическое преимущество?
  • Что означает «секция пучка» в контексте Sheaf Neural Networks? Как нарушение согласованности секции указывает на аномалии в данных?

Связанные уроки

  • ml-01-intro
  • ml-25-neural-networks
Теория категорий в машинном обучении

0

1

Войти