Теория категорий
Теория категорий в машинном обучении
AlphaFold 2, GPT-4, DALL-E - все они содержат математические структуры, описываемые теорией категорий. SE(3)-equivariant нейросети используют теорию представлений групп. Attention - взвешенный копредел. Backpropagation - Lens-состав. Понимание этих связей позволяет не просто использовать архитектуры, но строить новые, опираясь на математические принципы.
- AlphaFold 2: SE(3)-equivariant нейросети для предсказания структур белков
- Sheaf Neural Networks: согласованное обучение на графах с геометрически богатыми рёбрами
- Flash Attention: оптимизированное вычисление взвешенного копредела в трансформерах
Предварительные знания
Нейросети как функторы
Нейросеть - это морфизм в категории **Para(Smooth)**: параметрических гладких отображений. Слои - морфизмы; состав слоёв - состав морфизмов; обратное распространение - сопряжённый морфизм (Фонг - Спивак - Тейджейро, 2019). Это не метафора: категорная формулировка позволяет строго доказывать свойства архитектур и алгоритмов оптимизации.
**Lenses и оптики:** Lens - известный паттерн в функциональном программировании. Оказывается, backpropagation - это именно Lens-состав: forward pass создаёт «контекст», backward pass использует его для вычисления градиентов. Обобщение Lens до Optics (Prism, Traversal) соответствует обобщению нейросетей до более богатых архитектур.
Что такое backpropagation в категорном формализме Fong - Spivak - Tuyeras?
Equivariant networks: группы как категории
**Equivariant network** - нейросеть, коммутирующая с действием группы симметрий. CNN инвариантна к трансляции; сферические нейросети - к вращению SO(3). Категорно: группа G - категория с одним объектом, G-действие - функтор G → Set. Equivariance = натуральное преобразование.
**Equivariant DL и симметрии:** AlphaFold 2 использует SE(3)-equivariant нейросети для предсказания структур белков. Симметрия пространства и вращений жёстко вшита в архитектуру - это не regularization, а структурная инвариантность. Математическая основа - теория представлений групп, сформулированная в языке функторов.
Почему CNN инвариантна к трансляции в категорном смысле?
Пучки и attention как копределы
**Sheaf neural networks** (Хансен - Гхрист, 2020) используют пучки для моделирования данных на графах с локально-глобальной согласованностью. **Attention в трансформерах** - взвешенный копредел: агрегация информации от всех позиций через softmax-веса. Оба подхода дают строгую математическую интерпретацию ключевых компонент современного ML.
**Weighted colimits и универсальное усреднение:** Взвешенный копредел обобщает обычное среднее, максимум и другие виды агрегации. Attention - это «мягкий» argmax, реализующий взвешенный копредел. Это объясняет, почему attention мощнее простого усреднения: он адаптирует веса в зависимости от запроса.
Почему механизм attention в трансформере описывается как взвешенный копредел?
Ключевые идеи
- Нейросеть = морфизм в Para(Smooth); backprop = backward компонент Lens; chain rule = функториальность
- G-equivariant network: слои = G-гомоморфизмы; equivariance = условие натуральности
- Sheaf networks: пучок на графе кодирует локально-глобальную согласованность признаков
- Attention = взвешенный копредел: softmax-веса + агрегация Value = обобщённое усреднение
Связанные темы
Категорный взгляд на ML объединяет дифференциальную геометрию, теорию групп и алгебру.
- Тангентные категории — Дифференцируемое программирование: тангентный функтор = forward AD, котангентный = backprop
- Топосы и пучки — Sheaf neural networks используют пучки на графах; секции пучка = согласованные глобальные признаки
- Пределы и копределы — Attention = взвешенный копредел; агрегация в GNN = копредел по окрестности
Вопросы для размышления
- Как категорная формулировка backpropagation через Lens помогает понять, почему gradient checkpointing работает корректно?
- Почему AlphaFold использует SE(3)-equivariant сети, а не просто обучает их на аугментированных данных? В чём математическое и практическое преимущество?
- Что означает «секция пучка» в контексте Sheaf Neural Networks? Как нарушение согласованности секции указывает на аномалии в данных?