Алгебра
Линейные пространства
Когда BERT кодирует слово как вектор в ℝ^768, а word2vec находит, что king−man+woman≈queen-это линейная алгебра в признаковом пространстве. Пространство эмбеддингов-это буквально векторное пространство. Понимание его структуры-ключ к интерпретируемости моделей.
- **Word Embeddings:** Word2Vec/GloVe/BERT кодируют слова в векторные пространства; аналогии типа king−man+woman≈queen-линейные операции в ℝⁿ
- **PCA/ICA:** смена базиса к собственным векторам ковариации; уменьшение размерности = проекция на подпространство
- **Underdetermined linear regression:** когда признаков больше примеров (n > m), есть целое подпространство решений; регуляризация выбирает одно из них
Предварительные знания
Аксиомы векторного пространства
Векторное пространство V над полем F-множество с операциями сложения и умножения на скаляр, удовлетворяющими 8 аксиомам: 1. u+v = v+u 2. (u+v)+w = u+(v+w) 3. существует 0 4. существует −v 5. 1·v = v 6. (αβ)v = α(βv) 7. α(u+v) = αu+αv 8. (α+β)v = αv+βv.
**Нетипичные примеры:** полиномы степени ≤ n-векторное пространство размерности n+1. Непрерывные функции C[a,b]-бесконечномерное пространство. Матрицы m×n-пространство размерности m·n.
Пространство эмбеддингов в Word2Vec/BERT-конкретный пример векторного пространства. "Король − мужчина + женщина ≈ королева"-это линейная комбинация в ℝ^n.
Является ли множество полиномов степени ровно 3 (не ≤ 3) векторным пространством?
Подпространства
Подпространство W ⊆ V-непустое подмножество, замкнутое относительно сложения и умножения на скаляр. Три критерия: 1. 0 ∈ W 2. u,v ∈ W → u+v ∈ W 3. v ∈ W, α ∈ F → αv ∈ W. Четыре фундаментальных подпространства матрицы A: пространство столбцов Col(A), пространство строк Row(A), ядро Null(A), левое ядро Null(Aᵀ).
**Ядро в ML:** если ядро линейного слоя ненулевое (Null(W) ≠ {0}), некоторые входные признаки "не видны" слою. Это эквивалентно вырожденности весовой матрицы-сигнал для регуляризации.
Что из перечисленного является подпространством ℝ²?
Базис и размерность
Базис пространства V-это линейно независимое порождающее множество. Все базисы одного пространства имеют одинаковое число векторов-это размерность dim(V). Координаты вектора v в базисе B = {b₁,…,bₙ}-коэффициенты в разложении v = α₁b₁ + … + αₙbₙ.
**PCA как смена базиса:** Principal Component Analysis выбирает новый базис из собственных векторов ковариационной матрицы. Проекция данных на первые k векторов-это координаты в k-мерном подпространстве с максимальной дисперсией.
Пространство полиномов степени ≤ 2 (ax²+bx+c) имеет размерность:
Смена базиса
Матрица перехода P от базиса B к базису C: столбцы P-координаты векторов B в базисе C. Если [v]_B-координаты v в B, то координаты в C: [v]_C = P · [v]_B. Смена базиса для линейного оператора: [T]_C = P⁻¹ · [T]_B · P-сопряжённые матрицы.
В нейронных сетях разные слои работают в разных признаковых пространствах. Матрица весов осуществляет линейное отображение между ними-это смена базиса (с возможным изменением размерности).
Если [v]_B-координаты v в базисе B, а P-матрица перехода B→C, то координаты в C равны:
Ключевые идеи
- **8 аксиом:** определяют векторное пространство; проверять их нужно для нестандартных примеров (полиномы, функции, матрицы)
- **Базис и dim:** все базисы одного пространства имеют одинаковое число векторов; координаты-уникальное разложение по базису
- **4 фундаментальных подпространства:** Col(A), Row(A), Null(A), Null(Aᵀ); связаны теоремой о ранге
- **Смена базиса:** [v]_C = P·[v]_B; диагонализация-переход к собственному базису
Связанные темы
Векторные пространства-абстрактная основа всей линейной алгебры:
- Линейные отображения — Отображения между пространствами-морфизмы в категории векторных пространств
- Скалярное произведение — Добавление метрики к векторному пространству → гильбертово пространство
- Собственные значения — Собственные векторы образуют "наилучший" базис для линейного оператора
Вопросы для размышления
- Пространство непрерывных функций C[0,1] бесконечномерно. Как нейронная сеть аппроксимирует функции из этого пространства конечным числом параметров?
- В задаче n > m (признаков больше примеров) решений бесконечно много. Как L2-регуляризация (Ridge) выбирает конкретное-и почему именно это?
- Что такое "пространство внимания" (attention space) в трансформерах, и почему Q, K, V-это не просто таблицы, а линейные проекции?