Алгебра

Линейные пространства

Когда BERT кодирует слово как вектор в ℝ^768, а word2vec находит, что king−man+woman≈queen-это линейная алгебра в признаковом пространстве. Пространство эмбеддингов-это буквально векторное пространство. Понимание его структуры-ключ к интерпретируемости моделей.

  • **Word Embeddings:** Word2Vec/GloVe/BERT кодируют слова в векторные пространства; аналогии типа king−man+woman≈queen-линейные операции в ℝⁿ
  • **PCA/ICA:** смена базиса к собственным векторам ковариации; уменьшение размерности = проекция на подпространство
  • **Underdetermined linear regression:** когда признаков больше примеров (n > m), есть целое подпространство решений; регуляризация выбирает одно из них

Предварительные знания

  • Systems of Linear Equations

Аксиомы векторного пространства

Векторное пространство V над полем F-множество с операциями сложения и умножения на скаляр, удовлетворяющими 8 аксиомам: 1. u+v = v+u 2. (u+v)+w = u+(v+w) 3. существует 0 4. существует −v 5. 1·v = v 6. (αβ)v = α(βv) 7. α(u+v) = αu+αv 8. (α+β)v = αv+βv.

**Нетипичные примеры:** полиномы степени ≤ n-векторное пространство размерности n+1. Непрерывные функции C[a,b]-бесконечномерное пространство. Матрицы m×n-пространство размерности m·n.

Пространство эмбеддингов в Word2Vec/BERT-конкретный пример векторного пространства. "Король − мужчина + женщина ≈ королева"-это линейная комбинация в ℝ^n.

Является ли множество полиномов степени ровно 3 (не ≤ 3) векторным пространством?

Подпространства

Подпространство W ⊆ V-непустое подмножество, замкнутое относительно сложения и умножения на скаляр. Три критерия: 1. 0 ∈ W 2. u,v ∈ W → u+v ∈ W 3. v ∈ W, α ∈ F → αv ∈ W. Четыре фундаментальных подпространства матрицы A: пространство столбцов Col(A), пространство строк Row(A), ядро Null(A), левое ядро Null(Aᵀ).

**Ядро в ML:** если ядро линейного слоя ненулевое (Null(W) ≠ {0}), некоторые входные признаки "не видны" слою. Это эквивалентно вырожденности весовой матрицы-сигнал для регуляризации.

Что из перечисленного является подпространством ℝ²?

Базис и размерность

Базис пространства V-это линейно независимое порождающее множество. Все базисы одного пространства имеют одинаковое число векторов-это размерность dim(V). Координаты вектора v в базисе B = {b₁,…,bₙ}-коэффициенты в разложении v = α₁b₁ + … + αₙbₙ.

**PCA как смена базиса:** Principal Component Analysis выбирает новый базис из собственных векторов ковариационной матрицы. Проекция данных на первые k векторов-это координаты в k-мерном подпространстве с максимальной дисперсией.

Пространство полиномов степени ≤ 2 (ax²+bx+c) имеет размерность:

Смена базиса

Матрица перехода P от базиса B к базису C: столбцы P-координаты векторов B в базисе C. Если [v]_B-координаты v в B, то координаты в C: [v]_C = P · [v]_B. Смена базиса для линейного оператора: [T]_C = P⁻¹ · [T]_B · P-сопряжённые матрицы.

В нейронных сетях разные слои работают в разных признаковых пространствах. Матрица весов осуществляет линейное отображение между ними-это смена базиса (с возможным изменением размерности).

Если [v]_B-координаты v в базисе B, а P-матрица перехода B→C, то координаты в C равны:

Ключевые идеи

  • **8 аксиом:** определяют векторное пространство; проверять их нужно для нестандартных примеров (полиномы, функции, матрицы)
  • **Базис и dim:** все базисы одного пространства имеют одинаковое число векторов; координаты-уникальное разложение по базису
  • **4 фундаментальных подпространства:** Col(A), Row(A), Null(A), Null(Aᵀ); связаны теоремой о ранге
  • **Смена базиса:** [v]_C = P·[v]_B; диагонализация-переход к собственному базису

Связанные темы

Векторные пространства-абстрактная основа всей линейной алгебры:

  • Линейные отображения — Отображения между пространствами-морфизмы в категории векторных пространств
  • Скалярное произведение — Добавление метрики к векторному пространству → гильбертово пространство
  • Собственные значения — Собственные векторы образуют "наилучший" базис для линейного оператора

Вопросы для размышления

  • Пространство непрерывных функций C[0,1] бесконечномерно. Как нейронная сеть аппроксимирует функции из этого пространства конечным числом параметров?
  • В задаче n > m (признаков больше примеров) решений бесконечно много. Как L2-регуляризация (Ridge) выбирает конкретное-и почему именно это?
  • Что такое "пространство внимания" (attention space) в трансформерах, и почему Q, K, V-это не просто таблицы, а линейные проекции?

Связанные уроки

  • la-05-matrices-intro
Линейные пространства

0

1

Войти