Квантовые вычисления

Quantum Machine Learning

Hinton, 2023: *"Quantum computers will not help with deep learning. The bottleneck is the data, not the compute."* Через два месяца IBM публикует paper, где квантовое ядро бьёт любой классический kernel на синтетической задаче discrete log - и это первое математически доказанное quantum advantage в ML. Оба правы. Quantum ML не убьёт PyTorch, но за следующие десять лет он построит свою узкую нишу там, где данные изначально квантовые (молекулы, материалы, сенсоры). А пока - это лаборатория, где обкатываются вариационные алгоритмы, изучаются barren plateaus и проверяются теоретические границы. Никакой замены ML-инженеру не предвидится; никакого quantum advantage на ImageNet тоже.

**IBM Quantum + JPMorgan**: pilot QML для credit scoring на 6 кубитах - precision сопоставим с XGBoost, но 1000x дороже
**Google AI + DeepMind**: QML-улучшение VQE для расчёта основной энергии молекулы H2O, +18% сходимость над чистым VQE
**Quantinuum H2-1**: 56-кубитный trapped-ion компьютер запускает Quantum Boltzmann Machine на 2024-генерируемых синтетических распределениях
**Volkswagen Quantum + D-Wave**: QAOA-policy для traffic flow в Барселоне, +3% к классической оптимизации на конкретных бенчмарках

Quantum Kernel: kernel trick без классического вычисления

**Vojtech Havlicek (IBM), 2019, Nature.** Заголовок статьи: *Supervised learning with quantum-enhanced feature spaces*. Идея простая до неприличия: SVM работает через ядро $K(x_i, x_j) = \langle \phi(x_i), \phi(x_j) \rangle$, и классическая ML-индустрия 30 лет ищет полезные $\phi$ - RBF, полиномиальное, графовое. Что если в качестве $\phi$ взять параметризованную квантовую схему $U(x)|0\rangle$? Тогда $K(x_i, x_j) = |\langle 0 | U^\dagger(x_i) U(x_j) | 0 \rangle|^2$ - квантовое ядро. Гильбертово пространство $2^n$-мерное; для 50 кубитов это пространство больше, чем число атомов в наблюдаемой Вселенной. Классически такое ядро не вычислить - можно только оценить через квантовый эксперимент.

Алгоритм оценки квантового ядра: подготовить состояние $U(x_j)|0\rangle$, применить обратное $U^\dagger(x_i)$, измерить вероятность вернуться в $|0...0\rangle$. Эта вероятность и есть $K(x_i, x_j)$. На $N$ обучающих примерах нужно $O(N^2)$ оценок ядра, каждая - тысячи shots для статистической точности. На датасете в 1000 точек это уже миллионы квантовых запусков - граница того, что доступно сегодня. Поэтому квантовые ядра реалистичны только на маленьких задачах с *предположительно сложной* геометрией данных.

**Liu, Arunachalam, Temme, 2021**: построили искусственный датасет на основе discrete logarithm (тот же объект, который ломает Shor), где квантовое ядро даёт экспоненциальное преимущество над любым классическим ядром при условии, что предположение о трудности discrete log верно. Это первый и пока единственный пример *доказанного* quantum advantage в ML на конкретной задаче. Никаких практических применений у задачи нет; ценность - теоретическая граница того, что вообще достижимо.

Почему количество оценок квантового ядра масштабируется как $O(N^2)$ и что это значит для размера датасета?

QNN: квантовая нейронная сеть как PQC

**Quantum Neural Network** (QNN) - это маркетинговое имя для **parameterized quantum circuit** (PQC), который обучается на классических данных. Архитектура неизменна: вход $x$ кодируется через feature map $U_\phi(x)$, дальше идёт обучаемый блок $W(\theta)$ из чередующихся однокубитных вращений и запутывающих гейтов, на выходе - измерение наблюдаемой $\langle Z \rangle$ как скаляра-предсказания. Loss считается классически, градиенты по $\theta$ получаются через parameter-shift rule (см. qc-13), а обновляются те же Adam, RMSProp или SPSA из обычного PyTorch. С точки зрения железа QNN неотличим от VQE - это VQE с другой loss-функцией.

Прямая аналогия с классическим ML: feature map играет роль embedding layer, $W(\theta)$ - роль MLP. Но количество параметров $|\theta|$ в реальных QNN - десятки, а не миллиарды как в LLM. Сравнение масштабов жестокое: GPT-4 имеет ~1.8 триллиона параметров; самая большая QNN в опубликованных экспериментах - около 100 параметров на 27 кубитах. Quantum advantage в этом режиме ждёт post-NISQ железа; на сегодня QNN - научный инструмент, а не альтернатива deep learning.

**Гибридные QNN** оказались практичнее чистых: классическая нейросеть (CNN, ResNet) извлекает фичи, последний слой - параметризованная квантовая схема. Такой подход экономит кубиты (не нужно кодировать сырой пиксель в кубит) и наследует силу классического ML. Schuld и Killoran (Xanadu) в 2019 показали, что вариационный квантовый классификатор формально эквивалентен kernel SVM с квантовым ядром, и обе формулировки имеют одинаковую expressivity. Поэтому выбор между quantum kernels и QNN - вопрос инженерных компромиссов (память, время инференса), а не теоретической мощи.

В чём принципиальное отличие обучения QNN от обучения MLP в PyTorch?

Barren Plateaus: главная боль квантового обучения

**McClean, Boixo, Smelyanskiy, Babbush, Neven, 2018, Nature Communications.** Заголовок: *Barren plateaus in quantum neural network training landscapes*. Результат, перевернувший квантовый ML: для случайно проинициализированной глубокой QNN на $n$ кубитах **дисперсия градиента экспоненциально малеет с $n$**: $\text{Var}(\partial E / \partial \theta) \sim 2^{-n}$. Это значит, что на 50 кубитах градиент численно неотличим от нуля - оптимизатор стартует в plateau и никуда не движется. Это не баг конкретного оптимизатора, а свойство меры Хаара на унитарных группах: типичная случайная унитарная матрица большого размера ведёт себя как $t$-design, концентрируя ожидания в среднем.

Прямая аналогия с deep learning: vanishing gradient в RNN/MLP без правильной инициализации - тот же феномен, но количественно слабее. Решения там известны: Xavier, He init, batch norm, residual connections - они держат дисперсию активаций константной по слоям. В QNN такого простого рецепта нет: дисперсия зависит от меры Хаара, от структуры наблюдаемой $H$, от глубины и количества кубитов одновременно. Современные стратегии: structured initialization (стартовать рядом с известным решением, не случайно), layer-wise training (учить слой за слоем), local cost functions (наблюдаемые на нескольких кубитах вместо всех), problem-inspired ansaetze (UCCSD для химии, Hamiltonian Variational Ansatz для физики).

**Cerezo, Sone, Volkoff, Cincio, Coles, 2021**: показали, что **локальные observables** (вида $Z_i \otimes I_{rest}$ вместо $Z_0 \otimes Z_1 \otimes ... \otimes Z_n$) дают полиномиальную, а не экспоненциальную деградацию градиента. Это структурное решение: проектировать loss так, чтобы он зависел от *локальных* свойств состояния, а не от глобальной корреляции. Тот же приём в классическом ML - использовать локальный contrastive loss вместо глобального cross-entropy (см. SimCLR, BYOL): локальность улучшает обучение по структурно близкой причине.

Почему barren plateaus считаются **структурной**, а не инженерной проблемой QNN?

Quantum Advantage в ML: где граница реального и обещанного

Где сегодня реально работает quantum ML? Список короткий и честный. **Quantum kernels на алгебраических задачах** (Liu et al. 2021 - discrete log, IBM 2024 - sample complexity bounds на synthetic data). **Quantum chemistry с QML-усилением** (Google AI и DeepMind, 2022-2024 - VQE с QNN-параметризацией состояния даёт ~20% ускорения сходимости на конкретных молекулах). **Quantum reinforcement learning** (Volkswagen 2023 - QAOA-based policy для traffic flow, 2-5% над классикой на benchmarks). **Generative quantum models** (Quantinuum 2024 - quantum Boltzmann machines, ~10x параметров эффективнее на маленьких задачах). Что **не работает**: классификация изображений, NLP, рекомендательные системы - там классика рвёт quantum на порядки даже на симуляторах.

Главная честная цифра: **post-NISQ железо** (логические кубиты с error correction) ожидается к ~2030 году. До этого момента QML - это science: тестирование алгоритмов, измерение barren plateau на разных архитектурах, поиск задач, где quantum *теоретически* лучше классики. Никаких production-систем с QML в стеке (FAANG, фарма, финансы) до сих пор не существует - все публикации это либо internal R&D, либо pilots на грантовом железе. Honest statement от Karpathy (2023): "Quantum ML is a 10-year bet, not a 1-year bet. Most papers won't matter; the ones that explore fundamental advantage will".

Тезис Aaronson (2022): quantum advantage в ML с большой вероятностью **придёт через данные, а не через алгоритм**. То есть, если найдётся естественный источник квантовых данных (молекулярные эксперименты, квантовая сенсорика), классические ML модели не смогут их обработать - и quantum ML станет неизбежным. Generative chemistry, quantum metrology, quantum sensing - три направления, где квантовая природа данных делает quantum advantage не маркетинговым словом, а архитектурной необходимостью. ML на классических картинках или текстах останется классическим, и это нормально.

Quantum ML уже сегодня лучше классики для большинства задач

На 2026 год quantum advantage в ML доказан только на синтетических задачах с алгебраической структурой (discrete log). Для практических задач - изображения, текст, табличные данные - классическое deep learning доминирует на порядки.

Маркетинговые публикации стартапов (IonQ, Rigetti, Xanadu) перепутали reseaching capability с production readiness. Реальные production-системы AI в FAANG, Anthropic, OpenAI не используют ни одного квантового компонента. QML - это 5-15-летняя ставка на post-NISQ железо и на задачи с квантовой природой данных, а не альтернатива классике на сегодня.

Почему quantum advantage в ML с большой вероятностью придёт сначала в quantum chemistry и quantum sensing, а не в computer vision или NLP?

Связанные темы

Quantum ML стоит на пересечении нескольких направлений:

Вариационные квантовые алгоритмы — QNN - частный случай VQE/QAOA с loss-функцией классификации
Kernel methods и SVM — Quantum kernels - расширение kernel trick через квантовое embedding пространства
Optimizers в ML — Adam, SPSA, COBYLA - те же классические алгоритмы, что в обычном PyTorch
Vanishing gradient в deep learning — Barren plateaus - квантовый аналог, но количественно жёстче и без простых решений вроде batch norm

Ключевые идеи

**Quantum kernel** - SVM, где ядро $K(x_i, x_j) = |\langle 0 | U^\dagger(x_i) U(x_j) | 0 \rangle|^2$ вычисляется на квантовом железе; экспоненциально большое feature space, но $O(N^2)$ оценок ограничивает датасеты сотнями примеров
**QNN** - параметризованная квантовая схема, обучаемая через parameter-shift rule + классический оптимизатор; формально эквивалентна kernel SVM с тем же квантовым ядром
**Barren plateaus** - экспоненциальное затухание градиента с числом кубитов в случайно инициализированных глубоких QNN; структурная проблема меры Хаара, не bug; решения - локальные observables, problem-inspired ansatz, structured init
**Quantum advantage в ML** доказан только на синтетических задачах с алгебраической структурой; production-применений нет; перспектива через quantum chemistry, sensing, materials - где данные изначально квантовые

Вопросы для размышления

Если quantum kernels формально эквивалентны QNN по expressivity, какие практические соображения определяют выбор между этими двумя архитектурами?
McClean доказал barren plateau как следствие меры Хаара. Какие архитектурные ограничения нужны, чтобы выйти из режима случайной инициализации и при этом не потерять expressivity?
Aaronson утверждает, что quantum advantage в ML придёт через quantum data, а не через quantum algorithms. Какие индустрии получают доступ к естественным квантовым данным и как изменится их ML-стек?

Связанные уроки

qc-13 — VQE/QAOA - тот же вариационный шаблон, что лежит под QNN
ml-13-svm — SVM на квантовом ядре - первый рабочий мост ML и QC
dl-02 — Backprop в QNN заменяется на parameter-shift rule
ml-28-optimizers — Adam и SPSA - всё ещё классические оптимизаторы поверх квантовой схемы
calc-08-chain-rule — Parameter-shift - дискретная альтернатива chain rule
prob-04-bayes — Измерение квантового состояния - posterior sampling по природе
la-01-vectors-intro