Квантовые вычисления
Quantum Machine Learning
Hinton, 2023: *"Quantum computers will not help with deep learning. The bottleneck is the data, not the compute."* Через два месяца IBM публикует paper, где квантовое ядро бьёт любой классический kernel на синтетической задаче discrete log - и это первое математически доказанное quantum advantage в ML. Оба правы. Quantum ML не убьёт PyTorch, но за следующие десять лет он построит свою узкую нишу там, где данные изначально квантовые (молекулы, материалы, сенсоры). А пока - это лаборатория, где обкатываются вариационные алгоритмы, изучаются barren plateaus и проверяются теоретические границы. Никакой замены ML-инженеру не предвидится; никакого quantum advantage на ImageNet тоже.
- **IBM Quantum + JPMorgan**: pilot QML для credit scoring на 6 кубитах - precision сопоставим с XGBoost, но 1000x дороже
- **Google AI + DeepMind**: QML-улучшение VQE для расчёта основной энергии молекулы H2O, +18% сходимость над чистым VQE
- **Quantinuum H2-1**: 56-кубитный trapped-ion компьютер запускает Quantum Boltzmann Machine на 2024-генерируемых синтетических распределениях
- **Volkswagen Quantum + D-Wave**: QAOA-policy для traffic flow в Барселоне, +3% к классической оптимизации на конкретных бенчмарках
Quantum Kernel: kernel trick без классического вычисления
**Vojtech Havlicek (IBM), 2019, Nature.** Заголовок статьи: *Supervised learning with quantum-enhanced feature spaces*. Идея простая до неприличия: SVM работает через ядро $K(x_i, x_j) = \langle \phi(x_i), \phi(x_j) \rangle$, и классическая ML-индустрия 30 лет ищет полезные $\phi$ - RBF, полиномиальное, графовое. Что если в качестве $\phi$ взять параметризованную квантовую схему $U(x)|0\rangle$? Тогда $K(x_i, x_j) = |\langle 0 | U^\dagger(x_i) U(x_j) | 0 \rangle|^2$ - квантовое ядро. Гильбертово пространство $2^n$-мерное; для 50 кубитов это пространство больше, чем число атомов в наблюдаемой Вселенной. Классически такое ядро не вычислить - можно только оценить через квантовый эксперимент.
Алгоритм оценки квантового ядра: подготовить состояние $U(x_j)|0\rangle$, применить обратное $U^\dagger(x_i)$, измерить вероятность вернуться в $|0...0\rangle$. Эта вероятность и есть $K(x_i, x_j)$. На $N$ обучающих примерах нужно $O(N^2)$ оценок ядра, каждая - тысячи shots для статистической точности. На датасете в 1000 точек это уже миллионы квантовых запусков - граница того, что доступно сегодня. Поэтому квантовые ядра реалистичны только на маленьких задачах с *предположительно сложной* геометрией данных.
**Liu, Arunachalam, Temme, 2021**: построили искусственный датасет на основе discrete logarithm (тот же объект, который ломает Shor), где квантовое ядро даёт экспоненциальное преимущество над любым классическим ядром при условии, что предположение о трудности discrete log верно. Это первый и пока единственный пример *доказанного* quantum advantage в ML на конкретной задаче. Никаких практических применений у задачи нет; ценность - теоретическая граница того, что вообще достижимо.
Почему количество оценок квантового ядра масштабируется как $O(N^2)$ и что это значит для размера датасета?
QNN: квантовая нейронная сеть как PQC
**Quantum Neural Network** (QNN) - это маркетинговое имя для **parameterized quantum circuit** (PQC), который обучается на классических данных. Архитектура неизменна: вход $x$ кодируется через feature map $U_\phi(x)$, дальше идёт обучаемый блок $W(\theta)$ из чередующихся однокубитных вращений и запутывающих гейтов, на выходе - измерение наблюдаемой $\langle Z \rangle$ как скаляра-предсказания. Loss считается классически, градиенты по $\theta$ получаются через parameter-shift rule (см. qc-13), а обновляются те же Adam, RMSProp или SPSA из обычного PyTorch. С точки зрения железа QNN неотличим от VQE - это VQE с другой loss-функцией.
Прямая аналогия с классическим ML: feature map играет роль embedding layer, $W(\theta)$ - роль MLP. Но количество параметров $|\theta|$ в реальных QNN - десятки, а не миллиарды как в LLM. Сравнение масштабов жестокое: GPT-4 имеет ~1.8 триллиона параметров; самая большая QNN в опубликованных экспериментах - около 100 параметров на 27 кубитах. Quantum advantage в этом режиме ждёт post-NISQ железа; на сегодня QNN - научный инструмент, а не альтернатива deep learning.
**Гибридные QNN** оказались практичнее чистых: классическая нейросеть (CNN, ResNet) извлекает фичи, последний слой - параметризованная квантовая схема. Такой подход экономит кубиты (не нужно кодировать сырой пиксель в кубит) и наследует силу классического ML. Schuld и Killoran (Xanadu) в 2019 показали, что вариационный квантовый классификатор формально эквивалентен kernel SVM с квантовым ядром, и обе формулировки имеют одинаковую expressivity. Поэтому выбор между quantum kernels и QNN - вопрос инженерных компромиссов (память, время инференса), а не теоретической мощи.
В чём принципиальное отличие обучения QNN от обучения MLP в PyTorch?
Barren Plateaus: главная боль квантового обучения
**McClean, Boixo, Smelyanskiy, Babbush, Neven, 2018, Nature Communications.** Заголовок: *Barren plateaus in quantum neural network training landscapes*. Результат, перевернувший квантовый ML: для случайно проинициализированной глубокой QNN на $n$ кубитах **дисперсия градиента экспоненциально малеет с $n$**: $\text{Var}(\partial E / \partial \theta) \sim 2^{-n}$. Это значит, что на 50 кубитах градиент численно неотличим от нуля - оптимизатор стартует в plateau и никуда не движется. Это не баг конкретного оптимизатора, а свойство меры Хаара на унитарных группах: типичная случайная унитарная матрица большого размера ведёт себя как $t$-design, концентрируя ожидания в среднем.
Прямая аналогия с deep learning: vanishing gradient в RNN/MLP без правильной инициализации - тот же феномен, но количественно слабее. Решения там известны: Xavier, He init, batch norm, residual connections - они держат дисперсию активаций константной по слоям. В QNN такого простого рецепта нет: дисперсия зависит от меры Хаара, от структуры наблюдаемой $H$, от глубины и количества кубитов одновременно. Современные стратегии: structured initialization (стартовать рядом с известным решением, не случайно), layer-wise training (учить слой за слоем), local cost functions (наблюдаемые на нескольких кубитах вместо всех), problem-inspired ansaetze (UCCSD для химии, Hamiltonian Variational Ansatz для физики).
**Cerezo, Sone, Volkoff, Cincio, Coles, 2021**: показали, что **локальные observables** (вида $Z_i \otimes I_{rest}$ вместо $Z_0 \otimes Z_1 \otimes ... \otimes Z_n$) дают полиномиальную, а не экспоненциальную деградацию градиента. Это структурное решение: проектировать loss так, чтобы он зависел от *локальных* свойств состояния, а не от глобальной корреляции. Тот же приём в классическом ML - использовать локальный contrastive loss вместо глобального cross-entropy (см. SimCLR, BYOL): локальность улучшает обучение по структурно близкой причине.
Почему barren plateaus считаются **структурной**, а не инженерной проблемой QNN?
Quantum Advantage в ML: где граница реального и обещанного
Где сегодня реально работает quantum ML? Список короткий и честный. **Quantum kernels на алгебраических задачах** (Liu et al. 2021 - discrete log, IBM 2024 - sample complexity bounds на synthetic data). **Quantum chemistry с QML-усилением** (Google AI и DeepMind, 2022-2024 - VQE с QNN-параметризацией состояния даёт ~20% ускорения сходимости на конкретных молекулах). **Quantum reinforcement learning** (Volkswagen 2023 - QAOA-based policy для traffic flow, 2-5% над классикой на benchmarks). **Generative quantum models** (Quantinuum 2024 - quantum Boltzmann machines, ~10x параметров эффективнее на маленьких задачах). Что **не работает**: классификация изображений, NLP, рекомендательные системы - там классика рвёт quantum на порядки даже на симуляторах.
Главная честная цифра: **post-NISQ железо** (логические кубиты с error correction) ожидается к ~2030 году. До этого момента QML - это science: тестирование алгоритмов, измерение barren plateau на разных архитектурах, поиск задач, где quantum *теоретически* лучше классики. Никаких production-систем с QML в стеке (FAANG, фарма, финансы) до сих пор не существует - все публикации это либо internal R&D, либо pilots на грантовом железе. Honest statement от Karpathy (2023): "Quantum ML is a 10-year bet, not a 1-year bet. Most papers won't matter; the ones that explore fundamental advantage will".
Тезис Aaronson (2022): quantum advantage в ML с большой вероятностью **придёт через данные, а не через алгоритм**. То есть, если найдётся естественный источник квантовых данных (молекулярные эксперименты, квантовая сенсорика), классические ML модели не смогут их обработать - и quantum ML станет неизбежным. Generative chemistry, quantum metrology, quantum sensing - три направления, где квантовая природа данных делает quantum advantage не маркетинговым словом, а архитектурной необходимостью. ML на классических картинках или текстах останется классическим, и это нормально.
Quantum ML уже сегодня лучше классики для большинства задач
На 2026 год quantum advantage в ML доказан только на синтетических задачах с алгебраической структурой (discrete log). Для практических задач - изображения, текст, табличные данные - классическое deep learning доминирует на порядки.
Маркетинговые публикации стартапов (IonQ, Rigetti, Xanadu) перепутали reseaching capability с production readiness. Реальные production-системы AI в FAANG, Anthropic, OpenAI не используют ни одного квантового компонента. QML - это 5-15-летняя ставка на post-NISQ железо и на задачи с квантовой природой данных, а не альтернатива классике на сегодня.
Почему quantum advantage в ML с большой вероятностью придёт сначала в quantum chemistry и quantum sensing, а не в computer vision или NLP?
Связанные темы
Quantum ML стоит на пересечении нескольких направлений:
- Вариационные квантовые алгоритмы — QNN - частный случай VQE/QAOA с loss-функцией классификации
- Kernel methods и SVM — Quantum kernels - расширение kernel trick через квантовое embedding пространства
- Optimizers в ML — Adam, SPSA, COBYLA - те же классические алгоритмы, что в обычном PyTorch
- Vanishing gradient в deep learning — Barren plateaus - квантовый аналог, но количественно жёстче и без простых решений вроде batch norm
Ключевые идеи
- **Quantum kernel** - SVM, где ядро $K(x_i, x_j) = |\langle 0 | U^\dagger(x_i) U(x_j) | 0 \rangle|^2$ вычисляется на квантовом железе; экспоненциально большое feature space, но $O(N^2)$ оценок ограничивает датасеты сотнями примеров
- **QNN** - параметризованная квантовая схема, обучаемая через parameter-shift rule + классический оптимизатор; формально эквивалентна kernel SVM с тем же квантовым ядром
- **Barren plateaus** - экспоненциальное затухание градиента с числом кубитов в случайно инициализированных глубоких QNN; структурная проблема меры Хаара, не bug; решения - локальные observables, problem-inspired ansatz, structured init
- **Quantum advantage в ML** доказан только на синтетических задачах с алгебраической структурой; production-применений нет; перспектива через quantum chemistry, sensing, materials - где данные изначально квантовые
Вопросы для размышления
- Если quantum kernels формально эквивалентны QNN по expressivity, какие практические соображения определяют выбор между этими двумя архитектурами?
- McClean доказал barren plateau как следствие меры Хаара. Какие архитектурные ограничения нужны, чтобы выйти из режима случайной инициализации и при этом не потерять expressivity?
- Aaronson утверждает, что quantum advantage в ML придёт через quantum data, а не через quantum algorithms. Какие индустрии получают доступ к естественным квантовым данным и как изменится их ML-стек?
Связанные уроки
- qc-13 — VQE/QAOA - тот же вариационный шаблон, что лежит под QNN
- ml-13-svm — SVM на квантовом ядре - первый рабочий мост ML и QC
- dl-02 — Backprop в QNN заменяется на parameter-shift rule
- ml-28-optimizers — Adam и SPSA - всё ещё классические оптимизаторы поверх квантовой схемы
- calc-08-chain-rule — Parameter-shift - дискретная альтернатива chain rule
- prob-04-bayes — Измерение квантового состояния - posterior sampling по природе
- la-01-vectors-intro