AI-инжиниринг
Model Distillation: делаем маленькую модель умной как большая
Цели урока
- Понимать knowledge distillation: teacher-student парадигма, soft labels, temperature scaling
- Строить pipeline: seed generation → teacher inference → quality filtering → JSONL
- Реализовать end-to-end distillation: GPT-4o → Llama 8B с QLoRA
- Знать когда distillation лучше fine-tuning и как их комбинировать
DeepSeek R1 дистиллировал знания из более крупной модели - и получил 90% качества за 10% стоимости инференса. Distillation - это когда большая модель учит маленькую думать так же. GPT-4o-mini - дистиллят GPT-4. Stanford Alpaca 2023: USD 500 и один weekend - LLaMA 7B на уровне GPT-3.5. Microsoft Orca: систематическая дистилляция из GPT-4 дала 13B модель, конкурирующую с ChatGPT. Один инженер с бюджетом на обед может создать модель, которая закрывает конкретную production-задачу лучше флагмана.
- GPT-4o-mini (2024) - официально дистиллят GPT-4, в 16x дешевле при сопоставимом качестве на большинстве задач
- DeepSeek R1 (2025) - дистилляция reasoning из крупных моделей: 90% качества, 10% стоимости
- Stanford Alpaca: 52K примеров от GPT-3.5 за 500 → LLaMA 7B на уровне GPT-3.5
- Enterprise паттерн: distilled модели обрабатывают 80% запросов, GPT-4o fallback для сложных 20%
От Хинтона до DeepSeek
**2015: Hinton, Vinyals, Dean** - «Distilling the Knowledge in a Neural Network». Soft labels с temperature scaling: вместо hard label учитель передаёт распределение вероятностей. Одна идея - и маленькая модель получает в 10 раз больше сигнала. **2023: Stanford Alpaca** - 52K синтетических примеров за `500,` LLaMA 7B конкурирует с GPT-3.5. Эпоха mass LLM distillation открыта. **2024: GPT-4o-mini** - OpenAI официально называет это дистиллятом. В 16x дешевле GPT-4o при 90%+ качества на стандартных задачах. **2025: DeepSeek R1** - каскадная дистилляция reasoning-способностей. 671B → 70B → 8B. Каждый шаг сохраняет 85-90% качества предыдущего. За 10 лет distillation прошла путь от академической техники до core стратегии production AI.
Предварительные знания
Knowledge Distillation: передача знаний между моделями
2015 год. Джеффри Хинтон публикует статью «Distilling the Knowledge in a Neural Network». Идея простая и взрывная: вместо того чтобы учить маленькую модель на правильных ответах - учить её **думать как большая**. Называется teacher-student. Учитель (большая модель) передаёт ученику (маленькой) не просто «правильный класс», а распределение вероятностей по всем классам.
В чём разница? Hard label говорит: «это кошка». Soft label от учителя говорит: «это кошка с вероятностью 0.85, рысь - 0.09, собака - 0.04». Эти **soft probabilities** несут информацию о структуре задачи - насколько похожи классы между собой. Ученик получает в 10 раз больше сигнала с того же набора данных. Это и есть магия дистилляции по Хинтону.
В 2024-2025 году distillation вышла на новый уровень. GPT-4o-mini - дистиллят GPT-4. DeepSeek R1 дистиллировал знания из более крупных reasoning-моделей и получил 90% качества за 10% стоимости инференса. В контексте LLM механика немного другая: доступа к logits закрытой модели нет, поэтому student учится по **сгенерированным текстам** учителя - через Supervised Fine-Tuning.
Почему distillation работает? GPT-4o имеет ~1.8T параметров. Большая часть кодирует «общие знания» - грамматику, логику, факты о мире. Для конкретной задачи (классификация тикетов, суммаризация) нужна малая доля этих знаний. Маленькая модель не может хранить всё что знает GPT-4o - но может выучить паттерны для одной задачи. Дистилляция - это способ **выжать нужное из большого в маленькое**.
| Метрика | GPT-4o (teacher) | Llama 8B (base) | Llama 8B (distilled) | Экономия |
|---|---|---|---|---|
| Accuracy | 94% | 72% | 89% | - |
| Latency (p50) | 800ms | 80ms | 80ms | 10x |
| Cost per 1K req | 2.50 | 0 (local) | 0 (local) | 100% |
| Monthly (100K req/day) | 7,500 | ~800 (GPU) | ~800 (GPU) | 9x |
**Реальный кейс: Stanford Alpaca (2023).** 52K примеров, сгенерированных text-davinci-003 за `500.` LLaMA 7B fine-tuned на этих данных показала качество, сопоставимое с GPT-3.5. Один weekend, 500 долларов - и open-source модель конкурирует с флагманом OpenAI. Это открыло эпоху mass distillation.
В чём отличие LLM distillation (2024-2026) от классической knowledge distillation (Hinton 2015)?
Teacher-Student pipeline: генерация synthetic data
Самая критичная часть distillation - генерация качественных training data. Принцип прост: задать teacher те же вопросы, которые будет получать student в production, и собрать ответы высокого качества. Мусор на входе - мусор на выходе. Student имитирует teacher, включая его ошибки.
| Объём | GPT-4o cost (generation) | GPT-4o-mini cost (filtering) | Время |
|---|---|---|---|
| 1,000 примеров | ~6 | ~0.70 | ~15 мин |
| 5,000 примеров | ~30 | ~3.40 | ~1 час |
| 10,000 примеров | ~60 | ~6.80 | ~2 часа |
| 50,000 примеров | ~300 | ~34 | ~10 часов |
**Terms of Service.** OpenAI Terms запрещают использовать output GPT-4 для обучения **конкурирующих** моделей. Специализированная модель для внутреннего использования - допустимо. Проверять ToS провайдера перед distillation.
Teacher (GPT-4o) сгенерировал 5,000 ответов. 15% содержат ошибки. Что будет при обучении student без фильтрации?
End-to-end pipeline: от GPT-4o к Llama 8B
Полный pipeline - от постановки задачи до deployed student-модели. Пример: классификация support-тикетов в 12 категорий. GPT-4o обрабатывает один тикет за ~USD 0.003. При 100K запросов в день это USD 300 в день - USD 9,000 в месяц. Distilled Llama 8B на одном GPU A100 (USD 2/час) при 50ms latency справится с той же нагрузкой за USD 1,440 в месяц. И это при 89% accuracy против 94%.
**Step 3: Fine-tuning student** с QLoRA через Unsloth:
В pipeline synthetic data от GPT-4o, а student fine-tune через QLoRA на Llama 8B. Зачем QLoRA?
Когда distillation побеждает fine-tuning и наоборот
Distillation и fine-tuning - разные инструменты. Fine-tuning использует **реальные данные** (human-labeled), distillation - **synthetic data** от teacher. Выбор зависит от ресурсов и задачи. Ни один из подходов не выигрывает всегда - но есть чёткий фреймворк для решения.
| Критерий | Fine-tuning (real data) | Distillation (synthetic) |
|---|---|---|
| Data requirements | Labeled examples от людей | Только teacher + промпты |
| Стоимость данных | 0.10-5/example (annotation) | ~0.003/example (API) |
| Quality ceiling | Ограничен human labels | Ограничен teacher model |
| Скорость итерации | Медленно (annotation) | Быстро (часы) |
| Domain expertise | Нужны domain experts | Teacher должен понимать домен |
| Scaling | Дорого (больше annotators) | Дёшево (больше API calls) |
| Уникальные задачи | Лучше (эксперты знают нюансы) | Хуже (teacher может не знать) |
**Combined approach** часто даёт наилучший результат:
| Подход | Accuracy | Cost | Time to deploy |
|---|---|---|---|
| GPT-4o zero-shot | 94% | 0 (pay per use) | 1 день |
| Fine-tuning only (300 human) | 85% | ~1,600 | 3 недели |
| Distillation only (5K synthetic) | 89% | ~80 | 3 дня |
| Combined (5K + 300 human) | 92% | ~1,680 | 3 недели |
| Combined + alignment stage | 93% | ~1,700 | 3.5 недели |
**Progressive Distillation** - продвинутая техника: GPT-4o → Llama 70B → Llama 8B. Промежуточная модель генерирует более «релевантные» training data для маленькой модели, потому что ближе по архитектуре. DeepSeek R1 использовал похожий каскадный подход.
Задача: суммаризация медицинских отчётов. Есть 200 примеров от врачей и бюджет на GPT-4o API. Лучший подход?
Distillation - это просто fine-tuning на выходах учителя
Классическая дистилляция (Hinton 2015) принципиально отличается: student учится по soft labels с temperature scaling, а не по правильным ответам
Hard label «кошка» несёт 1 бит информации. Soft label «кошка: 0.85, рысь: 0.09, тигр: 0.04» несёт информацию о **структуре пространства классов** - насколько классы похожи между собой. Temperature scaling (T=4) размягчает распределение ещё сильнее, делая малые вероятности значимыми. Student получает знание о семантической близости концептов, которое в hard labels полностью теряется. В LLM-контексте, когда нет доступа к logits, используют SFT на текстах - это ближе к имитации, чем к классической дистилляции. GPT-4o-mini при этом обучался именно с доступом к soft labels - отсюда его преимущество.
Итоги
- Hinton 2015: soft labels с temperature несут структуру задачи, не только правильный ответ
- LLM distillation (2024+): teacher генерирует synthetic data → student fine-tune через SFT
- GPT-4o-mini - дистиллят GPT-4; DeepSeek R1 - каскадная дистилляция reasoning
- Pipeline: seed generation → teacher inference (temperature=0) → quality filtering → JSONL
- Student достигает 90-95% quality при 10x latency reduction и 0 inference cost
- Combined approach (synthetic + human с oversampling) бьёт каждый метод в отдельности
- ToS: нельзя distill в конкурирующий LLM-сервис, внутреннее использование допускается
Что дальше
Distilled модель нужно задеплоить. Следующие уроки - local deployment и production serving.
- Local LLM — Distilled GGUF → Ollama для local inference
- Model Serving — Production deploy distilled модели - TGI, vLLM, autoscaling
- Cost Management — Distillation - стратегия снижения costs наряду с caching и routing
Связанные уроки
- aie-36-fine-tuning — Дистилляция строится на процессе fine-tuning
- aie-37-open-source-models — Модели-ученики обычно с открытыми весами
- aie-39-local-models — Маленькие дистиллированные модели работают локально
- aie-40-model-serving — Меньшие модели обслуживаются быстрее и дешевле
- ml-41-transfer-learning — Переносим знание учителя в меньшего ученика
- ml-07