AI-инжиниринг

Model Distillation: делаем маленькую модель умной как большая

Цели урока

Понимать knowledge distillation: teacher-student парадигма, soft labels, temperature scaling
Строить pipeline: seed generation → teacher inference → quality filtering → JSONL
Реализовать end-to-end distillation: GPT-4o → Llama 8B с QLoRA
Знать когда distillation лучше fine-tuning и как их комбинировать

DeepSeek R1 дистиллировал знания из более крупной модели - и получил 90% качества за 10% стоимости инференса. Distillation - это когда большая модель учит маленькую думать так же. GPT-4o-mini - дистиллят GPT-4. Stanford Alpaca 2023: USD 500 и один weekend - LLaMA 7B на уровне GPT-3.5. Microsoft Orca: систематическая дистилляция из GPT-4 дала 13B модель, конкурирующую с ChatGPT. Один инженер с бюджетом на обед может создать модель, которая закрывает конкретную production-задачу лучше флагмана.

GPT-4o-mini (2024) - официально дистиллят GPT-4, в 16x дешевле при сопоставимом качестве на большинстве задач
DeepSeek R1 (2025) - дистилляция reasoning из крупных моделей: 90% качества, 10% стоимости
Stanford Alpaca: 52K примеров от GPT-3.5 за 500 → LLaMA 7B на уровне GPT-3.5
Enterprise паттерн: distilled модели обрабатывают 80% запросов, GPT-4o fallback для сложных 20%

От Хинтона до DeepSeek

**2015: Hinton, Vinyals, Dean** - «Distilling the Knowledge in a Neural Network». Soft labels с temperature scaling: вместо hard label учитель передаёт распределение вероятностей. Одна идея - и маленькая модель получает в 10 раз больше сигнала. **2023: Stanford Alpaca** - 52K синтетических примеров за `500,` LLaMA 7B конкурирует с GPT-3.5. Эпоха mass LLM distillation открыта. **2024: GPT-4o-mini** - OpenAI официально называет это дистиллятом. В 16x дешевле GPT-4o при 90%+ качества на стандартных задачах. **2025: DeepSeek R1** - каскадная дистилляция reasoning-способностей. 671B → 70B → 8B. Каждый шаг сохраняет 85-90% качества предыдущего. За 10 лет distillation прошла путь от академической техники до core стратегии production AI.

Предварительные знания

Knowledge Distillation: передача знаний между моделями

2015 год. Джеффри Хинтон публикует статью «Distilling the Knowledge in a Neural Network». Идея простая и взрывная: вместо того чтобы учить маленькую модель на правильных ответах - учить её **думать как большая**. Называется teacher-student. Учитель (большая модель) передаёт ученику (маленькой) не просто «правильный класс», а распределение вероятностей по всем классам.

В чём разница? Hard label говорит: «это кошка». Soft label от учителя говорит: «это кошка с вероятностью 0.85, рысь - 0.09, собака - 0.04». Эти **soft probabilities** несут информацию о структуре задачи - насколько похожи классы между собой. Ученик получает в 10 раз больше сигнала с того же набора данных. Это и есть магия дистилляции по Хинтону.

В 2024-2025 году distillation вышла на новый уровень. GPT-4o-mini - дистиллят GPT-4. DeepSeek R1 дистиллировал знания из более крупных reasoning-моделей и получил 90% качества за 10% стоимости инференса. В контексте LLM механика немного другая: доступа к logits закрытой модели нет, поэтому student учится по **сгенерированным текстам** учителя - через Supervised Fine-Tuning.

Почему distillation работает? GPT-4o имеет ~1.8T параметров. Большая часть кодирует «общие знания» - грамматику, логику, факты о мире. Для конкретной задачи (классификация тикетов, суммаризация) нужна малая доля этих знаний. Маленькая модель не может хранить всё что знает GPT-4o - но может выучить паттерны для одной задачи. Дистилляция - это способ **выжать нужное из большого в маленькое**.

Метрика	GPT-4o (teacher)	Llama 8B (base)	Llama 8B (distilled)	Экономия
Accuracy	94%	72%	89%	-
Latency (p50)	800ms	80ms	80ms	10x
Cost per 1K req	2.50	0 (local)	0 (local)	100%
Monthly (100K req/day)	7,500	~800 (GPU)	~800 (GPU)	9x

**Реальный кейс: Stanford Alpaca (2023).** 52K примеров, сгенерированных text-davinci-003 за `500.` LLaMA 7B fine-tuned на этих данных показала качество, сопоставимое с GPT-3.5. Один weekend, 500 долларов - и open-source модель конкурирует с флагманом OpenAI. Это открыло эпоху mass distillation.

В чём отличие LLM distillation (2024-2026) от классической knowledge distillation (Hinton 2015)?

Teacher-Student pipeline: генерация synthetic data

Самая критичная часть distillation - генерация качественных training data. Принцип прост: задать teacher те же вопросы, которые будет получать student в production, и собрать ответы высокого качества. Мусор на входе - мусор на выходе. Student имитирует teacher, включая его ошибки.

Объём	GPT-4o cost (generation)	GPT-4o-mini cost (filtering)	Время
1,000 примеров	~6	~0.70	~15 мин
5,000 примеров	~30	~3.40	~1 час
10,000 примеров	~60	~6.80	~2 часа
50,000 примеров	~300	~34	~10 часов

**Terms of Service.** OpenAI Terms запрещают использовать output GPT-4 для обучения **конкурирующих** моделей. Специализированная модель для внутреннего использования - допустимо. Проверять ToS провайдера перед distillation.

Teacher (GPT-4o) сгенерировал 5,000 ответов. 15% содержат ошибки. Что будет при обучении student без фильтрации?

End-to-end pipeline: от GPT-4o к Llama 8B

Полный pipeline - от постановки задачи до deployed student-модели. Пример: классификация support-тикетов в 12 категорий. GPT-4o обрабатывает один тикет за ~USD 0.003. При 100K запросов в день это USD 300 в день - USD 9,000 в месяц. Distilled Llama 8B на одном GPU A100 (USD 2/час) при 50ms latency справится с той же нагрузкой за USD 1,440 в месяц. И это при 89% accuracy против 94%.

**Step 3: Fine-tuning student** с QLoRA через Unsloth:

В pipeline synthetic data от GPT-4o, а student fine-tune через QLoRA на Llama 8B. Зачем QLoRA?

Когда distillation побеждает fine-tuning и наоборот

Distillation и fine-tuning - разные инструменты. Fine-tuning использует **реальные данные** (human-labeled), distillation - **synthetic data** от teacher. Выбор зависит от ресурсов и задачи. Ни один из подходов не выигрывает всегда - но есть чёткий фреймворк для решения.

Критерий	Fine-tuning (real data)	Distillation (synthetic)
Data requirements	Labeled examples от людей	Только teacher + промпты
Стоимость данных	0.10-5/example (annotation)	~0.003/example (API)
Quality ceiling	Ограничен human labels	Ограничен teacher model
Скорость итерации	Медленно (annotation)	Быстро (часы)
Domain expertise	Нужны domain experts	Teacher должен понимать домен
Scaling	Дорого (больше annotators)	Дёшево (больше API calls)
Уникальные задачи	Лучше (эксперты знают нюансы)	Хуже (teacher может не знать)

**Combined approach** часто даёт наилучший результат:

Подход	Accuracy	Cost	Time to deploy
GPT-4o zero-shot	94%	0 (pay per use)	1 день
Fine-tuning only (300 human)	85%	~1,600	3 недели
Distillation only (5K synthetic)	89%	~80	3 дня
Combined (5K + 300 human)	92%	~1,680	3 недели
Combined + alignment stage	93%	~1,700	3.5 недели

**Progressive Distillation** - продвинутая техника: GPT-4o → Llama 70B → Llama 8B. Промежуточная модель генерирует более «релевантные» training data для маленькой модели, потому что ближе по архитектуре. DeepSeek R1 использовал похожий каскадный подход.

Задача: суммаризация медицинских отчётов. Есть 200 примеров от врачей и бюджет на GPT-4o API. Лучший подход?

Distillation - это просто fine-tuning на выходах учителя

Классическая дистилляция (Hinton 2015) принципиально отличается: student учится по soft labels с temperature scaling, а не по правильным ответам

Hard label «кошка» несёт 1 бит информации. Soft label «кошка: 0.85, рысь: 0.09, тигр: 0.04» несёт информацию о **структуре пространства классов** - насколько классы похожи между собой. Temperature scaling (T=4) размягчает распределение ещё сильнее, делая малые вероятности значимыми. Student получает знание о семантической близости концептов, которое в hard labels полностью теряется. В LLM-контексте, когда нет доступа к logits, используют SFT на текстах - это ближе к имитации, чем к классической дистилляции. GPT-4o-mini при этом обучался именно с доступом к soft labels - отсюда его преимущество.

Итоги

Hinton 2015: soft labels с temperature несут структуру задачи, не только правильный ответ
LLM distillation (2024+): teacher генерирует synthetic data → student fine-tune через SFT
GPT-4o-mini - дистиллят GPT-4; DeepSeek R1 - каскадная дистилляция reasoning
Pipeline: seed generation → teacher inference (temperature=0) → quality filtering → JSONL
Student достигает 90-95% quality при 10x latency reduction и 0 inference cost
Combined approach (synthetic + human с oversampling) бьёт каждый метод в отдельности
ToS: нельзя distill в конкурирующий LLM-сервис, внутреннее использование допускается

Что дальше

Distilled модель нужно задеплоить. Следующие уроки - local deployment и production serving.

Local LLM — Distilled GGUF → Ollama для local inference
Model Serving — Production deploy distilled модели - TGI, vLLM, autoscaling
Cost Management — Distillation - стратегия снижения costs наряду с caching и routing

Связанные уроки

aie-36-fine-tuning — Дистилляция строится на процессе fine-tuning
aie-37-open-source-models — Модели-ученики обычно с открытыми весами
aie-39-local-models — Маленькие дистиллированные модели работают локально
aie-40-model-serving — Меньшие модели обслуживаются быстрее и дешевле
ml-41-transfer-learning — Переносим знание учителя в меньшего ученика
ml-07