Обработка естественного языка

T5, BART и encoder-decoder архитектуры

Предварительные знания

BERT и masked LM (T5/BART переосмысляют denoising-предобучение энкодера)
GPT и авторегрессионная генерация (декодер encoder-decoder работает авторегрессионно)

T5 и BART: возвращение encoder-decoder

В октябре 2019 года Колин Раффел с коллегами из Google опубликовали 'Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer' (T5): каждая задача формулируется как text-to-text, а модель - полный encoder-decoder Transformer, предобученный на span-corruption (восстановление выброшенных фрагментов текста) на корпусе C4. Почти одновременно Майк Льюис с коллегами из Facebook AI выпустили BART: 'Denoising Sequence-to-Sequence Pre-training', где вход портится разными шумами (маскирование, перестановка предложений, удаление токенов), а декодер восстанавливает оригинал. В отличие от encoder-only BERT и decoder-only GPT, обе модели объединяют понимание (энкодер) и генерацию (декодер) и особенно сильны в суммаризации и переводе. Text-to-text формулировка T5 - прямой предшественник instruction tuning и единого интерфейса современных LLM

2019 год. Каждая NLP-задача - отдельный мир: для перевода нужна одна модель, для классификации другая, для суммаризации третья. Каждая со своей архитектурой, своим input-форматом, своей loss. Google публикует статью с заголовком «Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer». В ней - простая идея: что если каждую задачу записать как text-to-text? Translate, classify, summarize - всё через одну модель. Через два года эта идея породит instruction tuning, а ещё через два - ChatGPT.

**Google T5** - используется в Google Search, Google Translate, Bard; основа internal NLP-инфраструктуры компании
**Facebook BART** - применяется в Facebook News Summarization, для генерации ответов в Messenger
**HuggingFace flan-t5-xxl** - 11B-модель, обходит GPT-3 (175B) на zero-shot classification; пример эффективности правильной архитектуры

Text-to-Text парадигма T5

До 2019 года каждая NLP-задача решалась отдельной архитектурой: классификация - BERT с classification head, перевод - seq2seq с attention, генерация - GPT. Google публикует T5 (Text-to-Text Transfer Transformer) и заявляет: «любая задача NLP - это преобразование одного текста в другой». Перевод? `translate English to German: Hello -> Hallo`. Классификация sentiment? `sst2 sentence: I love this movie -> positive`. Суммаризация? `summarize: <длинный текст> -> <короткий>`. Одна модель, один формат данных, одна функция потерь.

Архитектура T5 - классический encoder-decoder Transformer из 'Attention is All You Need', но с relative position embeddings (Shaw et al.) и без layer normalization bias. Encoder читает input полностью (bidirectional self-attention), decoder генерирует output авторегрессионно (causal self-attention + cross-attention к encoder). Размеры: T5-Small (60M), T5-Base (220M), T5-Large (770M), T5-3B, T5-11B. Обучен на C4 (Colossal Clean Crawled Corpus, 750GB чистого текста).

Какое главное архитектурное преимущество text-to-text подхода T5?

Denoising pre-training: span corruption и token masking

Как обучить encoder-decoder без размеченных пар (input, output)? Через **denoising objective**: берём неразмеченный текст, портим его (зашумляем), и учим модель восстанавливать оригинал. T5 использует **span corruption**: маскируется не один токен (как в BERT), а целые непрерывные последовательности (spans) из 1-5 токенов. Каждый masked span заменяется на специальный sentinel токен (<extra_id_0>, <extra_id_1>, ...). Decoder учится предсказывать только masked spans, разделённые теми же sentinels.

BART использует более разнообразное denoising: token masking (как BERT), token deletion (удаление токена без указания позиции), text infilling (как T5 span corruption), sentence permutation (перестановка предложений), document rotation (циклический сдвиг). Этот «жадный» набор noise-функций делает BART сильнее на задачах генерации, особенно суммаризации. T5 же лучше на задачах с богатой структурой output (translation, QA).

Почему span corruption в T5 работает лучше, чем masked language modeling в BERT для encoder-decoder задач?

Суммаризация: extractive vs abstractive

До BART/T5 автоматическая суммаризация делилась на два лагеря: **extractive** (выбираем самые важные предложения из оригинала) и **abstractive** (генерируем новый текст). Extractive проще, но даёт жёсткий, рваный стиль. Abstractive звучит естественно, но раньше галлюцинировал факты. BART показал прорыв: на датасете CNN/DailyMail дала ROUGE-L 41.0 против 39.5 у предыдущего SOTA. BART стал стандартом для abstractive summarization, а T5 - сильным конкурентом.

Тонкости production: галлюцинации (модель придумывает факты) - главный риск abstractive summarization. Решения: factual consistency loss (учить модель быть верной источнику), retrieval-augmented generation (генерировать только то, что есть в input), post-hoc verification (отдельная модель проверяет факты в summary). Метрики: ROUGE (n-gram overlap) - быстрая, но не ловит галлюцинации; BERTScore - семантическое сходство; human evaluation - золотой стандарт, но дорогой.

Почему abstractive summarization сложнее, чем extractive, несмотря на то, что обе задачи NLP-старые?

Multi-task learning и instruction tuning

T5 обучается не на одной задаче, а одновременно на десятках через text-to-text формат. Это **multi-task learning**: модель видит примеры перевода, QA, классификации, и суммаризации в одном тренировочном цикле. Преимущества: shared representations улучшают каждую задачу через transfer; модель учится универсальным навыкам понимания текста. Это - прямая предтеча instruction tuning в современных LLM: FLAN, T0, InstructGPT строятся на тех же принципах, но с тысячами задач вместо десятков.

Эволюция: T5 (2019, ~10 задач) -> T0 (2021, 62 задачи) -> FLAN-T5 (2022, 1836 задач) -> InstructGPT и его потомки (2022+, миллионы задач через RLHF). Идея инструкций (instruction prompts) пришла именно от T5: «translate English to German:» - первая форма инструкции. Современные LLM добавили RLHF поверх этого подхода. Multi-task baseline остаётся актуальным: FLAN-T5-XL (3B параметров) обходит GPT-3 (175B) на multi-task benchmarks при сравнимом качестве, что подчёркивает важность правильной формулировки задач.

Encoder-decoder модели (T5, BART) устарели и полностью заменены decoder-only LLM типа GPT

Encoder-decoder архитектура остаётся актуальной для задач с чётко разделёнными input и output: машинный перевод, суммаризация, парафразирование. T5 и BART показывают лучшие результаты на этих задачах при меньших параметрах, чем сопоставимые decoder-only модели

Decoder-only LLM универсальны и удобны для chat-сценариев, но для задач seq2seq encoder-decoder архитектура естественнее: bidirectional encoder лучше понимает контекст input'a, decoder фокусируется на генерации. Это - вопрос правильного инструмента под задачу, а не устаревания

Почему multi-task learning в T5 - прямой предшественник instruction tuning в современных LLM?

Ключевые идеи

**Text-to-Text (T5)** - универсальный формат для любой NLP-задачи; путь к instruction tuning и современным LLM
**Denoising pre-training** - span corruption (T5) и multiple noise functions (BART) дают сильные encoder-decoder представления
**Abstractive summarization** - BART стал стандартом; вызовы: галлюцинации, factual consistency, метрики
**Multi-task learning** - shared representations + единый формат; прямой предок instruction tuning у FLAN, InstructGPT, GPT-4

Связанные темы

Возврат к мотивации: T5 и BART - не отдельные модели, а часть большой линии развития трансформеров. Связь с предыдущими уроками:

BERT и MLM — BERT использует masked LM на encoder-only; T5 обобщает идею до span corruption на encoder-decoder
Attention Is All You Need — Оригинальный Transformer был encoder-decoder; T5 и BART - прямые наследники этой архитектуры
Embeddings и токенизация — T5 использует SentencePiece, BART - BPE; выбор токенизатора влияет на multilingual capabilities

Вопросы для размышления

Если text-to-text парадигма T5 настолько универсальна, почему GPT-стиль (decoder-only) победил для chat-сценариев? Какие свойства задачи определяют выбор архитектуры?
Многие production-системы для перевода и суммаризации до сих пор используют BART/T5, а не последние LLM. Какие практические причины могут стоять за этим выбором?
Возврат к мотивации: T5 формализовал инструкции в 2019 году, но ChatGPT появился только в 2022. Что произошло за эти три года и почему результат поразил публику только тогда?

Связанные уроки

nlp-12 — BERT - encoder часть encoder-decoder архитектуры
nlp-13 — GPT - decoder-only, T5 - encoder-decoder comparison
nlp-10 — Seq2seq attention - основа T5/BART архитектуры
nlp-11 — Machine translation - классическая encoder-decoder задача
nlp-19 — Summarization - core задача BART
gai-05 — T5 pre-training аналогичен LLM pre-training scale-up
ml-01-intro