Обработка естественного языка

Summarization

Юридическая компания получает 500-страничный контракт. Партнёр должен его прочитать до встречи через час. Раньше это означало 3 часа работы junior юриста. Сейчас: LLM суммаризация за 2 минуты - ключевые пункты, риски, обязательства. Партнёр за 10 минут знает достаточно для переговоров. Это не замена юриста - это усиление.

**Bloomberg AI**: суммаризация финансовых отчётов, earnings calls, SEC filings. Трейдеры получают структурированное краткое содержание вместо 200 страниц. 10-K summary за секунды вместо часов.
**Notion AI**: суммаризация длинных документов и meeting notes. 'Суммаризируй в 3 пункта' - одна кнопка. Используется миллионами команд.
**Hugging Face Inference API**: BART-large-CNN как API. Тысячи компаний используют для news summarization, content moderation описаний, product review aggregation.

Предварительные знания

Seq2seq генерация и encoder-decoder архитектуры (BART, T5)
TF-IDF и cosine similarity для графовых методов extractive
Понятие hallucination и почему оно опасно при генерации

От Луна до нейросетевой суммаризации

1958 год. Hans Peter Luhn из IBM публикует "The Automatic Creation of Literature Abstracts". Его идея проста и живёт до сих пор: важность предложения можно оценить по частоте значимых слов, которые в нём встречаются - так рождается extractive суммаризация. Полвека этот статистический подход доминировал: TF-IDF, затем графовые методы вроде TextRank. Перелом наступил в 2017, когда Abigail See, Peter Liu и Christopher Manning представили pointer-generator networks - модель, которая умела и копировать слова из источника, и генерировать новые, решая проблему повторений. Дальше пошли pretrained seq2seq модели: BART и T5 (2019-2020), а затем PEGASUS (Zhang с соавторами, Google, 2020) с предобучением gap sentence generation, специально заточенным под суммаризацию.

Extractive суммаризация: выбор ключевых предложений

**Extractive суммаризация** выбирает и объединяет наиболее важные предложения из оригинального текста. Не генерирует новый текст. Преимущество: всегда factually correct (слова из оригинала). Недостаток: может быть несвязной.

**TextRank**: граф где узлы - предложения, рёбра - TF-IDF similarity. PageRank определяет важность. Простой но эффективный для news summarization. LexRank - вариант с cosine similarity через TF-IDF vectors. Оба не требуют обучения - unsupervised.

Почему extractive суммаризация гарантирует factual accuracy?

Abstractive суммаризация: перефразирование

**Abstractive суммаризация** генерирует новый текст - может перефразировать, объединять предложения, использовать слова которых нет в оригинале. Более гибкая и читаемая. Seq2Seq архитектуры (BART, T5, Pegasus) - стандарт для abstractive суммаризации.

**LLM для суммаризации**: GPT-4, Claude 3.5 Sonnet - state of the art для abstractive. Преимущество: instruction following (суммаризируй в формате bullet points, на русском, для менеджера), длинный контекст (128K+ токенов). Недостаток: стоимость, latency. PEGASUS (Google, 2020): pre-training специально для суммаризации через gap sentence prediction.

Abstractive суммаризация сгенерировала предложение которого не было в оригинале. Это всегда ошибка?

Multi-Document суммаризация

**Multi-Document Summarization (MDS)**: несколько документов об одной теме -> единая связная суммаризация. Дополнительные проблемы: contradiction between sources (одни говорят A, другие B), redundancy (одна новость из 10 источников), cross-document coreference ('он' в документе 2 - тот же что в документе 1?).

**Применения MDS**: медийный мониторинг (агрегация новостей о компании из 50 источников), academic review (суммаризация 20 статей по теме), legal discovery (обзор тысяч документов). Benchmark: MultiNews, DUC, WCEP. LLM с длинным контекстом (Claude 200K, GPT-4-128K) меняют подход: больше не нужен map-reduce при умеренном числе документов.

Multi-document суммаризация 20 статей о Tesla: два источника сообщают противоположное о рентабельности. Что должна сделать хорошая суммаризация?

ROUGE и другие метрики оценки

**ROUGE (Recall-Oriented Understudy for Gisting Evaluation)**: семейство метрик для оценки суммаризации через overlap с reference summary. ROUGE-1 (unigrams), ROUGE-2 (bigrams), ROUGE-L (longest common subsequence). Стандарт с 2004 года, хотя имеет ограничения.

**Проблемы ROUGE**: не учитывает семантику (синонимы дают низкий score), коррелирует с длиной summary, favourises extractive методы (те же слова = высокий overlap). **BERTScore** использует contextual embeddings - лучше для abstractive. **G-Eval** (GPT-4 как судья): оценивает coherence, consistency, fluency, relevance по 1-5 шкале.

LLM суммаризация всегда лучше специализированных моделей (BART, Pegasus) - просто используй GPT-4

BART и Pegasus fine-tuned на domain-specific данных (медицина, юридические тексты) могут превосходить general GPT-4 на своём домене при 10x меньших затратах

GPT-4 за суммаризацию 1M токенов в день - $1500. BART fine-tuned на GPU сервере - $100/мес. Для high-volume, domain-specific задач - специализированная модель выгоднее.

ROUGE-1 score = 0.9 для extractive summary и 0.6 для abstractive. Значит ли это что extractive summary лучше?

Ключевые идеи

**Extractive**: выбор предложений из оригинала (TextRank, BERTSum). Factually accurate, но может быть несвязным. Unsupervised варианты не требуют разметки.
**Abstractive**: генерация нового текста (BART, T5, Pegasus, LLM). Более связная и гибкая. Риск hallucination - нужна faithfulness проверка.
**Multi-Document**: противоречия между источниками должны явно отражаться. Map-Reduce для длинных коллекций, LLM с длинным контекстом для умеренных.
**ROUGE**: overlap метрика, удобна но благоприятна к extractive. BERTScore - семантически лучше. G-Eval (LLM-judge) - для комплексной оценки.
**Выбор**: domain-specific + high-volume -> fine-tuned BART/Pegasus. Flexible + качество -> LLM. Factual accuracy critical -> extractive.

Связанные темы

Суммаризация пересекается с несколькими NLP задачами:

Question Answering — Long-context QA требует суммаризации документов которые не влезают в context window читающей модели
RAG: Retrieval-Augmented Generation — Суммаризация retrieved документов перед передачей в LLM снижает токены и улучшает signal/noise ratio

Вопросы для размышления

Длинный научный документ имеет abstract, написанный автором. Использовать его как reference для ROUGE оценки или создать независимые human references? Почему?
Суммаризация юридического договора: extractive сохраняет точные формулировки (важно для права), abstractive понятнее для клиента. Как выбрать или комбинировать?
ROUGE не улавливает coherence - можно получить высокий ROUGE из несвязных предложений. Как в production системе автоматически оценить связность summary?

Связанные уроки

nlp-14 — BART и T5 - стандартные абстрактивные суммаризаторы
nlp-18 — Оба порождают сфокусированный ответ из длинного текста
nlp-15 — LLM делают абстрактивную суммаризацию без обучения
ml-52-search-ranking — Извлекающая суммаризация ранжирует и отбирает предложения
it-01 — Суммаризация - это сжатие с потерями смысла источника
ml-01-intro