Обработка естественного языка

Multimodal NLP

Незрячий человек фотографирует меню в ресторане. Microsoft Seeing AI читает вслух: 'Меню. Раздел 'Закуски'. Брускетта с томатами - 450 рублей. Греческий салат - 380 рублей...' Это multimodal NLP: OCR + image understanding + text-to-speech. Технология которую раньше делали специальные устройства за тысячи долларов - теперь приложение на смартфоне.

**Pinterest Visual Search**: CLIP embeddings для поиска похожих изображений. 'Найти похожие диваны'. 5 миллиардов изображений индексированы по visual и semantic embeddings.
**Google Lens**: image-to-text, object recognition, product search, translation текста на фото. 8 миллиардов запросов в месяц. CLIP-подобные модели в core.
**Tesla Autopilot**: vision-language понимание дорожных знаков, разметки, ситуаций. 'STOP' на знаке = остановиться. Multimodal inference в реальном времени на edge hardware.

Предварительные знания

Архитектура трансформера и attention: cross-attention - это способ, которым визуальные признаки управляют языковой моделью
Embeddings и косинусная близость в общем векторном пространстве
Contrastive learning: притягиваем positive-пары, отталкиваем negative
Большие языковые модели и in-context (few-shot) обучение

CLIP: год, когда зрение встретилось с языком на масштабе

До 2021 года зрение и язык жили в разных исследовательских мирах. Модели для изображений обучались на ImageNet с 1.2 миллиона размеченных вручную примеров и фиксированными списками классов, а текстовые модели обучались на сыром веб-тексте. В январе 2021 года Alec Radford с коллегами в OpenAI опубликовали CLIP (Contrastive Language-Image Pretraining), обученный на 400 миллионах пар изображение-текст, собранных из веба. Contrastive objective притягивал embeddings совпадающих изображений и подписей друг к другу и отталкивал несовпадающие, создавая общее пространство, где 'фотография кошки' оказывается рядом с изображениями кошек. CLIP достиг 76.2 процента zero-shot top-1 на ImageNet, сравнявшись с обученным с учителем ResNet-50, ни разу не увидев ни одной метки ImageNet. Следующая волна пришла быстро: Flamingo от DeepMind (Alayrac et al., 2022) добавил cross-attention поверх замороженной языковой модели на 70B параметров для few-shot визуального рассуждения. Salesforce выпустил BLIP (2022) и BLIP-2 (2023) с Q-Former, соединяющим замороженные энкодеры и замороженные LLM. А в 2023 году GPT-4V от OpenAI и Gemini от Google вывели визуальное понимание общего назначения в production на масштабе GPT-4. За четыре года стена между пикселями и токенами рухнула.

CLIP: contrastive language-image pretraining

**CLIP** (OpenAI, 2021): обучить image encoder и text encoder так, чтобы похожие изображения и тексты имели близкие embeddings. Contrastive loss: в батче из N пар (image, caption) - N правильных пар должны быть ближе друг к другу чем N*(N-1) неправильных.

**CLIP применения**: zero-shot image classification (не нужна domain-specific разметка), image-text retrieval (Pinterest, Shutterstock), content moderation, DALL-E и Stable Diffusion используют CLIP для text-image alignment. OpenCLIP - open-source CLIP обученный на LAION-5B (5 миллиардов пар).

Почему CLIP называют 'zero-shot' классификатором?

Flamingo и Visual Language Models

**Flamingo** (DeepMind, 2022): large language model augmented with vision. Задаётся несколько примеров (image, question, answer) и новый (image, question) - модель отвечает few-shot. Перцептивный resampler сжимает image features, cross-attention вставляет их в LLM слои.

**Современные VLM (2024)**: GPT-4V, Claude 3, Gemini 1.5 - полноценные multimodal LLM. **LLaVA** (open-source): visual instruction tuning - обучение следовать инструкциям с изображениями. Архитектура: CLIP vision encoder + проекция + LLM. LLaVA-1.5 на 7B параметрах конкурирует с GPT-4V на многих benchmark.

Flamingo получает несколько пар (image, question, answer) как контекст перед новым вопросом. Это какой паттерн?

Vision-Language Tasks

Multimodal модели решают разнообразные задачи сочетающие зрение и язык. **VQA (Visual Question Answering)**: вопрос + изображение -> ответ. **Visual Grounding**: текстовое описание -> bounding box на изображении. **Chart/Document Understanding**: таблицы, графики, PDF -> структурированный извлечение.

**OCR + LLM vs end-to-end VLM**: для document understanding (счета, контракты, формы) PaddleOCR/Tesseract + text LLM часто точнее чем pure VLM. End-to-end VLM лучше для natural images. GPT-4V с document tasks: используй высокое разрешение и explicit OCR prompt.

Для автоматизации обработки счетов-фактур (извлечь сумму, номер, дату): VLM или OCR+LLM?

Image Captioning и мультимодальная генерация

**Image Captioning** - генерация текстового описания изображения. Encoder-Decoder: CNN/ViT кодирует изображение, LSTM/трансформер декодирует caption. BLIP-2 (Salesforce, 2023): Q-Former мост между замороженным vision encoder и LLM. State of the art подход.

**Multimodal generation**: не только image -> text, но и text -> image (DALL-E 3, Midjourney, Stable Diffusion), text -> video (Sora, Runway), image editing через text instructions (InstructPix2Pix). **Any-to-Any models**: Gemini 1.5 принимает смешанные modalities в одном контексте (текст + изображения + аудио).

**Accessiblity применения**: автоматические подписи к изображениям для слабовидящих (Microsoft Seeing AI, Google Lookout). Alt-text генерация для изображений на веб-сайтах. Real-time описание окружающего мира через смартфон камеру.

Multimodal LLM понимают изображения так же как люди - видят объекты, их расположение и отношения

VLM лучше в semantic описании чем spatial reasoning. 'Кошка на столе' - хорошо. 'Что правее - красный или синий объект на сложном фото' - слабее человека

VLM обучены на пары caption-image, где captions описывают семантику, не точную геометрию. Пространственное понимание требует специального обучения (SpatialVLM) или данных. MMStar benchmark специально тестирует spatial reasoning где топовые модели показывают 50-60%.

BLIP-2 использует Q-Former как мост между vision encoder и LLM. Зачем нужен этот промежуточный компонент?

Ключевые идеи

**CLIP**: contrastive обучение на 400M пар image-text. Zero-shot классификация и cross-modal retrieval. Основа современных VLM.
**Flamingo / LLaVA**: vision encoder + проекция + LLM. Few-shot multimodal prompting. Open-source LLaVA конкурентоспособна с GPT-4V на many benchmarks.
**VQA, TextVQA, DocVQA**: разные уровни complexity. OCR+LLM для printed documents, end-to-end VLM для natural scenes.
**BLIP-2**: Q-Former мост адаптирует vision representations под LLM пространство. Позволяет замороженным LLM работать с изображениями.
**Ограничения**: spatial reasoning слабее semantic. Hallucination в описании деталей. Consistency - модель может описать разные детали по-разному.

Связанные темы

Multimodal NLP строится на классических NLP компонентах:

RAG: Retrieval-Augmented Generation — Multimodal RAG: retrieval по изображениям через CLIP embeddings, генерация с мультимодальным контекстом
NLP System Design — Мультимодальные системы требуют специфических архитектурных решений для обработки разных модальностей

Вопросы для размышления

CLIP обучался на web-scraped данных с потенциальными биасами (расовыми, гендерными). Как это влияет на downstream задачи - например классификацию изображений людей?
Multimodal RAG: как индексировать документы с изображениями и текстом? Отдельные индексы для текста и изображений или объединённый?
VLM описывает 'кошку на диване'. При следующем запросе описание может отличаться ('рыжая кошка', 'кот'). Это hallucination или нормальное поведение генеративной модели?

Связанные уроки

nlp-06 — CLIP выравнивает текст и изображение в общем пространстве
nlp-15 — Vision-language модели расширяют LLM на изображения
nlp-09 — Мультимодальная тональность сливает текст, аудио и видео
cv-01 — Энкодеры изображений дают визуальную половину CLIP
aie-25-multimodal — API мультимодальных моделей в продакшен-инженерии
dl-01