Генеративный AI

Evaluation и Benchmarks

2023 год. Каждую неделю выходит новая 'лучшая' модель с рекордным MMLU. Через месяц выясняется: часть данных MMLU оказалась в pre-training. Benchmark contamination убивает доверие к результатам. Индустрия в поиске: как объективно измерить интеллект нейросети, когда она могла выучить ответы? Это не решённая задача - это открытый исследовательский вопрос.

**Hugging Face Open LLM Leaderboard**: публичный рейтинг открытых моделей по стандартным бенчмаркам. Обновляется автоматически. Проблема: модели начали оптимизироваться специально под бенчмарки - leaderboard hacking.
**Scale AI HELM**: независимая оценка 30+ моделей по 42 сценариям включая robustness, fairness, calibration. Платная, но независимая от самих лабораторий.
**ARC-AGI (François Chollet)**: бенчмарк на абстрактное рассуждение, специально разработанный чтобы нельзя было 'выучить' через pre-training. GPT-4: 33%. Человек: 85%. Цель - измерить реальное обобщение.

Предварительные знания

Как LLM генерирует текст и что pre-training делает со знаниями модели
Базовая статистика: проценты, доверительные интервалы, почему важен размер выборки
Знакомство с RLHF и human preference data (на нём строится preference-based оценка)

От GLUE до Chatbot Arena: как индустрия научилась измерять языковые модели

До 2018 года общего эталона для понимания языка не было. Alex Wang с коллегами представили GLUE в 2018: девять задач уровня предложения, собранные в один балл. Модели насытили его за год, поэтому в 2019 вышел SuperGLUE со сложными задачами. По мере роста моделей узкие задачи перестали быть информативными. Dan Hendrycks с соавторами опубликовали MMLU в 2020: 57 предметов от школьной математики до профессионального права, чтобы проверить широкие знания, которые одна дообученная модель не подделает. В 2022 Stanford CRFM под руководством Percy Liang выпустил HELM (Holistic Evaluation of Language Models): один балл точности скрывает картину, поэтому HELM оценивает модели сразу по точности, устойчивости, справедливости, калибровке и токсичности. Последний сдвиг был философским. Статические бенчмарки утекают в обучающие данные и перестают отражать реальное использование. В 2023 LMSYS запустил Chatbot Arena, где люди сравнивают две анонимные модели на своих промптах и голосуют, давая Elo-рейтинг из миллионов парных матчей. Прогрессия повторяет сами модели: каждый бенчмарк закрывал слепое пятно предыдущего и в свою очередь насыщался или загрязнялся.

MMLU и академические бенчмарки

**MMLU (Massive Multitask Language Understanding)** - 57 задач от медицины до права, 15 000+ вопросов с четырьмя вариантами ответа. Измеряет фактические знания и рассуждения. GPT-3 (2020) набирал 43%. GPT-4 (2023) - 87%. Claude 3.5 Sonnet (2024) - 89%. Проблема: модели начали натаскиваться на MMLU через pre-training данные.

**Benchmark contamination** - главная проблема: если тестовые данные попали в pre-training корпус, модель 'видела ответы'. MMLU широко доступен в интернете. ARC, HellaSwag - аналогично. Новые сложные бенчмарки (GPQA, MMMU, ARC-AGI) созданы специально с учётом contamination: вопросы составлены экспертами и не публиковались в интернете.

**EleutherAI LM Evaluation Harness**: open-source фреймворк для запуска 60+ бенчмарков. Стандарт для воспроизводимой оценки. HELM (Stanford) - альтернатива с фокусом на справедливость и надёжность помимо точности.

GPT-4 набирает 87% на MMLU. Означает ли это, что модель умнее 87% людей?

HumanEval и code benchmarks

**HumanEval** (OpenAI, 2021): 164 задачи на Python с unit тестами. Модель генерирует функцию, запускаются тесты. Pass@1 - процент задач решённых с первой попытки. GPT-4: 67%. Claude 3.5 Sonnet: 92%. Преимущество перед MMLU: верификация автоматическая и объективная - код либо проходит тесты, либо нет.

**SWE-bench** (Princeton, 2024) - самый сложный и реалистичный code benchmark. 300 реальных GitHub issues из популярных Python репозиториев (Django, Flask, scikit-learn). Модель должна найти затронутые файлы, понять контекст, написать fix, пройти все тесты. В 2024 лучший результат - Claude 3.5 Sonnet в связке с агентом: 49%.

Почему SWE-bench считается лучшим бенчмарком для coding моделей чем HumanEval?

Chatbot Arena: человеческие предпочтения как метрика

**Chatbot Arena** (LMSYS, 2023): пользователи задают один вопрос двум анонимным моделям и голосуют за лучший ответ. ELO-рейтинг как в шахматах. Миллионы голосований. Это единственный бенчмарк, который измеряет то, что важно: реальные предпочтения реальных пользователей на реальных задачах.

**Ограничения Arena**: selection bias - пользователи Arena не представляют все демографии. Задачи смещены в сторону того, что задают энтузиасты AI. Ответы со звёздочками и markdown воспринимаются лучше даже если содержательно хуже. 'Style vs substance' - известная проблема: многословные хорошо отформатированные ответы часто побеждают лаконичные точные.

Chatbot Arena показывает, что модель A побеждает модель B в 65% матчей. Что это значит для production выбора?

LLM-as-Judge: автоматизированная оценка

Human evaluation дорого, медленно и не масштабируется. **LLM-as-Judge** (LMSYS, 2023): используем GPT-4 или Claude для оценки ответов других моделей. Корреляция с human judgment: 80%+. Для многих задач этого достаточно чтобы заменить дорогую ручную оценку.

**Bias LLM-judge**: GPT-4 как судья предпочитает длинные ответы, ответы в определённом стиле, и - сюрприз - ответы самого GPT-4. Self-preference bias: модель-судья предвзята к модели-кандидату если они обучены на похожих данных. Mitigation: использовать разных судей, explicit rubrics, calibration на human labels.

**DeepEval и promptfoo**: open-source фреймворки для автоматизированного тестирования LLM приложений. G-Eval (LMSYS) - фреймворк для кастомных LLM-judge метрик. RAGAS - специализирован для RAG evaluation. Langfuse и Phoenix - платформы для трассировки и evaluation в production.

Высокий MMLU = лучшая модель для всех задач. Нужно просто выбрать модель с наивысшим бенчмарком

Разные бенчмарки измеряют разные аспекты. Для конкретной задачи нужна domain-specific evaluation на реальных данных

Claude 3.5 Sonnet лидирует на coding (SWE-bench). Gemini 1.5 Flash быстрее и дешевле. GPT-4o лучше в multimodal. Llama-3-70B - лучший open-source. Выбор модели - это задача под конкретное применение, а не гонка за MMLU.

GPT-4 используется как судья для оценки GPT-4 vs Claude. Какая проблема возникает?

Связанные темы

Evaluation - необходимый компонент любого AI-проекта:

RLHF и DPO — Reward model и human preference data - формализованная версия того, что Arena измеряет неформально
AI Safety и Alignment — Safety бенчмарки (ToxiGen, BeaverTails) измеряют вредоносность - специфический вид evaluation aligned с alignment

Ключевые идеи

**MMLU и академические бенчмарки**: измеряют фактические знания. Подвержены contamination - данные могли попасть в pre-training. GPQA и ARC-AGI - следующее поколение с защитой.
**HumanEval и SWE-bench**: coding бенчмарки с объективной верификацией через тесты. SWE-bench - реалистичнее (реальные GitHub issues в настоящих codebases).
**Chatbot Arena**: человеческие предпочтения как метрика через ELO рейтинг. Наиболее близок к реальной полезности, но имеет selection bias.
**LLM-as-Judge**: GPT-4 или Claude оценивают ответы - 80%+ корреляция с human judgment. Self-preference bias требует mitigation через несколько судей и rubrics.
**Практика**: для production системы нужна domain-specific evaluation на реальных данных, а не только публичные бенчмарки.

Вопросы для размышления

Компания хочет выбрать LLM для медицинского чат-ассистента. MMLU включает медицинские вопросы. Достаточно ли MMLU для выбора модели - или нужны другие метрики?
LLM-as-Judge имеет self-preference bias. Как построить evaluation систему, которая минимизирует этот bias при ограниченном бюджете на human evaluation?
Benchmark contamination: как проверить, не попали ли тестовые данные в pre-training корпус конкретной модели, если лаборатория не раскрывает состав данных?

Связанные уроки

gai-07 — Бенчмарки измеряют, что реально изменило выравнивание
gai-24 — Знание оценки проверяется на собеседованиях
aie-31-evaluation — Продакшен-пайплайны оценки LLM
ml-53-ab-testing-ml — Ранжирование в арене - статистическое A/B сравнение моделей
stat-05-hypothesis — Сравнение оценок требует проверки значимости