Генеративный AI
Evaluation и Benchmarks
2023 год. Каждую неделю выходит новая 'лучшая' модель с рекордным MMLU. Через месяц выясняется: часть данных MMLU оказалась в pre-training. Benchmark contamination убивает доверие к результатам. Индустрия в поиске: как объективно измерить интеллект нейросети, когда она могла выучить ответы? Это не решённая задача - это открытый исследовательский вопрос.
- **Hugging Face Open LLM Leaderboard**: публичный рейтинг открытых моделей по стандартным бенчмаркам. Обновляется автоматически. Проблема: модели начали оптимизироваться специально под бенчмарки - leaderboard hacking.
- **Scale AI HELM**: независимая оценка 30+ моделей по 42 сценариям включая robustness, fairness, calibration. Платная, но независимая от самих лабораторий.
- **ARC-AGI (François Chollet)**: бенчмарк на абстрактное рассуждение, специально разработанный чтобы нельзя было 'выучить' через pre-training. GPT-4: 33%. Человек: 85%. Цель - измерить реальное обобщение.
Предварительные знания
- Как LLM генерирует текст и что pre-training делает со знаниями модели
- Базовая статистика: проценты, доверительные интервалы, почему важен размер выборки
- Знакомство с RLHF и human preference data (на нём строится preference-based оценка)
От GLUE до Chatbot Arena: как индустрия научилась измерять языковые модели
До 2018 года общего эталона для понимания языка не было. Alex Wang с коллегами представили GLUE в 2018: девять задач уровня предложения, собранные в один балл. Модели насытили его за год, поэтому в 2019 вышел SuperGLUE со сложными задачами. По мере роста моделей узкие задачи перестали быть информативными. Dan Hendrycks с соавторами опубликовали MMLU в 2020: 57 предметов от школьной математики до профессионального права, чтобы проверить широкие знания, которые одна дообученная модель не подделает. В 2022 Stanford CRFM под руководством Percy Liang выпустил HELM (Holistic Evaluation of Language Models): один балл точности скрывает картину, поэтому HELM оценивает модели сразу по точности, устойчивости, справедливости, калибровке и токсичности. Последний сдвиг был философским. Статические бенчмарки утекают в обучающие данные и перестают отражать реальное использование. В 2023 LMSYS запустил Chatbot Arena, где люди сравнивают две анонимные модели на своих промптах и голосуют, давая Elo-рейтинг из миллионов парных матчей. Прогрессия повторяет сами модели: каждый бенчмарк закрывал слепое пятно предыдущего и в свою очередь насыщался или загрязнялся.
MMLU и академические бенчмарки
**MMLU (Massive Multitask Language Understanding)** - 57 задач от медицины до права, 15 000+ вопросов с четырьмя вариантами ответа. Измеряет фактические знания и рассуждения. GPT-3 (2020) набирал 43%. GPT-4 (2023) - 87%. Claude 3.5 Sonnet (2024) - 89%. Проблема: модели начали натаскиваться на MMLU через pre-training данные.
**Benchmark contamination** - главная проблема: если тестовые данные попали в pre-training корпус, модель 'видела ответы'. MMLU широко доступен в интернете. ARC, HellaSwag - аналогично. Новые сложные бенчмарки (GPQA, MMMU, ARC-AGI) созданы специально с учётом contamination: вопросы составлены экспертами и не публиковались в интернете.
**EleutherAI LM Evaluation Harness**: open-source фреймворк для запуска 60+ бенчмарков. Стандарт для воспроизводимой оценки. HELM (Stanford) - альтернатива с фокусом на справедливость и надёжность помимо точности.
GPT-4 набирает 87% на MMLU. Означает ли это, что модель умнее 87% людей?
HumanEval и code benchmarks
**HumanEval** (OpenAI, 2021): 164 задачи на Python с unit тестами. Модель генерирует функцию, запускаются тесты. Pass@1 - процент задач решённых с первой попытки. GPT-4: 67%. Claude 3.5 Sonnet: 92%. Преимущество перед MMLU: верификация автоматическая и объективная - код либо проходит тесты, либо нет.
**SWE-bench** (Princeton, 2024) - самый сложный и реалистичный code benchmark. 300 реальных GitHub issues из популярных Python репозиториев (Django, Flask, scikit-learn). Модель должна найти затронутые файлы, понять контекст, написать fix, пройти все тесты. В 2024 лучший результат - Claude 3.5 Sonnet в связке с агентом: 49%.
Почему SWE-bench считается лучшим бенчмарком для coding моделей чем HumanEval?
Chatbot Arena: человеческие предпочтения как метрика
**Chatbot Arena** (LMSYS, 2023): пользователи задают один вопрос двум анонимным моделям и голосуют за лучший ответ. ELO-рейтинг как в шахматах. Миллионы голосований. Это единственный бенчмарк, который измеряет то, что важно: реальные предпочтения реальных пользователей на реальных задачах.
**Ограничения Arena**: selection bias - пользователи Arena не представляют все демографии. Задачи смещены в сторону того, что задают энтузиасты AI. Ответы со звёздочками и markdown воспринимаются лучше даже если содержательно хуже. 'Style vs substance' - известная проблема: многословные хорошо отформатированные ответы часто побеждают лаконичные точные.
Chatbot Arena показывает, что модель A побеждает модель B в 65% матчей. Что это значит для production выбора?
LLM-as-Judge: автоматизированная оценка
Human evaluation дорого, медленно и не масштабируется. **LLM-as-Judge** (LMSYS, 2023): используем GPT-4 или Claude для оценки ответов других моделей. Корреляция с human judgment: 80%+. Для многих задач этого достаточно чтобы заменить дорогую ручную оценку.
**Bias LLM-judge**: GPT-4 как судья предпочитает длинные ответы, ответы в определённом стиле, и - сюрприз - ответы самого GPT-4. Self-preference bias: модель-судья предвзята к модели-кандидату если они обучены на похожих данных. Mitigation: использовать разных судей, explicit rubrics, calibration на human labels.
**DeepEval и promptfoo**: open-source фреймворки для автоматизированного тестирования LLM приложений. G-Eval (LMSYS) - фреймворк для кастомных LLM-judge метрик. RAGAS - специализирован для RAG evaluation. Langfuse и Phoenix - платформы для трассировки и evaluation в production.
Высокий MMLU = лучшая модель для всех задач. Нужно просто выбрать модель с наивысшим бенчмарком
Разные бенчмарки измеряют разные аспекты. Для конкретной задачи нужна domain-specific evaluation на реальных данных
Claude 3.5 Sonnet лидирует на coding (SWE-bench). Gemini 1.5 Flash быстрее и дешевле. GPT-4o лучше в multimodal. Llama-3-70B - лучший open-source. Выбор модели - это задача под конкретное применение, а не гонка за MMLU.
GPT-4 используется как судья для оценки GPT-4 vs Claude. Какая проблема возникает?
Связанные темы
Evaluation - необходимый компонент любого AI-проекта:
- RLHF и DPO — Reward model и human preference data - формализованная версия того, что Arena измеряет неформально
- AI Safety и Alignment — Safety бенчмарки (ToxiGen, BeaverTails) измеряют вредоносность - специфический вид evaluation aligned с alignment
Ключевые идеи
- **MMLU и академические бенчмарки**: измеряют фактические знания. Подвержены contamination - данные могли попасть в pre-training. GPQA и ARC-AGI - следующее поколение с защитой.
- **HumanEval и SWE-bench**: coding бенчмарки с объективной верификацией через тесты. SWE-bench - реалистичнее (реальные GitHub issues в настоящих codebases).
- **Chatbot Arena**: человеческие предпочтения как метрика через ELO рейтинг. Наиболее близок к реальной полезности, но имеет selection bias.
- **LLM-as-Judge**: GPT-4 или Claude оценивают ответы - 80%+ корреляция с human judgment. Self-preference bias требует mitigation через несколько судей и rubrics.
- **Практика**: для production системы нужна domain-specific evaluation на реальных данных, а не только публичные бенчмарки.
Вопросы для размышления
- Компания хочет выбрать LLM для медицинского чат-ассистента. MMLU включает медицинские вопросы. Достаточно ли MMLU для выбора модели - или нужны другие метрики?
- LLM-as-Judge имеет self-preference bias. Как построить evaluation систему, которая минимизирует этот bias при ограниченном бюджете на human evaluation?
- Benchmark contamination: как проверить, не попали ли тестовые данные в pre-training корпус конкретной модели, если лаборатория не раскрывает состав данных?
Связанные уроки
- gai-07 — Бенчмарки измеряют, что реально изменило выравнивание
- gai-24 — Знание оценки проверяется на собеседованиях
- aie-31-evaluation — Продакшен-пайплайны оценки LLM
- ml-53-ab-testing-ml — Ранжирование в арене - статистическое A/B сравнение моделей
- stat-05-hypothesis — Сравнение оценок требует проверки значимости