AI-инжиниринг
Карта AI в 2026: кто есть кто, что где используется, куда всё идёт
Цели урока
- Знать ключевых игроков AI-индустрии и их сильные стороны
- Различать типы моделей: chat, reasoning, embedding, speech, vision
- Уметь считать стоимость AI API для production
- Выбирать стек для AI-проекта в зависимости от требований
Предварительные знания
- AI для бекендера
Январь 2023. ChatGPT достиг 100 миллионов пользователей за 2 месяца - быстрее любого продукта в истории. Instagram: 2.5 года. TikTok: 9 месяцев. GPT API: первый год - 2 миллиона разработчиков. Индустрия AI engineering родилась за один квартал. Stripe переехал с GPT-4 на Claude за один спринт - и сэкономил деньги при росте качества. Без карты этого ландшафта архитектурные решения протухают быстрее кода.
- **Stripe** переключился с GPT-4 на Claude для code generation - качество выросло на 15%, стоимость упала при сопоставимой цене за токен
- **DoorDash** использует GPT-4o-mini для классификации, GPT-4o для сложного анализа - экономит 200 тысяч долларов в год через model routing
- **Notion** перебрал 5 разных моделей прежде чем остановился на оптимальном миксе для разных фич приложения
- **Perplexity AI** обрабатывает 100 миллионов запросов в месяц через RAG-стек поверх нескольких провайдеров одновременно
- **Character.ai** - 20 миллиардов сообщений в день, conversation memory на масштабе self-hosted моделей
- **GitHub Copilot** - embeddings + code-specific LLM, около 3 центов на completions при 10 USD/месяц подписке
Как за 3 года появился целый рынок
**Brown et al. 2020** - GPT-3 paper: 175 миллиардов параметров, few-shot learning без fine-tuning. Никакого публичного API. **Июнь 2020:** Sam Altman и Greg Brockman запускают OpenAI API - первый шаг к democratizing AI access, десятки компаний получают доступ к GPT-3 через REST endpoint. **Ноябрь 2022**: ChatGPT - 1 миллион пользователей за 5 дней. **Март 2023**: GPT-4 API открыт для разработчиков. Родилась профессия AI Backend Engineer. **Июль 2023**: Meta выпускает Llama 2 - open weights, можно запускать локально. **2024**: tool calling, multimodal, reasoning models (o1). Claude 3 обгоняет GPT-4 на code-задачах. **2025**: MCP-протокол, 206 тысяч долларов средняя зарплата AI-инженера в США по LinkedIn. **2026**: рынок из одной компании превратился в конкурентный ландшафт.
Главные игроки: кто делает AI-модели
Январь 2023. ChatGPT достиг 100 миллионов пользователей за 2 месяца - быстрее любого продукта в истории. Instagram: 2.5 года. TikTok: 9 месяцев. GPT API: первый год - 2 миллиона разработчиков. Индустрия AI engineering родилась за один квартал.
| Компания | Главные модели | Сильная сторона | API доступ |
|---|---|---|---|
| OpenAI | GPT-4o, GPT-4o-mini, o1, o3 | Экосистема, ChatGPT, широкий функционал | api.openai.com |
| Anthropic | Claude Sonnet 4.6, Claude Haiku 4.5, Claude Opus 4.7 | Безопасность, длинный контекст (200K-1M), код | api.anthropic.com |
| Gemini 2.5 Pro, Gemini Flash | Multimodal, интеграция с Google Cloud, контекст 1M | ai.google.dev | |
| Meta | Llama 3.1 (8B, 70B, 405B) | Open source, можно запускать локально, нет vendor lock-in | Бесплатно (self-hosted) |
| Mistral | Mistral Large, Mixtral, Codestral | Европейская альтернатива, open weights, GDPR-friendly | api.mistral.ai |
| xAI | Grok | Интеграция с X/Twitter, real-time данные | api.x.ai |
**Closed-source vs Open-source:** OpenAI и Anthropic дают доступ только через API - веса модели недоступны. Meta и Mistral публикуют weights - можно запустить модель на своём сервере. Это кардинально меняет стоимость, приватность и контроль над данными.
Для backend-разработчика здесь есть неочевидная свобода: **нет привязки к одному провайдеру**. OpenAI SDK и Anthropic SDK похожи структурно. Правильная архитектура - тонкий adapter layer - позволяет переключиться за минуты. DoorDash так и делает: GPT-4o-mini для классификации, GPT-4o для сложных кейсов, и этот routing экономит им 200 тысяч долларов в год.
Какая компания позволяет запускать свои модели на собственном сервере (open weights)?
Типы моделей: для чего какая
Использовать GPT-4o для классификации тикетов поддержки - это как нанять хирурга-кардиолога резать хлеб. Работать будет. В 30 раз дороже чем нужно - тоже да. **Model routing** - выбор правильного инструмента под задачу - это одна из первых вещей, которую делают опытные AI Backend Engineers.
| Тип модели | Что делает | Примеры | Когда использовать |
|---|---|---|---|
| Chat / Reasoning | Генерирует текст, рассуждает, пишет код | GPT-4o, Claude Sonnet 4.6, Gemini 2.5 Pro | Чат-боты, анализ, генерация |
| Small / Fast | То же, но дешевле и быстрее | GPT-4o-mini, Claude Haiku 4.5, Gemini Flash | Классификация, простые задачи, высокий RPS |
| Reasoning | Глубокие рассуждения, step-by-step | o1, o3, Claude с extended thinking | Математика, сложная логика, планирование |
| Embedding | Превращает текст в вектор | text-embedding-3-small/large, dim=1536 | Поиск по смыслу, RAG, кластеризация |
| Speech-to-Text | Распознаёт речь | Whisper, Deepgram Nova-2 | Голосовые интерфейсы, транскрипция |
| Text-to-Speech | Озвучивает текст, latency <300ms | OpenAI TTS, ElevenLabs | Голосовые ассистенты, аудиоконтент |
| Image Generation | Генерирует картинки | DALL-E 3, Midjourney, Stable Diffusion | Контент, дизайн, аватары |
| Vision | Понимает изображения | GPT-4o (vision), Claude (vision) | OCR, анализ скриншотов, модерация |
Embedding-модели стоят отдельного внимания: `text-embedding-3-small` превращает текст в вектор из 1536 чисел за 0.02 доллара за миллион токенов. Это буквально в **125 раз дешевле** чем GPT-4o-mini для генерации. Весь поиск по смыслу в RAG-системах, вся семантическая кластеризация строится на embeddings - не на дорогих chat-моделях.
**Ловушка новичка:** reasoning-модели (o1, o3) впечатляют на бенчмарках - но они в 10-50 раз дороже и в 3-5 раз медленнее обычных. Использовать o3 для классификации тикетов - это буквально Ferrari за хлебом. Reasoning-модели нужны когда задача требует многошаговой логики, не когда нужен быстрый ответ.
Для массовой классификации 100K тикетов поддержки по категориям лучше использовать:
Стоимость: сколько стоит AI в production
Все LLM API тарифицируются по **токенам** - единицах текста. Примерно 1 токен = 4 символа на английском. Слово "classification" - это 1 токен. Цена считается отдельно за входной (input) и выходной (output) текст - output обычно в 4-6 раз дороже, потому что генерация тяжелее inference.
| Модель | Input (за 1M токенов) | Output (за 1M) | Контекст |
|---|---|---|---|
| GPT-4o | 2.50 USD | 10.00 USD | 128K |
| GPT-4o-mini | 0.15 USD | 0.60 USD | 128K |
| Claude Opus 4.7 | 5.00 USD | 25.00 USD | 1M |
| Claude Sonnet 4.6 | 3.00 USD | 15.00 USD | 200K |
| Claude Haiku 4.5 | 1.00 USD | 5.00 USD | 200K |
| Gemini 2.5 Pro | 1.25 USD | 10.00 USD | 1M |
| Gemini Flash | 0.075 USD | 0.30 USD | 1M |
| DeepSeek V3 | 0.014 USD | 0.028 USD | 128K |
| Llama 3.1 70B (self-hosted) | ~0.50 USD | ~1.00 USD | 128K |
**Пример расчёта для чат-бота:**
Эти числа - не абстракция. Stripe перешёл с GPT-4 на Claude для code generation: качество выросло на 15%, стоимость упала. Notion перебрал 5 разных моделей перед тем как зафиксировать оптимальный микс. **Модель - это инженерное решение, которое пересматривают каждые несколько месяцев** по мере того как появляются новые SOTA и падают цены.
**Правило:** начинать с дешёвой модели (mini/haiku/flash), повышать только если качество не устраивает. Большинство production-задач не требуют flagship-моделей. Gemini Flash - 0.075 USD/1M input, Gemini 2.5 Pro - 1.25 USD/1M. Часто разница в качестве для конкретной задачи - нулевая.
Чат-бот обрабатывает 10,000 диалогов в день. Средний диалог: 400 input + 200 output токенов. Сколько стоит день работы на GPT-4o-mini (input 0.15 USD/1M, output 0.60 USD/1M)? Ответ в долларах, округли до центов.
Как выбрать стек для AI-проекта
Выбор модели - это не "какая самая умная". Это engineering decision: приватность, бюджет, latency, контекст, compliance. Вот decision matrix:
**Типичный стек AI Backend Engineer в 2026:**
- **Runtime:** Node.js / TypeScript (или Python для ML-heavy задач)
- **Framework:** NestJS / Fastify / Express
- **LLM:** OpenAI SDK + Anthropic SDK (fallback)
- **Embeddings:** text-embedding-3-small + pgvector, 1536 dim
- **STT/TTS:** Whisper + ElevenLabs streaming (latency <300ms)
- **Vector DB:** pgvector (если уже PostgreSQL) или Qdrant (если нужна скорость)
- **Orchestration:** LangChain.js или custom pipeline
- **Monitoring:** Langfuse / Helicone - cost per request, p95 latency
Здесь важна одна мысль: **абстракция над провайдером**. AI-индустрия меняется каждые 3-6 месяцев. Новый SOTA живёт в среднем 2 месяца. Claude Sonnet может обойти GPT-4o по коду - и компании, которые жёстко привязались к одному SDK, переписывают интеграции заново. Те, кто сделал тонкий adapter layer, просто меняют одну строчку в конфиге.
**Открытое правило AI Engineering:** никогда не выбирать стек навсегда. Проектировать так, чтобы замена модели или провайдера занимала часы, а не недели. Это одно из главных отличий senior AI Backend Engineer от junior.
Строится AI-продукт для европейского банка. Данные клиентов не могут покидать инфраструктуру банка. Какой подход к выбору модели?
Надо выбрать одну модель и использовать её для всего
Production AI-системы используют разные модели для разных задач - это называется model routing
Классификация тикета и написание сложного кода - задачи с разной ценой ошибки и разным оптимальным соотношением качество/цена. GPT-4o для классификации - переплата в 16 раз без прироста качества. Claude Sonnet для code generation вместо GPT-4o - это +15% качества при сопоставимой цене. Инженерный ответ: router, который выбирает модель под задачу.
Open-source модели - это компромисс по качеству
Llama 3.1 405B конкурирует с GPT-4o на многих задачах, а self-hosted стоит в 5-10 раз дешевле
Llama 3.1 70B через Groq стоит около 0.05 USD/1M токенов против 2.50 USD/1M у GPT-4o. На задачах классификации, summarization, structured extraction - разница в качестве минимальная или отсутствует. Разница в стоимости - 50 раз. Финансовые организации и медицина вынуждены идти на self-hosted не ради экономии, а ради compliance.
Ключевые выводы
- OpenAI и Anthropic - closed-source лидеры. Meta и Mistral - open-source альтернативы с полным контролем над данными и без vendor lock-in
- Flagship-модели для сложных задач. GPT-4o-mini / Claude Haiku / Gemini Flash - для массовых и простых. Разница в цене - 10-30 раз
- text-embedding-3-small (0.02 USD/1M) для семантического поиска в RAG - это другая категория, не chat-модели, и в 125 раз дешевле
- Стоимость - инженерная переменная: DoorDash экономит 200 тысяч долларов в год грамотным model routing
- Архитектура с абстракцией над провайдером - обязательна. Новый SOTA живёт ~2 месяца, и смена занимает часы, а не недели
- Sam Altman и Greg Brockman запустили OpenAI API в 2020 - этот момент democratized доступ к AI и породил профессию AI Backend Engineer
Вопросы для размышления
- Если бы нужно было построить чат-бот поддержки для SaaS-продукта с 50K запросов в день - с какой модели начать? Почему именно она?
- В чём разница между compliance-причиной для self-hosted и экономической? В каком проекте какая важнее?
- Почему важно проектировать с абстракцией над провайдером - если сегодня GPT-4o лучший, зачем закладывать возможность смены?
Что дальше
Карта ландшафта есть. Теперь ныряем под капот: как LLM работает изнутри - токены, embeddings, attention, и почему это важно для инженерных решений.
- Как работают LLM изнутри — Что происходит внутри модели при отправке промпта
- Стоимость и оптимизация — Детальный урок по управлению расходами на AI API
Связанные уроки
- aie-03-llm-fundamentals — Понимание ландшафта открывает механику LLM изнутри
- aie-29-cost-management — Детальная оптимизация расходов на API после базовой таблицы pricing
- aie-09-embeddings — Embedding-модели - отдельная категория в ландшафте
- aie-22-model-routing — Model routing - следующий шаг после понимания landscape
- ml-37-bert-gpt — Архитектурная история: от BERT/GPT к современным моделям
- aie-37-open-source-models — Глубокое погружение в open-source альтернативы
- ml-01-intro