AI-инжиниринг

Карта AI в 2026: кто есть кто, что где используется, куда всё идёт

Цели урока

Знать ключевых игроков AI-индустрии и их сильные стороны
Различать типы моделей: chat, reasoning, embedding, speech, vision
Уметь считать стоимость AI API для production
Выбирать стек для AI-проекта в зависимости от требований

Предварительные знания

AI для бекендера

AI для бекендера

Январь 2023. ChatGPT достиг 100 миллионов пользователей за 2 месяца - быстрее любого продукта в истории. Instagram: 2.5 года. TikTok: 9 месяцев. GPT API: первый год - 2 миллиона разработчиков. Индустрия AI engineering родилась за один квартал. Stripe переехал с GPT-4 на Claude за один спринт - и сэкономил деньги при росте качества. Без карты этого ландшафта архитектурные решения протухают быстрее кода.

**Stripe** переключился с GPT-4 на Claude для code generation - качество выросло на 15%, стоимость упала при сопоставимой цене за токен
**DoorDash** использует GPT-4o-mini для классификации, GPT-4o для сложного анализа - экономит 200 тысяч долларов в год через model routing
**Notion** перебрал 5 разных моделей прежде чем остановился на оптимальном миксе для разных фич приложения
**Perplexity AI** обрабатывает 100 миллионов запросов в месяц через RAG-стек поверх нескольких провайдеров одновременно
**Character.ai** - 20 миллиардов сообщений в день, conversation memory на масштабе self-hosted моделей
**GitHub Copilot** - embeddings + code-specific LLM, около 3 центов на completions при 10 USD/месяц подписке

Как за 3 года появился целый рынок

**Brown et al. 2020** - GPT-3 paper: 175 миллиардов параметров, few-shot learning без fine-tuning. Никакого публичного API. **Июнь 2020:** Sam Altman и Greg Brockman запускают OpenAI API - первый шаг к democratizing AI access, десятки компаний получают доступ к GPT-3 через REST endpoint. **Ноябрь 2022**: ChatGPT - 1 миллион пользователей за 5 дней. **Март 2023**: GPT-4 API открыт для разработчиков. Родилась профессия AI Backend Engineer. **Июль 2023**: Meta выпускает Llama 2 - open weights, можно запускать локально. **2024**: tool calling, multimodal, reasoning models (o1). Claude 3 обгоняет GPT-4 на code-задачах. **2025**: MCP-протокол, 206 тысяч долларов средняя зарплата AI-инженера в США по LinkedIn. **2026**: рынок из одной компании превратился в конкурентный ландшафт.

Главные игроки: кто делает AI-модели

Компания	Главные модели	Сильная сторона	API доступ
OpenAI	GPT-4o, GPT-4o-mini, o1, o3	Экосистема, ChatGPT, широкий функционал	api.openai.com
Anthropic	Claude Sonnet 4.6, Claude Haiku 4.5, Claude Opus 4.7	Безопасность, длинный контекст (200K-1M), код	api.anthropic.com
Google	Gemini 2.5 Pro, Gemini Flash	Multimodal, интеграция с Google Cloud, контекст 1M	ai.google.dev
Meta	Llama 3.1 (8B, 70B, 405B)	Open source, можно запускать локально, нет vendor lock-in	Бесплатно (self-hosted)
Mistral	Mistral Large, Mixtral, Codestral	Европейская альтернатива, open weights, GDPR-friendly	api.mistral.ai
xAI	Grok	Интеграция с X/Twitter, real-time данные	api.x.ai

**Closed-source vs Open-source:** OpenAI и Anthropic дают доступ только через API - веса модели недоступны. Meta и Mistral публикуют weights - можно запустить модель на своём сервере. Это кардинально меняет стоимость, приватность и контроль над данными.

Для backend-разработчика здесь есть неочевидная свобода: **нет привязки к одному провайдеру**. OpenAI SDK и Anthropic SDK похожи структурно. Правильная архитектура - тонкий adapter layer - позволяет переключиться за минуты. DoorDash так и делает: GPT-4o-mini для классификации, GPT-4o для сложных кейсов, и этот routing экономит им 200 тысяч долларов в год.

Какая компания позволяет запускать свои модели на собственном сервере (open weights)?

Типы моделей: для чего какая

Использовать GPT-4o для классификации тикетов поддержки - это как нанять хирурга-кардиолога резать хлеб. Работать будет. В 30 раз дороже чем нужно - тоже да. **Model routing** - выбор правильного инструмента под задачу - это одна из первых вещей, которую делают опытные AI Backend Engineers.

Тип модели	Что делает	Примеры	Когда использовать
Chat / Reasoning	Генерирует текст, рассуждает, пишет код	GPT-4o, Claude Sonnet 4.6, Gemini 2.5 Pro	Чат-боты, анализ, генерация
Small / Fast	То же, но дешевле и быстрее	GPT-4o-mini, Claude Haiku 4.5, Gemini Flash	Классификация, простые задачи, высокий RPS
Reasoning	Глубокие рассуждения, step-by-step	o1, o3, Claude с extended thinking	Математика, сложная логика, планирование
Embedding	Превращает текст в вектор	text-embedding-3-small/large, dim=1536	Поиск по смыслу, RAG, кластеризация
Speech-to-Text	Распознаёт речь	Whisper, Deepgram Nova-2	Голосовые интерфейсы, транскрипция
Text-to-Speech	Озвучивает текст, latency <300ms	OpenAI TTS, ElevenLabs	Голосовые ассистенты, аудиоконтент
Image Generation	Генерирует картинки	DALL-E 3, Midjourney, Stable Diffusion	Контент, дизайн, аватары
Vision	Понимает изображения	GPT-4o (vision), Claude (vision)	OCR, анализ скриншотов, модерация

Embedding-модели стоят отдельного внимания: `text-embedding-3-small` превращает текст в вектор из 1536 чисел за 0.02 доллара за миллион токенов. Это буквально в **125 раз дешевле** чем GPT-4o-mini для генерации. Весь поиск по смыслу в RAG-системах, вся семантическая кластеризация строится на embeddings - не на дорогих chat-моделях.

**Ловушка новичка:** reasoning-модели (o1, o3) впечатляют на бенчмарках - но они в 10-50 раз дороже и в 3-5 раз медленнее обычных. Использовать o3 для классификации тикетов - это буквально Ferrari за хлебом. Reasoning-модели нужны когда задача требует многошаговой логики, не когда нужен быстрый ответ.

Для массовой классификации 100K тикетов поддержки по категориям лучше использовать:

Стоимость: сколько стоит AI в production

Все LLM API тарифицируются по **токенам** - единицах текста. Примерно 1 токен = 4 символа на английском. Слово "classification" - это 1 токен. Цена считается отдельно за входной (input) и выходной (output) текст - output обычно в 4-6 раз дороже, потому что генерация тяжелее inference.

Модель	Input (за 1M токенов)	Output (за 1M)	Контекст
GPT-4o	2.50 USD	10.00 USD	128K
GPT-4o-mini	0.15 USD	0.60 USD	128K
Claude Opus 4.7	5.00 USD	25.00 USD	1M
Claude Sonnet 4.6	3.00 USD	15.00 USD	200K
Claude Haiku 4.5	1.00 USD	5.00 USD	200K
Gemini 2.5 Pro	1.25 USD	10.00 USD	1M
Gemini Flash	0.075 USD	0.30 USD	1M
DeepSeek V3	0.014 USD	0.028 USD	128K
Llama 3.1 70B (self-hosted)	~0.50 USD	~1.00 USD	128K

**Пример расчёта для чат-бота:**

Эти числа - не абстракция. Stripe перешёл с GPT-4 на Claude для code generation: качество выросло на 15%, стоимость упала. Notion перебрал 5 разных моделей перед тем как зафиксировать оптимальный микс. **Модель - это инженерное решение, которое пересматривают каждые несколько месяцев** по мере того как появляются новые SOTA и падают цены.

**Правило:** начинать с дешёвой модели (mini/haiku/flash), повышать только если качество не устраивает. Большинство production-задач не требуют flagship-моделей. Gemini Flash - 0.075 USD/1M input, Gemini 2.5 Pro - 1.25 USD/1M. Часто разница в качестве для конкретной задачи - нулевая.

Чат-бот обрабатывает 10,000 диалогов в день. Средний диалог: 400 input + 200 output токенов. Сколько стоит день работы на GPT-4o-mini (input 0.15 USD/1M, output 0.60 USD/1M)? Ответ в долларах, округли до центов.

Как выбрать стек для AI-проекта

Выбор модели - это не "какая самая умная". Это engineering decision: приватность, бюджет, latency, контекст, compliance. Вот decision matrix:

**Типичный стек AI Backend Engineer в 2026:**

**Runtime:** Node.js / TypeScript (или Python для ML-heavy задач)
**Framework:** NestJS / Fastify / Express
**LLM:** OpenAI SDK + Anthropic SDK (fallback)
**Embeddings:** text-embedding-3-small + pgvector, 1536 dim
**STT/TTS:** Whisper + ElevenLabs streaming (latency <300ms)
**Vector DB:** pgvector (если уже PostgreSQL) или Qdrant (если нужна скорость)
**Orchestration:** LangChain.js или custom pipeline
**Monitoring:** Langfuse / Helicone - cost per request, p95 latency

Здесь важна одна мысль: **абстракция над провайдером**. AI-индустрия меняется каждые 3-6 месяцев. Новый SOTA живёт в среднем 2 месяца. Claude Sonnet может обойти GPT-4o по коду - и компании, которые жёстко привязались к одному SDK, переписывают интеграции заново. Те, кто сделал тонкий adapter layer, просто меняют одну строчку в конфиге.

**Открытое правило AI Engineering:** никогда не выбирать стек навсегда. Проектировать так, чтобы замена модели или провайдера занимала часы, а не недели. Это одно из главных отличий senior AI Backend Engineer от junior.

Строится AI-продукт для европейского банка. Данные клиентов не могут покидать инфраструктуру банка. Какой подход к выбору модели?

Надо выбрать одну модель и использовать её для всего

Production AI-системы используют разные модели для разных задач - это называется model routing

Классификация тикета и написание сложного кода - задачи с разной ценой ошибки и разным оптимальным соотношением качество/цена. GPT-4o для классификации - переплата в 16 раз без прироста качества. Claude Sonnet для code generation вместо GPT-4o - это +15% качества при сопоставимой цене. Инженерный ответ: router, который выбирает модель под задачу.

Open-source модели - это компромисс по качеству

Llama 3.1 405B конкурирует с GPT-4o на многих задачах, а self-hosted стоит в 5-10 раз дешевле

Llama 3.1 70B через Groq стоит около 0.05 USD/1M токенов против 2.50 USD/1M у GPT-4o. На задачах классификации, summarization, structured extraction - разница в качестве минимальная или отсутствует. Разница в стоимости - 50 раз. Финансовые организации и медицина вынуждены идти на self-hosted не ради экономии, а ради compliance.

Ключевые выводы

OpenAI и Anthropic - closed-source лидеры. Meta и Mistral - open-source альтернативы с полным контролем над данными и без vendor lock-in
Flagship-модели для сложных задач. GPT-4o-mini / Claude Haiku / Gemini Flash - для массовых и простых. Разница в цене - 10-30 раз
text-embedding-3-small (0.02 USD/1M) для семантического поиска в RAG - это другая категория, не chat-модели, и в 125 раз дешевле
Стоимость - инженерная переменная: DoorDash экономит 200 тысяч долларов в год грамотным model routing
Архитектура с абстракцией над провайдером - обязательна. Новый SOTA живёт ~2 месяца, и смена занимает часы, а не недели
Sam Altman и Greg Brockman запустили OpenAI API в 2020 - этот момент democratized доступ к AI и породил профессию AI Backend Engineer

Вопросы для размышления

Если бы нужно было построить чат-бот поддержки для SaaS-продукта с 50K запросов в день - с какой модели начать? Почему именно она?
В чём разница между compliance-причиной для self-hosted и экономической? В каком проекте какая важнее?
Почему важно проектировать с абстракцией над провайдером - если сегодня GPT-4o лучший, зачем закладывать возможность смены?

Что дальше

Карта ландшафта есть. Теперь ныряем под капот: как LLM работает изнутри - токены, embeddings, attention, и почему это важно для инженерных решений.

Как работают LLM изнутри — Что происходит внутри модели при отправке промпта
Стоимость и оптимизация — Детальный урок по управлению расходами на AI API

Связанные уроки

aie-03-llm-fundamentals — Понимание ландшафта открывает механику LLM изнутри
aie-29-cost-management — Детальная оптимизация расходов на API после базовой таблицы pricing
aie-09-embeddings — Embedding-модели - отдельная категория в ландшафте
aie-22-model-routing — Model routing - следующий шаг после понимания landscape
ml-37-bert-gpt — Архитектурная история: от BERT/GPT к современным моделям
aie-37-open-source-models — Глубокое погружение в open-source альтернативы
ml-01-intro