AI-инжиниринг

Карта AI в 2026: кто есть кто, что где используется, куда всё идёт

Цели урока

  • Знать ключевых игроков AI-индустрии и их сильные стороны
  • Различать типы моделей: chat, reasoning, embedding, speech, vision
  • Уметь считать стоимость AI API для production
  • Выбирать стек для AI-проекта в зависимости от требований

Предварительные знания

  • AI для бекендера
  • AI для бекендера

Январь 2023. ChatGPT достиг 100 миллионов пользователей за 2 месяца - быстрее любого продукта в истории. Instagram: 2.5 года. TikTok: 9 месяцев. GPT API: первый год - 2 миллиона разработчиков. Индустрия AI engineering родилась за один квартал. Stripe переехал с GPT-4 на Claude за один спринт - и сэкономил деньги при росте качества. Без карты этого ландшафта архитектурные решения протухают быстрее кода.

  • **Stripe** переключился с GPT-4 на Claude для code generation - качество выросло на 15%, стоимость упала при сопоставимой цене за токен
  • **DoorDash** использует GPT-4o-mini для классификации, GPT-4o для сложного анализа - экономит 200 тысяч долларов в год через model routing
  • **Notion** перебрал 5 разных моделей прежде чем остановился на оптимальном миксе для разных фич приложения
  • **Perplexity AI** обрабатывает 100 миллионов запросов в месяц через RAG-стек поверх нескольких провайдеров одновременно
  • **Character.ai** - 20 миллиардов сообщений в день, conversation memory на масштабе self-hosted моделей
  • **GitHub Copilot** - embeddings + code-specific LLM, около 3 центов на completions при 10 USD/месяц подписке

Как за 3 года появился целый рынок

**Brown et al. 2020** - GPT-3 paper: 175 миллиардов параметров, few-shot learning без fine-tuning. Никакого публичного API. **Июнь 2020:** Sam Altman и Greg Brockman запускают OpenAI API - первый шаг к democratizing AI access, десятки компаний получают доступ к GPT-3 через REST endpoint. **Ноябрь 2022**: ChatGPT - 1 миллион пользователей за 5 дней. **Март 2023**: GPT-4 API открыт для разработчиков. Родилась профессия AI Backend Engineer. **Июль 2023**: Meta выпускает Llama 2 - open weights, можно запускать локально. **2024**: tool calling, multimodal, reasoning models (o1). Claude 3 обгоняет GPT-4 на code-задачах. **2025**: MCP-протокол, 206 тысяч долларов средняя зарплата AI-инженера в США по LinkedIn. **2026**: рынок из одной компании превратился в конкурентный ландшафт.

Главные игроки: кто делает AI-модели

Январь 2023. ChatGPT достиг 100 миллионов пользователей за 2 месяца - быстрее любого продукта в истории. Instagram: 2.5 года. TikTok: 9 месяцев. GPT API: первый год - 2 миллиона разработчиков. Индустрия AI engineering родилась за один квартал.

КомпанияГлавные моделиСильная сторонаAPI доступ
OpenAIGPT-4o, GPT-4o-mini, o1, o3Экосистема, ChatGPT, широкий функционалapi.openai.com
AnthropicClaude Sonnet 4.6, Claude Haiku 4.5, Claude Opus 4.7Безопасность, длинный контекст (200K-1M), кодapi.anthropic.com
GoogleGemini 2.5 Pro, Gemini FlashMultimodal, интеграция с Google Cloud, контекст 1Mai.google.dev
MetaLlama 3.1 (8B, 70B, 405B)Open source, можно запускать локально, нет vendor lock-inБесплатно (self-hosted)
MistralMistral Large, Mixtral, CodestralЕвропейская альтернатива, open weights, GDPR-friendlyapi.mistral.ai
xAIGrokИнтеграция с X/Twitter, real-time данныеapi.x.ai

**Closed-source vs Open-source:** OpenAI и Anthropic дают доступ только через API - веса модели недоступны. Meta и Mistral публикуют weights - можно запустить модель на своём сервере. Это кардинально меняет стоимость, приватность и контроль над данными.

Для backend-разработчика здесь есть неочевидная свобода: **нет привязки к одному провайдеру**. OpenAI SDK и Anthropic SDK похожи структурно. Правильная архитектура - тонкий adapter layer - позволяет переключиться за минуты. DoorDash так и делает: GPT-4o-mini для классификации, GPT-4o для сложных кейсов, и этот routing экономит им 200 тысяч долларов в год.

Какая компания позволяет запускать свои модели на собственном сервере (open weights)?

Типы моделей: для чего какая

Использовать GPT-4o для классификации тикетов поддержки - это как нанять хирурга-кардиолога резать хлеб. Работать будет. В 30 раз дороже чем нужно - тоже да. **Model routing** - выбор правильного инструмента под задачу - это одна из первых вещей, которую делают опытные AI Backend Engineers.

Тип моделиЧто делаетПримерыКогда использовать
Chat / ReasoningГенерирует текст, рассуждает, пишет кодGPT-4o, Claude Sonnet 4.6, Gemini 2.5 ProЧат-боты, анализ, генерация
Small / FastТо же, но дешевле и быстрееGPT-4o-mini, Claude Haiku 4.5, Gemini FlashКлассификация, простые задачи, высокий RPS
ReasoningГлубокие рассуждения, step-by-stepo1, o3, Claude с extended thinkingМатематика, сложная логика, планирование
EmbeddingПревращает текст в векторtext-embedding-3-small/large, dim=1536Поиск по смыслу, RAG, кластеризация
Speech-to-TextРаспознаёт речьWhisper, Deepgram Nova-2Голосовые интерфейсы, транскрипция
Text-to-SpeechОзвучивает текст, latency <300msOpenAI TTS, ElevenLabsГолосовые ассистенты, аудиоконтент
Image GenerationГенерирует картинкиDALL-E 3, Midjourney, Stable DiffusionКонтент, дизайн, аватары
VisionПонимает изображенияGPT-4o (vision), Claude (vision)OCR, анализ скриншотов, модерация

Embedding-модели стоят отдельного внимания: `text-embedding-3-small` превращает текст в вектор из 1536 чисел за 0.02 доллара за миллион токенов. Это буквально в **125 раз дешевле** чем GPT-4o-mini для генерации. Весь поиск по смыслу в RAG-системах, вся семантическая кластеризация строится на embeddings - не на дорогих chat-моделях.

**Ловушка новичка:** reasoning-модели (o1, o3) впечатляют на бенчмарках - но они в 10-50 раз дороже и в 3-5 раз медленнее обычных. Использовать o3 для классификации тикетов - это буквально Ferrari за хлебом. Reasoning-модели нужны когда задача требует многошаговой логики, не когда нужен быстрый ответ.

Для массовой классификации 100K тикетов поддержки по категориям лучше использовать:

Стоимость: сколько стоит AI в production

Все LLM API тарифицируются по **токенам** - единицах текста. Примерно 1 токен = 4 символа на английском. Слово "classification" - это 1 токен. Цена считается отдельно за входной (input) и выходной (output) текст - output обычно в 4-6 раз дороже, потому что генерация тяжелее inference.

МодельInput (за 1M токенов)Output (за 1M)Контекст
GPT-4o2.50 USD10.00 USD128K
GPT-4o-mini0.15 USD0.60 USD128K
Claude Opus 4.75.00 USD25.00 USD1M
Claude Sonnet 4.63.00 USD15.00 USD200K
Claude Haiku 4.51.00 USD5.00 USD200K
Gemini 2.5 Pro1.25 USD10.00 USD1M
Gemini Flash0.075 USD0.30 USD1M
DeepSeek V30.014 USD0.028 USD128K
Llama 3.1 70B (self-hosted)~0.50 USD~1.00 USD128K

**Пример расчёта для чат-бота:**

Эти числа - не абстракция. Stripe перешёл с GPT-4 на Claude для code generation: качество выросло на 15%, стоимость упала. Notion перебрал 5 разных моделей перед тем как зафиксировать оптимальный микс. **Модель - это инженерное решение, которое пересматривают каждые несколько месяцев** по мере того как появляются новые SOTA и падают цены.

**Правило:** начинать с дешёвой модели (mini/haiku/flash), повышать только если качество не устраивает. Большинство production-задач не требуют flagship-моделей. Gemini Flash - 0.075 USD/1M input, Gemini 2.5 Pro - 1.25 USD/1M. Часто разница в качестве для конкретной задачи - нулевая.

Чат-бот обрабатывает 10,000 диалогов в день. Средний диалог: 400 input + 200 output токенов. Сколько стоит день работы на GPT-4o-mini (input 0.15 USD/1M, output 0.60 USD/1M)? Ответ в долларах, округли до центов.

Как выбрать стек для AI-проекта

Выбор модели - это не "какая самая умная". Это engineering decision: приватность, бюджет, latency, контекст, compliance. Вот decision matrix:

**Типичный стек AI Backend Engineer в 2026:**

  • **Runtime:** Node.js / TypeScript (или Python для ML-heavy задач)
  • **Framework:** NestJS / Fastify / Express
  • **LLM:** OpenAI SDK + Anthropic SDK (fallback)
  • **Embeddings:** text-embedding-3-small + pgvector, 1536 dim
  • **STT/TTS:** Whisper + ElevenLabs streaming (latency <300ms)
  • **Vector DB:** pgvector (если уже PostgreSQL) или Qdrant (если нужна скорость)
  • **Orchestration:** LangChain.js или custom pipeline
  • **Monitoring:** Langfuse / Helicone - cost per request, p95 latency

Здесь важна одна мысль: **абстракция над провайдером**. AI-индустрия меняется каждые 3-6 месяцев. Новый SOTA живёт в среднем 2 месяца. Claude Sonnet может обойти GPT-4o по коду - и компании, которые жёстко привязались к одному SDK, переписывают интеграции заново. Те, кто сделал тонкий adapter layer, просто меняют одну строчку в конфиге.

**Открытое правило AI Engineering:** никогда не выбирать стек навсегда. Проектировать так, чтобы замена модели или провайдера занимала часы, а не недели. Это одно из главных отличий senior AI Backend Engineer от junior.

Строится AI-продукт для европейского банка. Данные клиентов не могут покидать инфраструктуру банка. Какой подход к выбору модели?

Надо выбрать одну модель и использовать её для всего

Production AI-системы используют разные модели для разных задач - это называется model routing

Классификация тикета и написание сложного кода - задачи с разной ценой ошибки и разным оптимальным соотношением качество/цена. GPT-4o для классификации - переплата в 16 раз без прироста качества. Claude Sonnet для code generation вместо GPT-4o - это +15% качества при сопоставимой цене. Инженерный ответ: router, который выбирает модель под задачу.

Open-source модели - это компромисс по качеству

Llama 3.1 405B конкурирует с GPT-4o на многих задачах, а self-hosted стоит в 5-10 раз дешевле

Llama 3.1 70B через Groq стоит около 0.05 USD/1M токенов против 2.50 USD/1M у GPT-4o. На задачах классификации, summarization, structured extraction - разница в качестве минимальная или отсутствует. Разница в стоимости - 50 раз. Финансовые организации и медицина вынуждены идти на self-hosted не ради экономии, а ради compliance.

Ключевые выводы

  • OpenAI и Anthropic - closed-source лидеры. Meta и Mistral - open-source альтернативы с полным контролем над данными и без vendor lock-in
  • Flagship-модели для сложных задач. GPT-4o-mini / Claude Haiku / Gemini Flash - для массовых и простых. Разница в цене - 10-30 раз
  • text-embedding-3-small (0.02 USD/1M) для семантического поиска в RAG - это другая категория, не chat-модели, и в 125 раз дешевле
  • Стоимость - инженерная переменная: DoorDash экономит 200 тысяч долларов в год грамотным model routing
  • Архитектура с абстракцией над провайдером - обязательна. Новый SOTA живёт ~2 месяца, и смена занимает часы, а не недели
  • Sam Altman и Greg Brockman запустили OpenAI API в 2020 - этот момент democratized доступ к AI и породил профессию AI Backend Engineer

Вопросы для размышления

  • Если бы нужно было построить чат-бот поддержки для SaaS-продукта с 50K запросов в день - с какой модели начать? Почему именно она?
  • В чём разница между compliance-причиной для self-hosted и экономической? В каком проекте какая важнее?
  • Почему важно проектировать с абстракцией над провайдером - если сегодня GPT-4o лучший, зачем закладывать возможность смены?

Что дальше

Карта ландшафта есть. Теперь ныряем под капот: как LLM работает изнутри - токены, embeddings, attention, и почему это важно для инженерных решений.

  • Как работают LLM изнутри — Что происходит внутри модели при отправке промпта
  • Стоимость и оптимизация — Детальный урок по управлению расходами на AI API

Связанные уроки

  • aie-03-llm-fundamentals — Понимание ландшафта открывает механику LLM изнутри
  • aie-29-cost-management — Детальная оптимизация расходов на API после базовой таблицы pricing
  • aie-09-embeddings — Embedding-модели - отдельная категория в ландшафте
  • aie-22-model-routing — Model routing - следующий шаг после понимания landscape
  • ml-37-bert-gpt — Архитектурная история: от BERT/GPT к современным моделям
  • aie-37-open-source-models — Глубокое погружение в open-source альтернативы
  • ml-01-intro
Карта AI в 2026: кто есть кто, что где используется, куда всё идёт

0

1

Войти