Облачные вычисления
Cost Optimization
Airbnb экономит $13M в год на Spot инстансах для Data Engineering. Netflix сэкономил $18M перейдя на Graviton3. Gartner: 70% облачных ресурсов переразмерены. FinOps - не бухгалтерия, это инженерная дисциплина.
- **Airbnb:** Data Engineering на Spot инстансах: $13M/год экономии. EMR Spot для Spark кластеров. При interruption Spark перезапускает только упавшие задачи. Правильная диверсификация типов инстансов обеспечивает 99.9% availability Spot.
- **Netflix:** Миграция на Graviton3 (ARM): 40% экономия, 20-40% лучшая производительность. Java, Python и Go сервисы работают без изменений кода. $18M+ ежегодная экономия только от смены архитектуры процессора.
- **Atlassian:** RI + Savings Plans стратегия для Jira/Confluence Cloud: Compute SP для гибкости, EC2 Instance SP для core database серверов (PostgreSQL на RDS RI). AWS Cost Explorer рекомендации = 30% снижение счёта без деградации производительности.
Reserved
Reserved Instances (RI) - обязательство использовать конкретный тип EC2 (или RDS, ElastiCache) в течение 1 или 3 лет в обмен на скидку 30-75% против On-Demand. Standard RI: фиксированный instance type, AZ. Convertible RI: можно менять тип в рамках семейства. Scheduled RI: зарезервировано на определённые часы. Неиспользуемые RI продаются на Reserved Instance Marketplace.
RI vs Savings Plans: RI привязан к конкретному instance type и region. Savings Plans гибче - применяются к любому EC2 в регионе или глобально. Для баз данных (RDS, ElastiCache, Redshift) RI остаётся единственным вариантом долгосрочной скидки. AWS Cost Explorer рекомендует оптимальные RI на основе 90-дневной истории использования.
В чём главный риск при покупке Reserved Instances?
Savings Plans
AWS Savings Plans (2019) - гибкая альтернатива RI. Обязательство тратить N долларов в час в течение 1 или 3 лет. Compute Savings Plans: любой EC2, Fargate, Lambda в любом регионе (66% скидка). EC2 Instance Savings Plans: конкретное семейство инстансов в регионе (72% скидка). Автоматически применяются к счёту - не нужно сопоставлять с конкретными инстансами.
Приоритет применения: сначала используются RI (наибольшая скидка), потом Savings Plans, потом On-Demand. AWS Cost Explorer -> Savings Plans -> Recommendations показывает оптимальный commitment на основе текущего использования. Неиспользованный commitment = потеря денег.
Почему Compute Savings Plans предпочтительнее EC2 Instance Savings Plans для быстрорастущих компаний?
Spot
EC2 Spot Instances - прерываемые инстансы по ценам на 60-90% дешевле On-Demand. AWS может прервать Spot с 2-минутным предупреждением. Оптимальны для: пакетной обработки, ML training, CI/CD, stateless web workers, Spark кластеры. Airbnb экономит миллионы долларов используя Spot для Data Engineering. Spot Fleet / EC2 Auto Scaling Spot + On-Demand mix обеспечивает надёжность.
Spot Interruption Handling - критичен для production: instance metadata service уведомляет за 2 минуты (`http://169.254.169.254/latest/meta-data/spot/interruption-notice`). При interruption: drain load balancer, checkpoint задачу, graceful shutdown. Karpenter автоматически использует Spot и переключается на On-Demand при нехватке Spot capacity.
Почему для Spot Fleet рекомендуется указывать несколько типов инстансов (m5.large, m5.xlarge, c5.large)?
Right Sizing
Right-Sizing - подбор правильного размера EC2/RDS/ElastiCache инстансов под реальную нагрузку. 70% ресурсов в облаке переразмерены (Gartner). AWS Compute Optimizer анализирует CloudWatch метрики за 14 дней и рекомендует оптимальный тип. Типичная экономия: 20-40% от перехода m5.2xlarge -> m5.large при реальном использовании CPU 15%.
Инструменты: AWS Compute Optimizer (бесплатно, рекомендации EC2/RDS/Lambda), AWS Cost Explorer Right Sizing Recommendations, Infracost (open-source, интеграция с Terraform PR), CloudHealth (enterprise). Gravitation3 (ARM) инстансы: 40% дешевле x86 при сравнимой производительности для большинства workloads.
AWS Compute Optimizer рекомендует downsize инстанс при каком условии?
Ключевые идеи
- **RI vs Savings Plans:** RI для баз данных (RDS, ElastiCache, Redshift) - единственная опция долгосрочной скидки. Compute SP - для EC2/Fargate/Lambda с максимальной гибкостью. Commit только на stable baseline.
- **Spot:** 60-90% экономия для прерываемых workloads. Диверсификация типов инстансов критична для availability. Interrupt handler + checkpoint для stateful задач. Karpenter автоматически управляет Spot/On-Demand mix.
- **Right-Sizing + Graviton:** 70% ресурсов переразмерены. Compute Optimizer анализирует p99.5 метрики. Graviton3 = 40% дешевле + производительнее для большинства Linux workloads без изменений кода.
Связанные темы
Cost Optimization связана с операционными процессами и архитектурными решениями:
- Auto Scaling и Karpenter — Karpenter автоматически выбирает самый дешёвый тип инстанса (Spot или On-Demand) для каждого Pod'а, консолидирует nodes и удаляет ненужные
- FinOps и Tagging Strategy — Cost allocation tags (team, environment, cost-center) позволяют разбивать счёт AWS по командам и проектам. Config Rule для enforce tagging - без тегов ресурс не создаётся
- Serverless (Lambda, Fargate) — Lambda и Fargate автоматически right-sized - платите только за фактическое использование. Подходят для нерегулярных нагрузок где EC2 On-Demand или RI неэффективны
Вопросы для размышления
- Как определить оптимальный баланс между Spot (экономия), RI (стабильная скидка) и On-Demand (надёжность) для production web сервиса с SLA 99.9%?
- Каким инструментом измерить реальное потребление памяти EC2 для right-sizing, если CloudWatch показывает только CPU (Memory требует CloudWatch Agent)?
- Как организовать FinOps процесс в команде: кто отвечает за cost review, с какой частотой и какие метрики отслеживать?