Облачные вычисления

AWS Well-Architected Framework

AWS Well-Architected Framework - это 5 линз, через которые Amazon смотрит на архитектуру. Но вот парадокс: большинство компаний нарушают хотя бы один pillar критически. Среднестатистический стартап переплачивает за облако 40%, при этом не имея нормальных runbook'ов для инцидентов. WAF - это чеклист из 200+ вопросов, который спасает от 'мы не подумали об этом'.

Netflix прошла Well-Architected Review перед каждым крупным запуском - Chaos Engineering стал частью Reliability pillar их внутреннего процесса
Spotify сократила cloud-расходы на 23 млн долларов в год после WAF Cost Optimization review - только за счёт rightsize и Savings Plans
Capital One после breach 2019 полностью перестроила Security pillar: Zero Trust, PrivateLink, принцип least privilege для каждого Lambda

Reliability Pillar: системы, которые работают в 3 часа ночи

Reliability - способность системы восстанавливаться от сбоев и продолжать работу. Не 'не ломаться' - это невозможно. А 'ломаться предсказуемо и восстанавливаться автоматически'. Netflix Chaos Monkey ломает сервисы в production намеренно - чтобы убедиться, что Reliability работает.

Три кита Reliability: foundations (IAM, Service Quotas, network topology), workload architecture (circuit breakers, bulkhead pattern, timeouts), change management (blue/green, canary deployments). WAF требует проектировать для failure, а не против него.

Recovery objectives: RTO (Recovery Time Objective) - как долго система недоступна при сбое. RPO (Recovery Point Objective) - сколько данных потеряно при сбое. Для финтека: RTO < 1 минута, RPO = 0. Для блога: RTO = 24 часа, RPO = 1 час. Архитектура и стоимость кратно зависят от этих цифр.

Quotas - скрытая угроза Reliability. По умолчанию AWS ограничивает: 5 VPC на регион, 20 EC2 инстансов на тип, 50 security groups на ENI. При быстром росте квоты заканчиваются внезапно. Заявка на увеличение занимает 1-5 дней. Service Quotas dashboard + CloudWatch alarms на приближение к лимитам.

Что такое RTO?

Performance Efficiency: делать больше с тем же

Performance Efficiency - выбор правильного типа ресурса для задачи и адаптация при изменении нагрузки. Не максимальная производительность - а оптимальная. Graviton3-инстанс дешевле Intel x86 на 20% при аналогичной производительности для большинства web-workloads.

Democratization of advanced technologies: вместо кастомного ML-pipeline - SageMaker. Вместо самодельного поиска - OpenSearch. Вместо кастомного video transcoding - MediaConvert. AWS вложила миллиарды в эти сервисы - использование их вместо DIY повышает performance при меньших затратах.

Mechanical sympathy - понимание железа для правильного выбора. c5 (compute-optimized) для ML inference, r5 (memory-optimized) для Redis self-hosted, i3 (storage-optimized) для Elasticsearch, p3 (GPU) для обучения моделей. Неправильный тип инстанса - перерасход 2-5x при той же нагрузке.

Какой тип EC2 лучше для in-memory database (Redis)?

Cost Optimization: платить только за нужное

Средняя компания переплачивает за AWS 35-45%. Это данные CloudHealth и Flexera. Причины: оверпровиженинг ('на всякий случай'), забытые ресурсы (dev-окружения выходные), неоптимальный тариф (On-Demand вместо Reserved/Spot). WAF Cost pillar систематизирует подход.

FinOps - культурный сдвиг: каждая команда видит свои расходы через Cost Allocation Tags. Тег `team=checkout` на всех ресурсах checkout-команды. Dashboard в Grafana с Cost Explorer API. Еженедельный review аномалий. Amazon внутри работает именно так - каждый сервис платит за инфраструктуру как внутренний клиент.

Spot Instances для ML training: p3.8xlarge On-Demand - 12 долларов/час. Spot - 3.6 долларов/час. Обучение GPT-style модели на 100 GPU-часах: 1200 vs 360 долларов. 840 долларов разница. Нужен checkpoint каждые 30 минут для восстановления после прерывания. Это стандарт в research-организациях.

Что такое Spot Instances?

Security Pillar: defence in depth

Security in WAF - это Shared Responsibility Model: AWS отвечает за безопасность облака (физический дата-центр, гипервизор, managed service patching), клиент - за безопасность в облаке (IAM, шифрование, network config, application). Путаница в этой границе - источник большинства breach.

Defence in depth: несколько слоёв. Perimeter (WAF, Shield, CloudFront), Network (Security Groups, NACLs, VPC Flow Logs), Identity (IAM, MFA, SCPs), Data (KMS encryption at rest, TLS in transit), Application (code scanning, secret management). Атакующий должен взломать все уровни.

Zero Trust в AWS: VPC не означает доверие. Каждый сервис аутентифицируется через IAM Role, каждый запрос проверяется. AWS PrivateLink убирает VPC peering complexities - сервисы общаются через приватные endpoints без раскрытия VPC CIDR. Service Mesh (AWS App Mesh) для mTLS между микросервисами.

За что AWS НЕ несёт ответственности по Shared Responsibility Model?

Operational Excellence: автоматизировать всё что можно

Operational Excellence - способность запускать и мониторить системы для доставки бизнес-ценности и непрерывного улучшения процессов. Amazon внутри работает по принципу: если что-то делается вручную дважды - автоматизируй. Если что-то ломается без оповещения - добавь alarm.

Runbook - задокументированная процедура для операционных задач. Playbook - набор шагов для реагирования на инциденты. AWS Systems Manager Automation переводит их в код: нажал кнопку в консоли или API вызов - SSM запускает 20 проверок и исправлений автоматически. Человек только утверждает критичные шаги.

Observability trinity: Metrics (CloudWatch, Prometheus), Logs (CloudWatch Logs, OpenSearch), Traces (X-Ray, OpenTelemetry). WAF Operational Excellence требует все три. Один метрик без трейса не объясняет почему p99 latency выросла. Трейс без логов не показывает детали ошибки.

Well-Architected Review - это разовая проверка перед запуском в production

WAR - это непрерывный процесс, AWS рекомендует проводить его каждый квартал для каждого workload

Архитектура меняется: растёт нагрузка, добавляются фичи, появляются новые AWS сервисы. Workload оптимальный полгода назад может быть не оптимальным сегодня. WAF Tool в консоли позволяет трекать изменения в ответах между ревью

Чем Runbook отличается от Playbook в контексте WAF?

Связанные темы

WAF охватывает весь стек от infrastructure до culture:

Compliance и аудит — Security pillar - аудит и guardrails
Backpressure и rate limiting — Reliability паттерны для устойчивости
CAP-теорема — Теоретическая основа Reliability трейдоффов

Ключевые идеи

Reliability: проектируй для failure. RTO/RPO определяют стоимость архитектуры
Performance Efficiency: правильный тип ресурса + managed services вместо DIY
Cost Optimization: rightsize + Savings Plans + Spot = -40-70% расходов
Security: Shared Responsibility + Defence in Depth + Zero Trust
Operational Excellence: automate everything, measure everything, runbooks as code

Вопросы для размышления

Как приоритизировать pillars когда ресурсы ограничены - что важнее всего для стартапа?
Когда Spot Instances неприемлемы, даже если экономия 70%?
Как встроить Well-Architected Review в agile-процесс, не превращая его в ежеквартальный ритуал?

Связанные уроки

cloud-15 — Compliance - часть Security pillar WAF
devops-16 — Prometheus/Grafana - инструмент Operational Excellence
bt-22-backpressure — Backpressure - паттерн Reliability pillar
ds-02-cap-theorem — CAP-теорема - теоретический фундамент Reliability
devops-01