Информационная безопасность

Incident Response

NotPetya 2017. Началась с одного украинского бухгалтерского ПО. Через 45 минут - Maersk, крупнейший контейнерный перевозчик. 10 дней ручного восстановления. 45 000 ПК. Единственный уцелевший AD контроллер - в Гане, случайно отключился от электричества во время атаки. $300M ущерба. Правильный containment в первые минуты = ограничение несколькими системами.

NotPetya 2017: $300M убытков Maersk. 45 000 ПК восстанавливали вручную 10 дней. Containment не был возможен из-за flat network
Twitter hack 2020: обнаружен пользователями, не внутренними системами. 130 аккаунтов. Detection failure
Colonial Pipeline 2021: $4.4M выкупа. Recovery занял 5 дней. Пятидневный топливный кризис в восточных штатах

Обнаружение: от алерта к инциденту

2020 год. Twitter hack. 130 аккаунтов включая Obama, Biden, Musk. Атака: социальная инженерия сотрудника поддержки -> доступ к внутренней системе -> захват аккаунтов для Bitcoin scam. Обнаружение: сами пользователи начали жаловаться на несанкционированные твиты. Twitter внутренние системы не обнаружили ничего подозрительного заранее. Detection - первая и самая критичная фаза IR. NIST SP 800-61 определяет IR lifecycle: Preparation -> Detection -> Containment -> Eradication -> Recovery -> Lessons Learned.

Incident Commander - роль, не должность. Координирует IR, принимает решения, коммуникация со stakeholders. Technical Lead - технический анализ. Legal/Privacy counsel - при PII утечке. Communications - внешние коммуникации. На маленьких командах один человек играет несколько ролей - но роли должны быть определены заранее.

EDR алерт: malware обнаружен на рабочей станции HR сотрудника. Нет признаков lateral movement. Приоритет?

Containment: остановить распространение

2017 год. NotPetya. Началась с одного бухгалтерского программного обеспечения MeDoc на Украине. Через 45 минут - Maersk (крупнейший контейнерный перевозчик мира). Причина: flat network, нет network segmentation. Containment NotPetya: невозможен - уже везде. Правильный containment: изолировать немедленно, даже ценой временной потери доступа. Maersk потеряла $300 млн. Containment в первые минуты мог ограничить несколькими системами.

Выключение скомпрометированной системы - потеря volatile данных. Memory образ (RAM dump) должен быть первым действием если возможно: winpmem.exe или LiME для Linux. Volatile data: running processes, network connections, encryption keys в памяти. После выключения - этого нет нигде.

Ransomware активен на file server. Шифрует файлы прямо сейчас. Что делать ПЕРВЫМ?

Eradication: полное устранение угрозы

Eradication без полного понимания root cause = повторный инцидент. 2021 год. Microsoft Exchange ProxyShell. Организация обнаружила webshell, удалила. Через неделю - снова webshell. Причина: не устранена уязвимость (Exchange не обновлён), не найдены все persistence механизмы. Eradication: (1) найти и закрыть initial vector, (2) найти все persistence механизмы, (3) удалить всё. Порядок важен - нельзя закрыть дверь если не знаешь где все входы.

Threat Intelligence из инцидента: IOCs (IP, domain, file hash, registry key) -> поделиться с ISAC (Information Sharing and Analysis Center) своей индустрии. FS-ISAC для финансов, H-ISAC для здравоохранения. Один инцидент -> защита сотен организаций от тех же атакующих.

Webshell найден и удалён. Exchange обновлён. Инцидент закрыт? Что пропущено?

Recovery и Lessons Learned

Maersk NotPetya recovery: 10 дней ручного восстановления 45 000 ПК, 4 000 серверов, 2 500 приложений. 45 000 новых ПК заказали у Dell. Единственная уцелевшая копия AD была в Гане - потеряла питание во время атаки и случайно не была заражена. Recovery без хорошего backup = катастрофа. Правило: backup test важнее backup creation. Нетестированный backup = нет backup.

Blameless postmortem - культурный паттерн из SRE (Google): постмортем фокусируется на системных проблемах, не на виновных. Человек нажал не ту кнопку -> система не должна позволять такое нажатие. Страх обвинений -> сокрытие информации -> неполный анализ -> повторные инциденты. Blameless -> полная картина -> реальное улучшение.

Incident Response - это удаление malware и возврат к работе

IR - структурированный процесс: Detection -> Containment -> Eradication -> Recovery -> Lessons Learned. Пропуск фазы приводит к повторным инцидентам

Microsoft Exchange ProxyShell: организации удаляли webshell (Eradication без полного анализа) без патча Exchange и проверки persistence. Атакующие возвращались через ту же уязвимость. Полный IR процесс предотвращает это.

Ransomware зашифровал production базу данных. Backup последний был 7 дней назад. RTO=4ч, RPO=24ч. Ситуация?

Итоги

Detection: triage алерта, классификация severity, объявить инцидент, назначить Incident Commander
Containment: изоляция сети > memory dump > форензика. NotPetya = пример провала containment. Не удалять систему сразу
Eradication: найти ВСЕ persistence механизмы, закрыть initial vector, сбросить credentials. Без полного анализа = повторный инцидент
Recovery + Lessons Learned: blameless postmortem, MTTD/MTTR метрики, обновить IR план. Нетестированный backup = нет backup

Связанные темы

Incident Response объединяет обнаружение, форензику и операционное восстановление:

SIEM и мониторинг — SIEM алерты инициируют IR и предоставляют логи для расследования
Форензика — Форензика предоставляет root cause analysis в рамках IR процесса
Red Team vs Blue Team — Успешная Red Team атака = реальный тест IR процесса команды

Вопросы для размышления

Почему выключение ransomware сервера может быть хуже чем изоляция сетевого подключения?
Что такое 'dwell time' и почему он важнее чем факт взлома для оценки ущерба?
Как blameless postmortem улучшает IR процесс по сравнению с поиском виновных?

Связанные уроки

sec-33 — SIEM алерты инициируют IR процесс
sec-35 — Форензика - часть IR для понимания root cause
sec-31 — IR - реальный тест Blue Team возможностей
os-22-debugging