Disaster Recovery — это всё, что связано с тем, как поднять IT-системы после серьёзных инцидентов: от поломки оборудования и вирусной атаки до пожара в дата-центре. Задача простая по формулировке и сложная по реализации — вернуть сервисы к жизни и минимизировать потери.
По сути, disaster recovery — это продуманная стратегия снижения простоя и потери данных. Для неё обычно готовят отдельный документ — DRP, план восстановления, где по шагам расписано, как вернуть доступность сервисов в разумные сроки и что делать в разных сценариях аварий.
В нормальный disaster recovery plan входят резервные копии, дубли баз данных, запасные серверы и продуманная схема переключения. Такой план создают заранее, а не в момент, когда «всё уже лежит», чтобы в критической ситуации действовать по инструкции, а не в панике. Сам процесс recovery — это уже конкретные действия по возвращению системы в рабочее состояние.
DRP — это, по сути, не просто список технологий, а документ, который отвечает на вопросы «кто делает», «что делает» и «в какой последовательности». Там учитываются не только сервера и сети, но и организационная часть — роли, контакты, порядок принятия решений. Для серверов и дата-центров сюда же попадают настройки резервных площадок и механизмы быстрого переключения нагрузки.
Отдельная история — DR site, запасная площадка, куда можно временно перевести сервисы, если основной центр недоступен. В современном бизнесе без продуманного disaster recovery жить довольно рискованно: рано или поздно серьёзный сбой случается у всех, и вопрос лишь в том, насколько компания к этому готова.
