High Availability, или просто HA, — это подход к построению систем так, чтобы они почти не падали. Не в смысле «никогда», а в смысле минимальный простой и максимально предсказуемое поведение при сбоях.
Отказоустойчивый кластер — это набор серверов, связанных между собой так, что если один вылетает, остальные подхватывают его работу. Сервисы при этом продолжают быть доступны, а пользователи, в идеале, вообще не замечают, что что-то случилось.
Кластеры высокой доступности могут работать по разным схемам. В режиме active-active все узлы реально задействованы и делят между собой нагрузку. В варианте active-passive часть серверов стоит в резерве и включается только при проблемах с основными. Снаружи всё это выглядит как единая логическая система, хотя под капотом там несколько отдельных машин.
Если объяснить кластер совсем просто — это группа серверов, согласованно выполняющих одну и ту же задачу с возможностью автоматически переключить нагрузку, когда что-то ломается. Для пользователя это просто «оно работает», а внутри идёт постоянный контроль и переключения.
Сегодня без высокодоступных решений уже сложно представить банки, крупные интернет-магазины, облачные сервисы. Кластеры здесь выступают такой страховкой: даже если железо выходит из строя или нагрузка внезапно растёт, сервис остаётся на ходу и продолжает обслуживать запросы.
